最新文章專題視頻專題問答1問答10問答100問答1000問答2000關(guān)鍵字專題1關(guān)鍵字專題50關(guān)鍵字專題500關(guān)鍵字專題1500TAG最新視頻文章推薦1 推薦3 推薦5 推薦7 推薦9 推薦11 推薦13 推薦15 推薦17 推薦19 推薦21 推薦23 推薦25 推薦27 推薦29 推薦31 推薦33 推薦35 推薦37視頻文章20視頻文章30視頻文章40視頻文章50視頻文章60 視頻文章70視頻文章80視頻文章90視頻文章100視頻文章120視頻文章140 視頻2關(guān)鍵字專題關(guān)鍵字專題tag2tag3文章專題文章專題2文章索引1文章索引2文章索引3文章索引4文章索引5123456789101112131415文章專題3
問答文章1 問答文章501 問答文章1001 問答文章1501 問答文章2001 問答文章2501 問答文章3001 問答文章3501 問答文章4001 問答文章4501 問答文章5001 問答文章5501 問答文章6001 問答文章6501 問答文章7001 問答文章7501 問答文章8001 問答文章8501 問答文章9001 問答文章9501
當(dāng)前位置: 首頁 - 科技 - 知識百科 - 正文

利用pandas庫對cdn日志分析的實(shí)現(xiàn)方法

來源:懂視網(wǎng) 責(zé)編:小采 時(shí)間:2020-11-27 14:24:20
文檔

利用pandas庫對cdn日志分析的實(shí)現(xiàn)方法

利用pandas庫對cdn日志分析的實(shí)現(xiàn)方法:這篇文章主要介紹了利用Python中的pandas庫進(jìn)行cdn日志分析的相關(guān)資料,文中分享了pandas對cdn日志分析的完整示例代碼,然后詳細(xì)介紹了關(guān)于pandas庫的相關(guān)內(nèi)容,需要的朋友可以參考借鑒,下面來一起看看吧。前言最近工作工作中遇到一個(gè)需求,是要根據(jù)CDN日
推薦度:
導(dǎo)讀利用pandas庫對cdn日志分析的實(shí)現(xiàn)方法:這篇文章主要介紹了利用Python中的pandas庫進(jìn)行cdn日志分析的相關(guān)資料,文中分享了pandas對cdn日志分析的完整示例代碼,然后詳細(xì)介紹了關(guān)于pandas庫的相關(guān)內(nèi)容,需要的朋友可以參考借鑒,下面來一起看看吧。前言最近工作工作中遇到一個(gè)需求,是要根據(jù)CDN日

這篇文章主要介紹了利用Python中的pandas庫進(jìn)行cdn日志分析的相關(guān)資料,文中分享了pandas對cdn日志分析的完整示例代碼,然后詳細(xì)介紹了關(guān)于pandas庫的相關(guān)內(nèi)容,需要的朋友可以參考借鑒,下面來一起看看吧。

前言

最近工作工作中遇到一個(gè)需求,是要根據(jù)CDN日志過濾一些數(shù)據(jù),例如流量、狀態(tài)碼統(tǒng)計(jì),TOP IP、URL、UA、Referer等。以前都是用 bash shell 實(shí)現(xiàn)的,但是當(dāng)日志量較大,日志文件數(shù)G、行數(shù)達(dá)數(shù)千萬億級時(shí),通過 shell 處理有些力不從心,處理時(shí)間過長。于是研究了下Python pandas這個(gè)數(shù)據(jù)處理庫的使用。一千萬行日志,處理完成在40s左右。

代碼

#!/usr/bin/python
# -*- coding: utf-8 -*-
# sudo pip install pandas
author = 'Loya Chen'
import sys
import pandas as pd
from collections import OrderedDict
"""
Description: This script is used to analyse qiniu cdn log.
================================================================================
日志格式
IP - ResponseTime [time +0800] "Method URL HTTP/1.1" code size "referer" "UA"
================================================================================
日志示例
 [0] [1][2] [3] [4] [5]
101.226.66.179 - 68 [16/Nov/2016:04:36:40 +0800] "GET http://www.qn.com/1.jpg -" 
[6] [7] [8] [9]
200 502 "-" "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0)"
================================================================================
"""
if len(sys.argv) != 2:
 print('Usage:', sys.argv[0], 'file_of_log')
 exit() 
else:
 log_file = sys.argv[1] 
# 需統(tǒng)計(jì)字段對應(yīng)的日志位置 
ip = 0
url = 5
status_code = 6
size = 7
referer = 8
ua = 9
# 將日志讀入DataFrame
reader = pd.read_table(log_file, sep=' ', names=[i for i in range(10)], iterator=True)
loop = True
chunkSize = 10000000
chunks = []
while loop:
 try:
 chunk = reader.get_chunk(chunkSize)
 chunks.append(chunk)
 except StopIteration:
 #Iteration is stopped.
 loop = False
df = pd.concat(chunks, ignore_index=True)
byte_sum = df[size].sum() #流量統(tǒng)計(jì)
top_status_code = pd.DataFrame(df[6].value_counts()) #狀態(tài)碼統(tǒng)計(jì)
top_ip = df[ip].value_counts().head(10) #TOP IP
top_referer = df[referer].value_counts().head(10) #TOP Referer
top_ua = df[ua].value_counts().head(10) #TOP User-Agent
top_status_code['persent'] = pd.DataFrame(top_status_code/top_status_code.sum()*100)
top_url = df[url].value_counts().head(10) #TOP URL
top_url_byte = df[[url,size]].groupby(url).sum().apply(lambda x:x.astype(float)/1024/1024) 
 .round(decimals = 3).sort_values(by=[size], ascending=False)[size].head(10) #請求流量最大的URL
top_ip_byte = df[[ip,size]].groupby(ip).sum().apply(lambda x:x.astype(float)/1024/1024) 
 .round(decimals = 3).sort_values(by=[size], ascending=False)[size].head(10) #請求流量最多的IP
# 將結(jié)果有序存入字典
result = OrderedDict([("流量總計(jì)[單位:GB]:" , byte_sum/1024/1024/1024),
 ("狀態(tài)碼統(tǒng)計(jì)[次數(shù)|百分比]:" , top_status_code),
 ("IP TOP 10:" , top_ip),
 ("Referer TOP 10:" , top_referer),
 ("UA TOP 10:" , top_ua),
 ("URL TOP 10:" , top_url),
 ("請求流量最大的URL TOP 10[單位:MB]:" , top_url_byte), 
 ("請求流量最大的IP TOP 10[單位:MB]:" , top_ip_byte)
])
# 
輸出結(jié)果 for k,v in result.items(): print(k) print(v) print('='*80)

pandas 學(xué)習(xí)筆記

Pandas 中有兩種基本的數(shù)據(jù)結(jié)構(gòu),Series 和 Dataframe。 Series 是一種類似于一維數(shù)組的對象,由一組數(shù)據(jù)和索引組成。 Dataframe 是一個(gè)表格型的數(shù)據(jù)結(jié)構(gòu),既有行索引也有列索引。

from pandas import Series, DataFrame
import pandas as pd

Series

In [1]: obj = Series([4, 7, -5, 3])
In [2]: obj
Out[2]: 
0 4
1 7
2 -5
3 3

Series的字符串表現(xiàn)形式為:索引在左邊,值在右邊。沒有指定索引時(shí),會(huì)自動(dòng)創(chuàng)建一個(gè)0到N-1(N為數(shù)據(jù)的長度)的整數(shù)型索引??梢酝ㄟ^Series的values和index屬性獲取其數(shù)組表示形式和索引對象:

In [3]: obj.values
Out[3]: array([ 4, 7, -5, 3])
In [4]: obj.index
Out[4]: RangeIndex(start=0, stop=4, step=1)

通常創(chuàng)建Series時(shí)會(huì)指定索引:

In [5]: obj2 = Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])
In [6]: obj2
Out[6]: 
d 4
b 7
a -5
c 3

通過索引獲取Series中的單個(gè)或一組值:

In [7]: obj2['a']
Out[7]: -5
In [8]: obj2[['c','d']]
Out[8]: 
c 3
d 4

排序

In [9]: obj2.sort_index()
Out[9]: 
a -5
b 7
c 3
d 4
In [10]: obj2.sort_values()
Out[10]: 
a -5
c 3
d 4
b 7

篩選運(yùn)算

In [11]: obj2[obj2 > 0]
Out[11]: 
d 4
b 7
c 3
In [12]: obj2 * 2
Out[12]: 
d 8
b 14
a -10
c 6

成員

In [13]: 'b' in obj2
Out[13]: True
In [14]: 'e' in obj2
Out[14]: False

通過字典創(chuàng)建Series

In [15]: sdata = {'Shanghai':35000, 'Beijing':40000, 'Nanjing':26000, 'Hangzhou':30000}
In [16]: obj3 = Series(sdata)
In [17]: obj3
Out[17]: 
Beijing 40000
Hangzhou 30000
Nanjing 26000
Shanghai 35000

如果只傳入一個(gè)字典,則結(jié)果Series中的索引就是原字典的鍵(有序排列)

In [18]: states = ['Beijing', 'Hangzhou', 'Shanghai', 'Suzhou']
In [19]: obj4 = Series(sdata, index=states)
In [20]: obj4
Out[20]: 
Beijing 40000.0
Hangzhou 30000.0
Shanghai 35000.0
Suzhou NaN

當(dāng)指定index時(shí),sdata中跟states索引相匹配的3個(gè)值會(huì)被找出并放到響應(yīng)的位置上,但由于‘Suzhou'所對應(yīng)的sdata值找不到,所以其結(jié)果為NaN(not a number),pandas中用于表示缺失或NA值

pandas的isnull和notnull函數(shù)可以用于檢測缺失數(shù)據(jù):

In [21]: pd.isnull(obj4)
Out[21]: 
Beijing False
Hangzhou False
Shanghai False
Suzhou True
In [22]: pd.notnull(obj4)
Out[22]: 
Beijing True
Hangzhou True
Shanghai True
Suzhou False

Series也有類似的實(shí)例方法

In [23]: obj4.isnull()
Out[23]: 
Beijing False
Hangzhou False
Shanghai False
Suzhou True

Series的一個(gè)重要功能是,在數(shù)據(jù)運(yùn)算中,自動(dòng)對齊不同索引的數(shù)據(jù)

In [24]: obj3
Out[24]: 
Beijing 40000
Hangzhou 30000
Nanjing 26000
Shanghai 35000
In [25]: obj4
Out[25]: 
Beijing 40000.0
Hangzhou 30000.0
Shanghai 35000.0
Suzhou NaN
In [26]: obj3 + obj4
Out[26]: 
Beijing 80000.0
Hangzhou 60000.0
Nanjing NaN
Shanghai 70000.0
Suzhou NaN

Series的索引可以通過復(fù)制的方式就地修改

In [27]: obj.index = ['Bob', 'Steve', 'Jeff', 'Ryan']
In [28]: obj
Out[28]: 
Bob 4
Steve 7
Jeff -5
Ryan 3

DataFrame

pandas讀取文件

In [29]: df = pd.read_table('pandas_test.txt',sep=' ', names=['name', 'age'])
In [30]: df
Out[30]: 
 name age
0 Bob 26
1 Loya 22
2 Denny 20
3 Mars 25

DataFrame列選取

df[name]
In [31]: df['name']
Out[31]: 
0 Bob
1 Loya
2 Denny
3 Mars
Name: name, dtype: object

DataFrame行選取

df.iloc[0,:] #第一個(gè)參數(shù)是第幾行,第二個(gè)參數(shù)是列。這里指第0行全部列
df.iloc[:,0] #全部行,第0列
In [32]: df.iloc[0,:]
Out[32]: 
name Bob
age 26
Name: 0, dtype: object
In [33]: df.iloc[:,0]
Out[33]: 
0 Bob
1 Loya
2 Denny
3 Mars
Name: name, dtype: object

獲取一個(gè)元素,可以通過iloc,更快的方式是iat

In [34]: df.iloc[1,1]
Out[34]: 22
In [35]: df.iat[1,1]
Out[35]: 22

DataFrame塊選取

In [36]: df.loc[1:2,['name','age']]
Out[36]: 
 name age
1 Loya 22
2 Denny 20

根據(jù)條件過濾行

在方括號中加入判斷條件來過濾行,條件必需返回 True 或者 False

In [37]: df[(df.index >= 1) & (df.index <= 3)]
Out[37]: 
 name age city
1 Loya 22 Shanghai
2 Denny 20 Hangzhou
3 Mars 25 Nanjing
In [38]: df[df['age'] > 22]
Out[38]: 
 name age city
0 Bob 26 Beijing
3 Mars 25 Nanjing

增加列

In [39]: df['city'] = ['Beijing', 'Shanghai', 'Hangzhou', 'Nanjing']
In [40]: df
Out[40]: 
 name age city
0 Bob 26 Beijing
1 Loya 22 Shanghai
2 Denny 20 Hangzhou
3 Mars 25 Nanjing

排序

按指定列排序

In [41]: df.sort_values(by='age')
Out[41]: 
 name age city
2 Denny 20 Hangzhou
1 Loya 22 Shanghai
3 Mars 25 Nanjing
0 Bob 26 Beijing
# 引入numpy 構(gòu)建 DataFrame
import numpy as np
In [42]: df = pd.DataFrame(np.arange(8).reshape((2, 4)), index=['three', 'one'], columns=['d', 'a', 'b', 'c'])
In [43]: df
Out[43]: 
 d a b c
three 0 1 2 3
one 4 5 6 7
# 以索引排序
In [44]: df.sort_index()
Out[44]: 
 d a b c
one 4 5 6 7
three 0 1 2 3
In [45]: df.sort_index(axis=1)
Out[45]: 
 a b c d
three 1 2 3 0
one 5 6 7 4
# 降序
In [46]: df.sort_index(axis=1, ascending=False)
Out[46]: 
 d c b a
three 0 3 2 1
one 4 7 6 5

查看

# 查看表頭5行 
df.head(5)
# 查看表末5行
df.tail(5) 
# 查看列的名字
In [47]: df.columns
Out[47]: Index(['name', 'age', 'city'], dtype='object')
# 查看表格當(dāng)前的值
In [48]: df.values
Out[48]: 
array([['Bob', 26, 'Beijing'],
 ['Loya', 22, 'Shanghai'],
 ['Denny', 20, 'Hangzhou'],
 ['Mars', 25, 'Nanjing']], dtype=object)

轉(zhuǎn)置

df.T
Out[49]: 
 0 1 2 3
name Bob Loya Denny Mars
age 26 22 20 25
city Beijing Shanghai Hangzhou Nanjing

使用isin

In [50]: df2 = df.copy()
In [51]: df2[df2['city'].isin(['Shanghai','Nanjing'])]
Out[52]: 
 name age city
1 Loya 22 Shanghai
3 Mars 25 Nanjing

運(yùn)算操作:

In [53]: df = pd.DataFrame([[1.4, np.nan], [7.1, -4.5], [np.nan, np.nan], [0.75, -1.3]], 
 ...: index=['a', 'b', 'c', 'd'], columns=['one', 'two'])
In [54]: df
Out[54]: 
 one two
a 1.40 NaN
b 7.10 -4.5
c NaN NaN
d 0.75 -1.3
#按列求和
In [55]: df.sum()
Out[55]: 
one 9.25
two -5.80
# 按行求和
In [56]: df.sum(axis=1)
Out[56]: 
a 1.40
b 2.60
c NaN
d -0.55

group

group 指的如下幾步:

  • Splitting the data into groups based on some criteria

  • Applying a function to each group independently

  • Combining the results into a data structure

  • See the Grouping section

    In [57]: df = pd.DataFrame({'A' : ['foo', 'bar', 'foo', 'bar',
     ....: 'foo', 'bar', 'foo', 'foo'],
     ....: 'B' : ['one', 'one', 'two', 'three',
     ....: 'two', 'two', 'one', 'three'],
     ....: 'C' : np.random.randn(8),
     ....: 'D' : np.random.randn(8)})
     ....: 
    In [58]: df
    Out[58]: 
     A B C D
    0 foo one -1.202872 -0.055224
    1 bar one -1.814470 2.395985
    2 foo two 1.018601 1.552825
    3 bar three -0.595447 0.166599
    4 foo two 1.395433 0.047609
    5 bar two -0.392670 -0.136473
    6 foo one 0.007207 -0.561757
    7 foo three 1.928123 -1.623033

    group一下,然后應(yīng)用sum函數(shù)

    In [59]: df.groupby('A').sum()
    Out[59]: 
     C D
    A 
    bar -2.802588 2.42611
    foo 3.146492 -0.63958
    In [60]: df.groupby(['A','B']).sum()
    Out[60]: 
     C D
    A B 
    bar one -1.814470 2.395985
     three -0.595447 0.166599
     two -0.392670 -0.136473
    foo one -1.195665 -0.616981
     three 1.928123 -1.623033
     two 2.414034 1.600434

    【相關(guān)推薦】

    1. 特別推薦:“php程序員工具箱”V0.1版本下載

    2. Python免費(fèi)視頻教程

    3. Python基礎(chǔ)入門教程

    聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。TEL:177 7030 7066 E-MAIL:11247931@qq.com

    文檔

    利用pandas庫對cdn日志分析的實(shí)現(xiàn)方法

    利用pandas庫對cdn日志分析的實(shí)現(xiàn)方法:這篇文章主要介紹了利用Python中的pandas庫進(jìn)行cdn日志分析的相關(guān)資料,文中分享了pandas對cdn日志分析的完整示例代碼,然后詳細(xì)介紹了關(guān)于pandas庫的相關(guān)內(nèi)容,需要的朋友可以參考借鑒,下面來一起看看吧。前言最近工作工作中遇到一個(gè)需求,是要根據(jù)CDN日
    推薦度:
    標(biāo)簽: 利用 日志 分析
    • 熱門焦點(diǎn)

    最新推薦

    猜你喜歡

    熱門推薦

    專題
    Top