Python對多屬性的重復數(shù)據(jù)去重
來源:懂視網(wǎng)
責編:小OO
時間:2020-11-27 14:22:04
Python對多屬性的重復數(shù)據(jù)去重
python中的pandas模塊中對重復數(shù)據(jù)去重步驟。1)利用DataFrame中的duplicated方法返回一個布爾型的Series,顯示各行是否有重復行,沒有重復行顯示為FALSE,有重復行顯示為TRUE。2)再利用DataFrame中的drop_duplicates方法用于返回一個移除了重復行的DataFrame。注釋。如果duplicated方法和drop_duplicates方法中沒有設(shè)置參數(shù),則這兩個方法默認會判斷全部咧,如果在這兩個方法中加入了指定的屬性名(或者稱為列名),例如:frame.drop_duplicates([';state';]),則指定部分列(state列)進行重復項的判斷。具體實例如下:
導讀python中的pandas模塊中對重復數(shù)據(jù)去重步驟。1)利用DataFrame中的duplicated方法返回一個布爾型的Series,顯示各行是否有重復行,沒有重復行顯示為FALSE,有重復行顯示為TRUE。2)再利用DataFrame中的drop_duplicates方法用于返回一個移除了重復行的DataFrame。注釋。如果duplicated方法和drop_duplicates方法中沒有設(shè)置參數(shù),則這兩個方法默認會判斷全部咧,如果在這兩個方法中加入了指定的屬性名(或者稱為列名),例如:frame.drop_duplicates([';state';]),則指定部分列(state列)進行重復項的判斷。具體實例如下:
下面為大家分享一篇Python對多屬性的重復數(shù)據(jù)去重實例,具有很好的參考價值,希望對大家有所幫助。一起過來看看吧
python中的pandas模塊中對重復數(shù)據(jù)去重步驟:
1)利用DataFrame中的duplicated方法返回一個布爾型的Series,顯示各行是否有重復行,沒有重復行顯示為FALSE,有重復行顯示為TRUE;
2)再利用DataFrame中的drop_duplicates方法用于返回一個移除了重復行的DataFrame。
注釋:
如果duplicated方法和drop_duplicates方法中沒有設(shè)置參數(shù),則這兩個方法默認會判斷全部咧,如果在這兩個方法中加入了指定的屬性名(或者稱為列名),例如:frame.drop_duplicates(['state']),則指定部分列(state列)進行重復項的判斷。
具體實例如下:
>>> import pandas as pd
>>> data={'state':[1,1,2,2],'pop':['a','b','c','d']}
>>> frame=pd.DataFrame(data)
>>> frame
pop state
0 a 1
1 b 1
2 c 2
3 d 2
>>> IsDuplicated=frame.duplicated()
>>> print IsDuplicated
0 False
1 False
2 False
3 False
dtype: bool
>>> frame=frame.drop_duplicates(['state'])
>>> frame
pop state
0 a 1
2 c 2
>>> IsDuplicated=frame.duplicated(['state'])
>>> print IsDuplicated
0 False
2 False
dtype: bool
>>>
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。TEL:177 7030 7066 E-MAIL:11247931@qq.com
Python對多屬性的重復數(shù)據(jù)去重
python中的pandas模塊中對重復數(shù)據(jù)去重步驟。1)利用DataFrame中的duplicated方法返回一個布爾型的Series,顯示各行是否有重復行,沒有重復行顯示為FALSE,有重復行顯示為TRUE。2)再利用DataFrame中的drop_duplicates方法用于返回一個移除了重復行的DataFrame。注釋。如果duplicated方法和drop_duplicates方法中沒有設(shè)置參數(shù),則這兩個方法默認會判斷全部咧,如果在這兩個方法中加入了指定的屬性名(或者稱為列名),例如:frame.drop_duplicates([';state';]),則指定部分列(state列)進行重復項的判斷。具體實例如下: