去重計數(shù)有哪些實現(xiàn)方式

這篇文章主要講解了“去重計數(shù)有哪些實現(xiàn)方式”,文中的講解內(nèi)容簡單清晰,易于學(xué)習(xí)與理解,下面請大家跟著小編的思路慢慢深入,一起來研究和學(xué)習(xí)“去重計數(shù)有哪些實現(xiàn)方式”吧!

創(chuàng)新互聯(lián)建站主要業(yè)務(wù)有網(wǎng)站營銷策劃、網(wǎng)站設(shè)計、成都網(wǎng)站設(shè)計、微信公眾號開發(fā)、成都小程序開發(fā)、HTML5、程序開發(fā)等業(yè)務(wù)。一次合作終身朋友,是我們奉行的宗旨;我們不僅僅把客戶當(dāng)客戶,還把客戶視為我們的合作伙伴,在開展業(yè)務(wù)的過程中,公司還積累了豐富的行業(yè)經(jīng)驗、網(wǎng)絡(luò)營銷推廣資源和合作伙伴關(guān)系資源,并逐漸建立起規(guī)范的客戶服務(wù)和保障體系。 

這是一個關(guān)于 pandas 從基礎(chǔ)到進(jìn)階的練習(xí)題系列,來源于 github 上的 guipsamora/pandas_exercises  。這個項目從基礎(chǔ)到進(jìn)階,可以檢驗?zāi)阌卸嗝戳私?pandas。

我會挑選一些題目,并且提供比原題庫更多的解決方法以及更詳盡的解析。

如下數(shù)據(jù):

去重計數(shù)有哪些實現(xiàn)方式

數(shù)據(jù)描述:

  • 此數(shù)據(jù)是訂單明細(xì)表。一個訂單會包含很多明細(xì)項,表中每個樣本(每一行)表示一個明細(xì)項

  • order_id 列存在重復(fù)

  • quantity 是明細(xì)項數(shù)量

需求:數(shù)據(jù)中共有多少個訂單?

下面是答案了

方式1

因為 order_id 列是存在重復(fù)的,那么一種比較直觀的方式就是去重+計數(shù):

len(df.order_id.drop_duplicates()) 1834
  • Series.drop_duplicates() 返回的仍然是一個 Series

  • len 函數(shù)可以計算 Series 值數(shù)量

但是你可能不知道的是,這個方式是不準(zhǔn)確的!

方式2

之所以說上一種方式是不準(zhǔn)確,是因為沒有考慮到空值的問題。

len 函數(shù)不會忽略空值(nan) ,因此如果列中有空值,那么就比正確結(jié)果數(shù)量多。

正確的做法是:

len(df.order_id.drop_duplicates().dropna())
  • 使用 Series.dropna() 方法可以去掉 nan 值

提示:

即使列中有多個 nan ,經(jīng)過去重后只會保留一個 nan 值

方式3

實際上,pandas 本身有提供一個忽略 nan 的計數(shù)方法:

df.order_id.drop_duplicates().count()

點評:

這種方式個人認(rèn)為最合適

方式4

pandas 為列(Series)提供了一個快速匯總計數(shù)方法:

df.order_id.value_counts()

去重計數(shù)有哪些實現(xiàn)方式

  • Series.value_counts() 相當(dāng)于 根據(jù) order id 分組,統(tǒng)計數(shù)量。并且排除 nan

這相當(dāng)于實現(xiàn)了去重,因此:

df.order_id.value_counts().count()

感謝各位的閱讀,以上就是“去重計數(shù)有哪些實現(xiàn)方式”的內(nèi)容了,經(jīng)過本文的學(xué)習(xí)后,相信大家對去重計數(shù)有哪些實現(xiàn)方式這一問題有了更深刻的體會,具體使用情況還需要大家實踐驗證。這里是創(chuàng)新互聯(lián),小編將為大家推送更多相關(guān)知識點的文章,歡迎關(guān)注!

分享標(biāo)題:去重計數(shù)有哪些實現(xiàn)方式
URL地址:http://muchs.cn/article18/pppsgp.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供企業(yè)建站網(wǎng)頁設(shè)計公司、App開發(fā)、電子商務(wù)、網(wǎng)站策劃微信小程序

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

成都定制網(wǎng)站建設(shè)