pandas處理大數(shù)據(jù)的技巧-創(chuàng)新互聯(lián)

refer : https://yq.aliyun.com/articles/530060?spm=a2c4e.11153940.blogcont181452.16.413f2ef21NKngz#

創(chuàng)新互聯(lián)專業(yè)為企業(yè)提供紫云網(wǎng)站建設(shè)、紫云做網(wǎng)站、紫云網(wǎng)站設(shè)計、紫云網(wǎng)站制作等企業(yè)網(wǎng)站建設(shè)、網(wǎng)頁設(shè)計與制作、紫云企業(yè)網(wǎng)站模板建站服務(wù),十載紫云做網(wǎng)站經(jīng)驗,不只是建網(wǎng)站,更提供有價值的思路和整體網(wǎng)絡(luò)服務(wù)。

http://www.datayuan.cn/article/6737.htm

https://yq.aliyun.com/articles/210393?spm=a2c4e.11153940.blogcont381482.21.77131127S0t3io

-
pandas處理大數(shù)據(jù)的技巧

--

大文本數(shù)據(jù)的讀寫
有時候我們會拿到一些很大的文本文件,完整讀入內(nèi)存,讀入的過程會很慢,甚至可能無法讀入內(nèi)存,或者可以讀入內(nèi)存,但是沒法進(jìn)行進(jìn)一步的計算,這個時候如果我們不是要進(jìn)行很復(fù)雜的運算,可以使用read_csv提供的chunksize或者iterator參數(shù),來部分讀入文件,處理完之后再通過to_csv的mode='a',將每部分結(jié)果逐步寫入文件。

pandas處理大數(shù)據(jù)的技巧

to_csv, to_excel的選擇
在輸出結(jié)果時統(tǒng)稱會遇到輸出格式的選擇,平時大家用的最多的.csv, .xls, .xlsx,后兩者一個是excel2003,一個是excel2007,我的經(jīng)驗是csv>xls>xlsx,大文件輸出csv比輸出excel要快的多,xls只支持60000+條記錄,xlsx雖然支持記錄變多了,但是,如果內(nèi)容有中文常常會出現(xiàn)詭異的內(nèi)容丟失。因此,如果數(shù)量較小可以選擇xls,而數(shù)量較大則建議輸出到csv,xlsx還是有數(shù)量限制,而且 大數(shù)據(jù) 量的話,會讓你覺得python都死掉了

讀入時處理日期列
我之前都是在數(shù)據(jù)讀入后通過to_datetime函數(shù)再去處理日期列,如果數(shù)據(jù)量較大這又是一個浪費時間的過程,其實在讀入數(shù)據(jù)時,可以通過parse_dates參數(shù)來直接指定解析為日期的列。它有幾種參數(shù),TRUE的時候會將index解析為日期格式,將列名作為list傳入則將每一個列都解析為日期格式

關(guān)于to_datetime函數(shù)再多說幾句,我們拿到的時期格式常常出現(xiàn)一些亂七八糟的怪?jǐn)?shù)據(jù),遇到這些數(shù)據(jù)to_datimetime函數(shù)默認(rèn)會報錯,其實,這些數(shù)據(jù)是可以忽略的,只需要在函數(shù)中將errors參數(shù)設(shè)置為'ignore'就可以了。

另外,to_datetime就像函數(shù)名字顯示的,返回的是一個時間戳,有時我們只需要日期部分,我們可以在日期列上做這個修改,datetime_col = datetime_col.apply(lambda x: x.date()),用map函數(shù)也是一樣的datetime_col = datetime_col.map(lambda x: x.date())

把一些數(shù)值編碼轉(zhuǎn)化為文字
前面提到了map方法,我就又想到了一個小技巧,我們拿到的一些數(shù)據(jù)往往是通過數(shù)字編碼的,比如我們有g(shù)ender這一列,其中0代表男,1代表女。當(dāng)然我們可以用索引的方式來完成

其實我們有更簡單的方法,對要修改的列傳入一個dict,就會達(dá)到同樣的效果。

通過shift函數(shù)求用戶的相鄰兩次登錄記錄的時間差
之前有個項目需要計算用戶相鄰兩次登錄記錄的時間差,咋看起來其實這個需求很簡單,但是數(shù)據(jù)量大起來的話,就不是一個簡單的任務(wù),拆解開來做的話,需要兩個步驟,第一步將登錄數(shù)據(jù)按照用戶分組,再計算每個用戶兩次登錄之間的時間間隔。數(shù)據(jù)的格式很單純,如下所示

如果數(shù)據(jù)量不大的,可以先unique uid,再每次計算一個用戶的兩次登錄間隔,類似這樣

這種方法雖然計算邏輯比較清晰易懂,但是缺點也非常明顯,計算量巨大,相當(dāng)與有多少量記錄就要計算多少次。

那么為什么說pandas的shift函數(shù)適合這個計算呢?來看一下shift函數(shù)的作用

剛好把值向下錯位了一位,是不是恰好是我們需要的。讓我們用shift函數(shù)來改造一下上面的代碼。

上面的代碼就把pandas向量化計算的優(yōu)勢發(fā)揮出來了,規(guī)避掉了計算過程中最耗費時間的按uid循環(huán)。如果我們的uid都是一個只要排序后用shift(1)就可以取到所有前一次登錄的時間,不過真實的登錄數(shù)據(jù)中有很多的不用的uid,因此再將uid也shift一下命名為uid0,保留uid和uid0匹配的記錄就可以了。


-

Python數(shù)據(jù)預(yù)處理:使用Dask和Numba并行化加速

【方向】 2018-03-12 11:11:49 瀏覽2650 評論0
python

大數(shù)據(jù)
摘要: 本文是針對Python設(shè)計一種并行處理數(shù)據(jù)的解決方案——使用Dask和Numba并行化加速運算速度。案例對比分析了幾種不同方法的運算速度,非常直觀,可供參考。

如果你善于使用Pandas變換數(shù)據(jù)、創(chuàng)建特征以及清洗數(shù)據(jù)等,那么你就能夠輕松地使用Dask和Numba并行加速你的工作。單純從速度上比較,Dask完勝Python,而Numba打敗Dask,那么Numba+Dask基本上算是無敵的存在。將數(shù)值計算分成Numba sub-function和使用Dask map_partition+apply,而不是使用Pandas。對于100萬行數(shù)據(jù),使用Pandas方法和混合數(shù)值計算創(chuàng)建新特征的速度比使用Numba+Dask方法的速度要慢許多倍。

Python:60.9x | Dask:8.4x | Numba:5.8x |Numba+Dask:1x

8be99f10ed908533e525b81fcd04bcdf3b27db2d

作為舊金山大學(xué)的一名數(shù)據(jù)科學(xué)碩士,會經(jīng)常跟數(shù)據(jù)打交道。使用Apply函數(shù)是我用來創(chuàng)建新特征或清理數(shù)據(jù)的眾多技巧之一?,F(xiàn)在,我只是一名數(shù)據(jù)科學(xué)家,而不是計算機(jī)科學(xué)方面的專家,但我是一個喜歡搗鼓并使得代碼運行更快的程序員。現(xiàn)在,我將會分享我在并行應(yīng)用上的經(jīng)驗。

大多Python愛好者可能了解Python實現(xiàn)的全局解釋器鎖(GIL),GIL會占用計算機(jī)中所有的CPU性能。更糟糕的是,我們主要的數(shù)據(jù)處理包,比如Pandas,很少能實現(xiàn)并行處理代碼。

Apply函數(shù)vs Multiprocessing.map

Tidyverse已經(jīng)為處理數(shù)據(jù)做了一些美好的事情,Plyr是我最喜愛的數(shù)據(jù)包之一,它允許R語言使用者輕松地并行化他們的數(shù)據(jù)應(yīng)用。Hadley Wickham說過:

“plyr是一套處理一組問題的工具:需要把一個大的數(shù)據(jù)結(jié)構(gòu)分解成一些均勻的數(shù)據(jù)塊,之后對每一數(shù)據(jù)塊應(yīng)用一個函數(shù),最后將所有結(jié)果組合在一起?!?/p>

對于Python而言,我希望有類似于plyr這樣的數(shù)據(jù)包可供使用。然而,目前這樣的數(shù)據(jù)包還不存在,但我可以使用并行數(shù)據(jù)包構(gòu)成一個簡單的解決方案。

Dask

bbcc3ca9a96dc7ad7129d9047a2d58be57a4ed84

之前在Spark上花費了一些時間,因此當(dāng)我開始使用Dask時,還是比較容易地掌握其重點內(nèi)容。Dask被設(shè)計成能夠在多核CPU上并行處理任務(wù),此外也借鑒了許多Pandas的語法規(guī)則。

現(xiàn)在開始本文所舉例子。對于最近的數(shù)據(jù)挑戰(zhàn)而言,我試圖獲取一個外部數(shù)據(jù)源(包含許多地理編碼點),并將其與要分析的一大堆街區(qū)相匹配。在計算歐幾里得距離的同時,使用大啟發(fā)式將大值分配給一個街區(qū)。

8809febd555c55a69522a58770971c8cf0c57af5

最初的apply:

Dask apply:

二者看起來很相似,apply核心語句是map_partitions,最后有一個compute()語句。此外,不得不對npartitions初始化。 分區(qū)的工作原理就是將Pandas數(shù)據(jù)幀劃分成塊,對于我的電腦而言,配置是6核-12線程,我只需告訴它使用的是12分區(qū),Dask就會完成剩下的工作。

接下來,將map_partitions的lambda函數(shù)應(yīng)用于每個分區(qū)。由于許多數(shù)據(jù)處理代碼都是獨立地運行,所以不必過多地?fù)?dān)心這些操作的順序問題。最后,compute()函數(shù)告訴Dask來處理剩余的事情,并把最終計算結(jié)果反饋給我。在這里,compute()調(diào)用Dask將apply適用于每個分區(qū),并使其并行處理。

由于我通過迭代行來生成一個新隊列(特征),而Dask apply只在列上起作用,因此我沒有使用Dask apply,以下是Dask程序:

Numba、Numpy和Broadcasting

由于我是根據(jù)一些簡單的線性運算(基本上是勾股定理)對數(shù)據(jù)進(jìn)行分類,所以認(rèn)為使用類似下面的Python代碼會運行得更快一些。

d31908d0ecfefd263b3e5373461b34374de9adf5

Broadcasting用以描述Numpy中對兩個形狀不同的矩陣進(jìn)行數(shù)學(xué)計算的處理機(jī)制。假設(shè)我有一個數(shù)組,我會通過迭代并逐個變換每個單元格來改變它

相反,我完全可以跳過for循環(huán),并對整個數(shù)組執(zhí)行操作。Numpy與broadcasting混合使用,用來執(zhí)行元素智能乘積(對位相乘)。

Broadcasting可以實現(xiàn)更多的功能,現(xiàn)在看看骨架代碼:

從本質(zhì)上講,代碼的功能是改變數(shù)組。好的一方面是運行很快,甚至能和Dask并行處理速度比較。其次,如果使用的是最基本的Numpy和Python,那么就可以及時編譯任何函數(shù)。壞的一面在于它只適合Numpy和簡單Python語法。我不得不把所有的數(shù)值計算從我的函數(shù)轉(zhuǎn)換成子函數(shù),但其計算速度會增加得非??臁?/p>

將其一起使用

簡單地使用map_partition()就可以將Numba函數(shù)與Dask結(jié)合在一起,如果并行操作和broadcasting能夠密切合作以加快運行速度,那么對于大數(shù)據(jù)集而言,將會看到其運行速度得到大幅提升。

09e60c6e34586f4760449a2159928877d49958cf

d9d0d60dc749ba864cbb200bb05b60e71ff6adcf

上面的第一張圖表明,沒有broadcasting的線性計算其表現(xiàn)不佳,并行處理和Dask對速度提升也有效果。此外,可以明顯地發(fā)現(xiàn),Dask和Numba組合的性能優(yōu)于其它方法。

上面的第二張圖稍微有些復(fù)雜,其橫坐標(biāo)是對行數(shù)取對數(shù)。從第二張圖可以發(fā)現(xiàn),對于1k到10k這樣小的數(shù)據(jù)集,單獨使用Numba的性能要比聯(lián)合使用Numba+Dask的性能更好,盡管在大數(shù)據(jù)集上Numba+Dask的性能非常好。

優(yōu)化

為了能夠使用Numba編譯JIT,我重寫了函數(shù)以更好地利用broadcasting。之后,重新運行這些函數(shù)后發(fā)現(xiàn),平均而言,對于相同的代碼,JIT的執(zhí)行速度大約快了24%。

c9f6a34759b5b1298033c2e4ffd5d78a63994af5

可以肯定的說,一定有進(jìn)一步的優(yōu)化方法使得執(zhí)行速度更快,但目前沒有發(fā)現(xiàn)。Dask是一個非常友好的工具,本文使用Dask+Numba實現(xiàn)的最好成果是提升運行速度60倍。

另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務(wù)器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務(wù)可用性高、性價比高”等特點與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場景需求。

網(wǎng)頁題目:pandas處理大數(shù)據(jù)的技巧-創(chuàng)新互聯(lián)
新聞來源:http://muchs.cn/article40/dshdho.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供用戶體驗網(wǎng)頁設(shè)計公司、App設(shè)計、ChatGPT、建站公司、網(wǎng)站策劃

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

成都app開發(fā)公司