Python怎么處理Excel數(shù)據(jù)

這篇文章主要介紹“Python怎么處理Excel數(shù)據(jù)”,在日常操作中,相信很多人在Python怎么處理Excel數(shù)據(jù)問題上存在疑惑,小編查閱了各式資料,整理出簡單好用的操作方法,希望對(duì)大家解答”Python怎么處理Excel數(shù)據(jù)”的疑惑有所幫助!接下來,請(qǐng)跟著小編一起來學(xué)習(xí)吧!

10年積累的成都網(wǎng)站建設(shè)、網(wǎng)站建設(shè)經(jīng)驗(yàn),可以快速應(yīng)對(duì)客戶對(duì)網(wǎng)站的新想法和需求。提供各種問題對(duì)應(yīng)的解決方案。讓選擇我們的客戶得到更好、更有力的網(wǎng)絡(luò)服務(wù)。我雖然不認(rèn)識(shí)你,你也不認(rèn)識(shí)我。但先網(wǎng)站設(shè)計(jì)后付款的網(wǎng)站建設(shè)流程,更有通山免費(fèi)網(wǎng)站建設(shè)讓你可以放心的選擇與我們合作。

我喜歡用實(shí)際案例說明問題,本文使用泰坦尼克號(hào)沉船事件中的乘客信息表:

Python怎么處理Excel數(shù)據(jù)

實(shí)現(xiàn)幾個(gè)簡單分析需求:

  • 找出多人(2人或以上)一起登船的組的數(shù)量

  • 列出這些人的信息

  • 是否存在最幸運(yùn)的親朋好友(多人一起登船,同時(shí)全部人都獲救)?

"操作 Excel"等于"數(shù)據(jù)處理"嗎?

初學(xué)者往往誤以為操作 Excel 就是在處理數(shù)據(jù),實(shí)際上是兩回事。

需求是:"姓名與住址列內(nèi)容通常很長,希望最終Excel顯示的時(shí)候,使用縮小字體填充"。

Python怎么處理Excel數(shù)據(jù)

對(duì)于這種格式化設(shè)置,vba絕對(duì)是最佳選擇!因?yàn)槲覀兛梢酝ㄟ^錄制宏,自動(dòng)得到大概的代碼

通過簡單的錄制宏,我們就能寫出如下實(shí)現(xiàn):

Python怎么處理Excel數(shù)據(jù)

如果我們使用 python 實(shí)現(xiàn)相同的需求,代碼肯定只多不少,并且難以調(diào)試。

如果你看過我的專欄《帶你玩轉(zhuǎn)Python數(shù)據(jù)處理—pandas》的話,其中關(guān)于數(shù)據(jù)處理流程一節(jié),你會(huì)想到,這就是"數(shù)據(jù)展示"的流程。

也就是說,如果你的數(shù)據(jù)任務(wù)最終需要輸出 Excel 文件,vba是"數(shù)據(jù)展示"過程的最佳自動(dòng)化工具。

可惜,現(xiàn)實(shí)中的大部分需求并不單純,都需要進(jìn)行"數(shù)據(jù)處理",那么 vba 中又是如何處理數(shù)據(jù)?

vba 使用數(shù)組+字典,就是高效率?

大部分不經(jīng)思考,張口就反對(duì) python 的同學(xué),都是對(duì)自己的 vba "數(shù)組+字典" 的技能有著迷之自信。

來看一個(gè)數(shù)據(jù)分析相關(guān)的處理需求:

我們注意到,有些人是親朋好友一起上船,比如:

Python怎么處理Excel數(shù)據(jù)
  • 從"票根號(hào)"一樣,可以看出來他們是一起上船

  • 從"住址"一樣,可以看出來他們是一家四口

我們需要統(tǒng)計(jì)出有多少組這些2人或以上登船的?

以下嘗試用vba解決:

Python怎么處理Excel數(shù)據(jù)

其實(shí)代碼不算多,里面的技巧也只是基礎(chǔ),但是如果會(huì) pandas 的同學(xué)心里肯定會(huì)說:"太繁瑣了"。

因?yàn)閷?duì)于 pandas 來說,如下:

Python怎么處理Excel數(shù)據(jù)

代碼就4句,最關(guān)鍵的其實(shí)只有3句,分別表示:

  • 加載數(shù)據(jù)

  • 按"票根號(hào)"分組統(tǒng)計(jì)數(shù)量

  • 數(shù)量大于1的總和

這不就是一個(gè)正常人的處理思維嗎?這就是簡潔

能夠與需求表達(dá)語義相近,多余的表達(dá)越少,即越簡潔

回頭看 vba 的表達(dá),多余的表達(dá)非常多。

  • Excel 有一個(gè)非常好用的統(tǒng)計(jì)工具——透視表。你可以嘗試通過錄制宏得到透視表的操作代碼,但是你仍然會(huì)發(fā)現(xiàn)有許多多余的表達(dá)。

  • Sql 的表達(dá)更加簡潔,但是實(shí)現(xiàn)如上的需求,你會(huì)發(fā)現(xiàn)他的表達(dá)順序需要"繞"一下

有些不服氣的同學(xué)會(huì)說:"我寫出這段vba代碼也就1分鐘,反正也能得到正確結(jié)果"

當(dāng)需求不斷變化,你就會(huì)發(fā)現(xiàn)這樣子的代碼最終走向無法實(shí)現(xiàn)的死胡同。

剛剛我們知道了有216組親朋好友是一起登船的,但只有一個(gè)數(shù)字,我們希望看看這216數(shù)據(jù)的大概樣子。

也就是說輸出這些乘客數(shù)據(jù)。

python 的實(shí)現(xiàn):

Python怎么處理Excel數(shù)據(jù)
  • 順便排序一下,方便觀察

  • 這里代碼多余的表達(dá),就是那個(gè) lambda 單詞。如果換成是 sql ,就非常簡潔

vba 的實(shí)現(xiàn)太麻煩了,就留給那些不服氣的 vba 粉絲吧

現(xiàn)在你大概能夠稍微理解,為什么 Python 在數(shù)據(jù)領(lǐng)域這么受寵了。

數(shù)據(jù)分析中的數(shù)據(jù)處理,需要你的代碼趕上你的思維速度,只有簡潔的語言才能做到。

按理說,sql 應(yīng)該是更好的選擇,但實(shí)際上很多復(fù)雜需求實(shí)現(xiàn),sql 需要大量的嵌套查詢,此時(shí)就一點(diǎn)都不簡潔了。以后再舉例說明

現(xiàn)實(shí)的需求是 "操作Excel" + "數(shù)據(jù)處理" ,怎么辦?

這時(shí)候最理想的情況是,使用 vba 操作 Excel,數(shù)據(jù)處理交給 Python,中間就需要一個(gè)橋梁把 vba 與 python 打通,這就是  xlwings 或其他類似的庫的最佳實(shí)踐方式。

如果你完全使用 xlwings 控制 Excel,Python 代碼操作 Excel 寫起來非常別扭,一旦你理清楚 "操作Excel" 與 "數(shù)據(jù)處理"  的區(qū)別,自然而然知道如何組織你的代碼。

Python 需要單獨(dú)安裝,因此他比不上 vba

這是一種無聊的結(jié)論,因?yàn)槿魏巫詣?dòng)化工具都需要安裝,比如學(xué)習(xí)性價(jià)比最高的 Sql ,他也需要安裝相應(yīng)的驅(qū)動(dòng)程序才能執(zhí)行。

而我本人的工作環(huán)境有一部分任務(wù)是需要放在服務(wù)器上執(zhí)行,此時(shí)是不可能安裝 Excel,vba  也用不上了,但我不能因此作出"vba比不上python"的結(jié)論吧。

如果你的工作環(huán)境不能安裝 python,但你又需要做大量數(shù)據(jù)處理任務(wù),那么我只能說非常不幸,你只能犧牲自己大量的時(shí)間使用vba去完成需求。

Vba 就不能有 pandas 的存在嗎?

"說了半天,不就是 python 比 vba 多了一個(gè) pandas 庫而已嗎,找個(gè)vba牛人去寫一個(gè) vba-pandas 就行啦!"

vba 天生缺少了一種語言特性,使得你即使有寫庫的能力,也無法發(fā)揮。

這就是提取邏輯的能力.

通常來說,如果一段代碼有些數(shù)據(jù)不是固定,我們可以提取成函數(shù)的參數(shù),比如最簡單的數(shù)字計(jì)算:

Python怎么處理Excel數(shù)據(jù)
  • 分別定義3個(gè)參數(shù),讓你輸入,但計(jì)算方式是固定的

對(duì)于 vba 來說他同樣可以做到,但是如果是其中一段代碼不是固定,能否把他提取為參數(shù)呢?

而 python 就能做到,比如以下的函數(shù),可以讓你輸入3個(gè)數(shù)字,并且由你決定前2個(gè)數(shù)字的計(jì)算方式,最后與第3個(gè)數(shù)字做乘法:

Python怎么處理Excel數(shù)據(jù)

結(jié)果時(shí),第一個(gè)數(shù)乘以10 + 第二個(gè)數(shù)乘以100(這是變化的邏輯,由使用函數(shù)的人自行決定),最后乘以第三個(gè)數(shù)(這是固定邏輯,由定義函數(shù)的人決定)

vba 需要使用接口做到同樣的效果,非常麻煩,對(duì)于數(shù)據(jù)任務(wù)沒有任何實(shí)用價(jià)值

這有什么用處?用最后一個(gè)需求說明:

  • 是否存在最幸運(yùn)的親朋好友(多人一起登船,同時(shí)全部人都獲救)?

假如說,我只給你一組相同"票根號(hào)"的乘客數(shù)據(jù),該如何判斷他們都是生還呢?

Python怎么處理Excel數(shù)據(jù)

只要看"生還"列是否都為1就可以。方式非常多,除了上面的做法,還可以"生還列求和,看看是否等于記錄行數(shù)"

前一個(gè)需求中使用的 filter 就是可以接受一段邏輯(函數(shù)),pandas 負(fù)責(zé)幫你分組,你只需要在函數(shù)中描述出符合條件的邏輯即可:

Python怎么處理Excel數(shù)據(jù)
  • 把剛剛定義的函數(shù),傳給 filter 函數(shù)

而 vba 無法做到這一點(diǎn),就意味著他無法做出 pandas 一樣好用的庫!

因?yàn)樵S多看似復(fù)雜的流程,其實(shí)是由許多固定的邏輯 + 變化的邏輯 組成。

比如分組的原理就類似 vba 中使用字典,這是相對(duì)固定的,完全可以讓庫完成。

但是分組后,每一組的處理邏輯卻是變化的,由使用者臨時(shí)決定,比如之前的需求分組中我們有時(shí)候需要計(jì)數(shù),有時(shí)候需要篩選。篩選的邏輯也是千變?nèi)f化。

到此,關(guān)于“Python怎么處理Excel數(shù)據(jù)”的學(xué)習(xí)就結(jié)束了,希望能夠解決大家的疑惑。理論與實(shí)踐的搭配能更好的幫助大家學(xué)習(xí),快去試試吧!若想繼續(xù)學(xué)習(xí)更多相關(guān)知識(shí),請(qǐng)繼續(xù)關(guān)注創(chuàng)新互聯(lián)網(wǎng)站,小編會(huì)繼續(xù)努力為大家?guī)砀鄬?shí)用的文章!

當(dāng)前題目:Python怎么處理Excel數(shù)據(jù)
轉(zhuǎn)載來源:http://muchs.cn/article40/pdghho.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供搜索引擎優(yōu)化品牌網(wǎng)站建設(shè)、網(wǎng)站排名、網(wǎng)站設(shè)計(jì)公司、網(wǎng)站導(dǎo)航、網(wǎng)站改版

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)

成都做網(wǎng)站