Pandas實(shí)現(xiàn)數(shù)據(jù)清洗的方法有哪些

本篇內(nèi)容主要講解“Pandas實(shí)現(xiàn)數(shù)據(jù)清洗的方法有哪些”,感興趣的朋友不妨來看看。本文介紹的方法操作簡單快捷,實(shí)用性強(qiáng)。下面就讓小編來帶大家學(xué)習(xí)“Pandas實(shí)現(xiàn)數(shù)據(jù)清洗的方法有哪些”吧!

彌渡網(wǎng)站制作公司哪家好,找創(chuàng)新互聯(lián)!從網(wǎng)頁設(shè)計(jì)、網(wǎng)站建設(shè)、微信開發(fā)、APP開發(fā)、響應(yīng)式網(wǎng)站等網(wǎng)站項(xiàng)目制作,到程序開發(fā),運(yùn)營維護(hù)。創(chuàng)新互聯(lián)從2013年成立到現(xiàn)在10年的時(shí)間,我們擁有了豐富的建站經(jīng)驗(yàn)和運(yùn)維經(jīng)驗(yàn),來保證我們的工作的順利進(jìn)行。專注于網(wǎng)站建設(shè)就選創(chuàng)新互聯(lián)。

1.處理數(shù)據(jù)中的空值

我們在處理真實(shí)的數(shù)據(jù)時(shí),往往會有很多缺少的的特征數(shù)據(jù),就是所謂的空值,必須要進(jìn)行處理才能進(jìn)行下一步分析

空值的處理方式有很多種,一般是刪除或者填充

Excel通過“查找和替換”功能實(shí)現(xiàn)空值的統(tǒng)一替換:

Pandas實(shí)現(xiàn)數(shù)據(jù)清洗的方法有哪些

通過“定位”刪除空值:

Pandas實(shí)現(xiàn)數(shù)據(jù)清洗的方法有哪些

pandas處理空值的方式比較靈活,可以使用dropna函數(shù)刪除空值

import pandas as pd data=pd.read_csv('成績表.csv',encoding='gbk') data.dropna(how='any')

Pandas實(shí)現(xiàn)數(shù)據(jù)清洗的方法有哪些

Pandas實(shí)現(xiàn)數(shù)據(jù)清洗的方法有哪些

用fillna函數(shù)實(shí)現(xiàn)空值的填充

①使用數(shù)字0填充數(shù)據(jù)表中的空值

data.fillna(value=0)

Pandas實(shí)現(xiàn)數(shù)據(jù)清洗的方法有哪些

②使用平均值填充數(shù)據(jù)表中的空值

data['語文'].fillna(data['語文'].mean())

Pandas實(shí)現(xiàn)數(shù)據(jù)清洗的方法有哪些

2.刪除空格

excel中清理空格很簡單,直接替換即可

pandas刪除空格也很方便,主要使用map函數(shù)

data['姓名']=data['姓名'].map(str.strip) data

Pandas實(shí)現(xiàn)數(shù)據(jù)清洗的方法有哪些

3.大小寫轉(zhuǎn)換

excel中大小寫轉(zhuǎn)換函數(shù)分別為upper()和lower()

pandas中轉(zhuǎn)換函數(shù)也為upper()和lower()

data['拼音']=data['拼音'].str.upper() data

Pandas實(shí)現(xiàn)數(shù)據(jù)清洗的方法有哪些

data['拼音']=data['拼音'].str.lower() data

Pandas實(shí)現(xiàn)數(shù)據(jù)清洗的方法有哪些

4.更改數(shù)據(jù)格式

excel中更改數(shù)據(jù)格式通過快捷鍵“ctrl+1”打開“設(shè)置單元格格式”:

Pandas實(shí)現(xiàn)數(shù)據(jù)清洗的方法有哪些

pandas使用astype來修改數(shù)據(jù)格式,以將“語文”列改成整數(shù)為例

data['語文'].dropna(how='any').astype('int')

Pandas實(shí)現(xiàn)數(shù)據(jù)清洗的方法有哪些

5.更改列名稱

excel中更改列名稱就不說了,大家都會

pandas使用rename函數(shù)更改列名稱,代碼如下:

data.rename(columns={'語文':'語文成績'})

Pandas實(shí)現(xiàn)數(shù)據(jù)清洗的方法有哪些

6.刪除重復(fù)值

excel的功能區(qū)“數(shù)據(jù)”下有“刪除重復(fù)項(xiàng)”,可以用來刪除表中的重復(fù)值,默認(rèn)保留最第一個(gè)重復(fù)值,把后面的刪除:

Pandas實(shí)現(xiàn)數(shù)據(jù)清洗的方法有哪些

pandas使用drop_duplicates函數(shù)刪除重復(fù)值:

data['數(shù)學(xué)'].drop_duplicates() #默認(rèn)刪除后面的重復(fù)值  data['數(shù)學(xué)'].drop_duplicates(keep='last') #刪除第一項(xiàng)重復(fù)值

7.修改及替換數(shù)據(jù)

excel中使用“查找和替換”功能實(shí)現(xiàn)數(shù)值的替換

pandas中使用replace函數(shù)實(shí)現(xiàn)數(shù)據(jù)替換

data['姓名'].replace('成  功','失  敗')

到此,相信大家對“Pandas實(shí)現(xiàn)數(shù)據(jù)清洗的方法有哪些”有了更深的了解,不妨來實(shí)際操作一番吧!這里是創(chuàng)新互聯(lián)網(wǎng)站,更多相關(guān)內(nèi)容可以進(jìn)入相關(guān)頻道進(jìn)行查詢,關(guān)注我們,繼續(xù)學(xué)習(xí)!

分享文章:Pandas實(shí)現(xiàn)數(shù)據(jù)清洗的方法有哪些
文章路徑:http://muchs.cn/article30/ghsopo.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供App開發(fā)、網(wǎng)站設(shè)計(jì)搜索引擎優(yōu)化、網(wǎng)頁設(shè)計(jì)公司做網(wǎng)站、網(wǎng)站策劃

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)

成都網(wǎng)站建設(shè)