使用pandas模塊解決mysql中的重復(fù)數(shù)據(jù)問題

本文主要給大家簡單講講使用pandas模塊解決MySQL中的重復(fù)數(shù)據(jù)問題,相關(guān)專業(yè)術(shù)語大家可以上網(wǎng)查查或者找一些相關(guān)書籍補充一下,這里就不涉獵了,我們就直奔主題吧,希望使用pandas模塊解決mysql中的重復(fù)數(shù)據(jù)問題這篇文章可以給大家?guī)硪恍嶋H幫助。

創(chuàng)新互聯(lián)公司服務(wù)項目包括融水網(wǎng)站建設(shè)、融水網(wǎng)站制作、融水網(wǎng)頁制作以及融水網(wǎng)絡(luò)營銷策劃等。多年來,我們專注于互聯(lián)網(wǎng)行業(yè),利用自身積累的技術(shù)優(yōu)勢、行業(yè)經(jīng)驗、深度合作伙伴關(guān)系等,向廣大中小型企業(yè)、政府機構(gòu)等提供互聯(lián)網(wǎng)行業(yè)的解決方案,融水網(wǎng)站推廣取得了明顯的社會效益與經(jīng)濟效益。目前,我們服務(wù)的客戶以成都為中心已經(jīng)輻射到融水省份的部分城市,未來相信會繼續(xù)擴大服務(wù)區(qū)域并繼續(xù)獲得客戶的支持與信任!

直接上代碼

import pymysql
import pandas as pda
conn=pymysql.connect(host="127.0.0.1",user="root",passwd="pw",db="test001",charset="utf8")
sql="select * from table001"
data1 = pda.read_sql(sql,conn)
print(data1.count())
data2 = data1.drop_duplicates(subset="big",keep="last")
data2.to_sql("table002",con=conn,flavor="mysql",if_exists="append",index=False)
print(data2.count())

table001表為原始表,big為表里不能重復(fù)的字段,keep="last"代表留重復(fù)數(shù)據(jù)的最后一條,table002表為清洗完數(shù)據(jù)保存數(shù)據(jù)的表。

運行該腳本,十來分鐘左右,800W條數(shù)據(jù)已經(jīng)全部清洗完畢,還剩余200W條不重復(fù)數(shù)據(jù),并且還和朋友正確的數(shù)據(jù)一條不差。
使用pandas模塊解決mysql中的重復(fù)數(shù)據(jù)問題

隨后將數(shù)據(jù)表上傳至朋友的線上云服務(wù)器,朋友驗證數(shù)據(jù)都沒問題。

使用pandas模塊解決mysql中的重復(fù)數(shù)據(jù)問題就先給大家講到這里,對于其它相關(guān)問題大家想要了解的可以持續(xù)關(guān)注我們的行業(yè)資訊。我們的板塊內(nèi)容每天都會捕捉一些行業(yè)新聞及專業(yè)知識分享給大家的。

文章標(biāo)題:使用pandas模塊解決mysql中的重復(fù)數(shù)據(jù)問題
文章網(wǎng)址:http://muchs.cn/article28/gjspjp.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站排名、App設(shè)計、ChatGPT、移動網(wǎng)站建設(shè)、定制網(wǎng)站、動態(tài)網(wǎng)站

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

商城網(wǎng)站建設(shè)