這篇“怎么使用Python操作文本數(shù)據(jù)”文章的知識點(diǎn)大部分人都不太理解,所以小編給大家總結(jié)了以下內(nèi)容,內(nèi)容詳細(xì),步驟清晰,具有一定的借鑒價(jià)值,希望大家閱讀完這篇文章能有所收獲,下面我們一起來看看這篇“怎么使用Python操作文本數(shù)據(jù)”文章吧。
成都創(chuàng)新互聯(lián)公司專注于邊壩企業(yè)網(wǎng)站建設(shè),成都響應(yīng)式網(wǎng)站建設(shè),商城系統(tǒng)網(wǎng)站開發(fā)。邊壩網(wǎng)站建設(shè)公司,為邊壩等地區(qū)提供建站服務(wù)。全流程按需搭建網(wǎng)站,專業(yè)設(shè)計(jì),全程項(xiàng)目跟蹤,成都創(chuàng)新互聯(lián)公司專業(yè)和態(tài)度為您提供的服務(wù)
實(shí)驗(yàn)?zāi)康?/strong>
熟悉python的基本數(shù)據(jù)結(jié)構(gòu),以及文件的輸入與輸出。
實(shí)驗(yàn)數(shù)據(jù)
利用xxxx年xx機(jī)器學(xué)習(xí)會議的評測數(shù)據(jù)和評測任務(wù),數(shù)據(jù)包括訓(xùn)練集和測試集,評測任務(wù)為通過給定的訓(xùn)練數(shù)據(jù),預(yù)測測試集中的關(guān)系是正例還是負(fù)例,在每個(gè)樣本最后給出1或者0。
數(shù)據(jù)描述如下,第一列為關(guān)系類型,第二列和第三列為人名,第四列是標(biāo)題,第五列是關(guān)系為正例還是負(fù)例,1為正例,0為負(fù)例;第六列表示訓(xùn)練集。
事件 | 人物1 | 人物2 | 標(biāo)題 | 關(guān)系(0 or 1) | 訓(xùn)練集 |
---|
測試集描述如下圖,格式基本與訓(xùn)練集類似,唯一不同的是第五列沒有關(guān)系是正例還是負(fù)例的標(biāo)記。
關(guān)系 | 人物1 | 人物2 | 事件 |
---|
實(shí)驗(yàn)內(nèi)容
對訓(xùn)練集數(shù)據(jù)進(jìn)行處理,只留下前面五列,輸出文本命名為exp1_1.txt。
在第一步得到的數(shù)據(jù)的基礎(chǔ)上對19類關(guān)系進(jìn)行分類,生成的文本存放在exp1_train文件夾下,按照關(guān)系類別出現(xiàn)的順序,第一個(gè)關(guān)系類別的數(shù)據(jù)存放在1.txt中,第二個(gè)關(guān)系類別存放在2.txt中,直到19.txt。
測試集按照訓(xùn)練集的19個(gè)類別的順序?qū)⒏鱾€(gè)樣本按照關(guān)系類別歸類,即相同關(guān)系類型的數(shù)據(jù)放到一個(gè)文本文件中,同樣生成19個(gè)類別的測試文件,格式仍舊和測試文件保持一致。存放在exp1_test文件夾下,每個(gè)類別的文件仍舊命名為1_test.txt,2_test.txt…同時(shí)對每個(gè)樣本在原測試集中出現(xiàn)的位置進(jìn)行記錄,和19個(gè)測試文件一一對應(yīng)起來。比如第一類“傳聞不和”的每個(gè)樣本在原文中處于第幾行,在索引文件中進(jìn)行記錄,保存在文件index1.txt,index2.txt….
解題思路
1.第一題是考察我們文件操作與列表的知識,主要考察的難點(diǎn)是對new文件的讀取,根據(jù)要求處理后在生成一個(gè)txt文件,讓我們看一下具體的代碼實(shí)現(xiàn):
import os # 創(chuàng)建一個(gè)列表用來存儲新的內(nèi)容 list = [] with open("task1.trainSentence.new", "r",encoding='xxx') as file_input: # 打開.new文件,xxx根據(jù)自己的編碼格式填寫 with open("exp1_1.txt", "w", encoding='xxx') as file_output: # 打開exp1_1.txt,xxx根據(jù)自己的編碼格式填寫文件如果沒有就創(chuàng)建一個(gè) for Line in file_input: # 遍歷每一行的文件 arr = Line.split('\t') # 以\t為分隔符讀取 if arr[0] not in list: # if the word is not in the list list.append(arr[0]) # add the word to the list file_output.write(arr[0]+"\t"+arr[1]+"\t"+arr[2]+"\t"+arr[3]+"\t"+arr[4]+"\n") # write the line to the file file_input.close() #關(guān)閉.new文件 file_output.close() #關(guān)閉創(chuàng)建的txt文件
2.第二題依舊考察了文件操作,在題目一生成的文件基礎(chǔ)上,按照同一類型的事件對事件進(jìn)行分類,是否能高效的分組需要利用循環(huán)條件來解決,我們來看看具體的
代碼實(shí)現(xiàn)
import os file_1 = open("exp1_1.txt", encoding='xxx') # 打開文件,xxx根據(jù)自己的編碼格式填寫 os.mkdir("exp1_train") # 創(chuàng)建目錄 os.chdir("exp1_train") # 修改進(jìn)程的工作目錄(使用該目錄) a = file.readline() # 按行讀取exp1_1.txt文件 arr = a.split("\t") # 按\t間隔符作為分割 b = 1 #設(shè)置分組文件的序列 file_2 = open("{}.txt".format(b), "w", encoding="xxx") # 打開文件,xxx根據(jù)自己的編碼格式填寫 for line in file_1: # 按行讀取文件 arr_1 = line.split("\t") # 按\t間隔符作為分割 if arr[0] != arr_1[0]: # 如果讀取文件的第一列內(nèi)容與存入新文件的第一列類型不同 file_2.close() # 關(guān)掉該文件 b += 1 # 文件序列加一 f_2 = open("{}.txt".format(b), "w", encoding="xxx") # 創(chuàng)建新文件,以另一種類型分類,xxx根據(jù)自己的編碼格式填寫 arr = line.split("\t") # 按\t間隔符作為分割 f_2.write(arr[0]+"\t"+arr[1]+"\t"+arr[2]+"\t"+arr[3]+"t"+arr[4]+"\t""\n") # 將相同類型的文件寫入 f_1.close() # 關(guān)閉題目一創(chuàng)建的exp1_1.txt文件 f_2.close() # 關(guān)閉創(chuàng)建的最后一個(gè)類型的文件
3.將訓(xùn)練集的19個(gè)類別按照人物的關(guān)系進(jìn)行進(jìn)一步的分類,我們可以通過字典對數(shù)據(jù)進(jìn)行遍歷,查找關(guān)系,把關(guān)系相同的內(nèi)容放到一個(gè)文件夾中,不同則新建一個(gè)。
import os with open("exp1_1.txt", encoding='xxx') as file_in1: # 打開文件,xxx根據(jù)自己的編碼格式填寫 i = 1 # 類型序列 arr2 = {} # 創(chuàng)建字典 for line in file_in1: # 按行遍歷 arr3 = line[0:2] # 讀取關(guān)系 if arr3 not in arr2.keys(): arr2[arr3] = i i += 1 # 類型+1 file_in = open("task1.test.new") # 打開文件task1.test.new os.mkdir("exp1_test") # 創(chuàng)建目錄 os.chdir("exp1_test") # 修改進(jìn)程的工作目錄(使用該目錄) for line in file_in: arr = line[0:2] with open("{}_test.txt".format(arr2[arr]), "a", encoding='xxx') as file_out: arr = line.split('\t') file_out.write(line) i = 1 file_in.seek(0) os.mkdir("exp1_index") os.chdir("exp1_index") for line in file_in: arr = line[0:2] with open("index{}.txt".format(arr2[arr]), "a", encoding='xxx') as file_out: arr = line.split('\t') line = line[0:-1] file_out.write(line + '\t' + "{}".format(i) + "\n") i += 1
實(shí)驗(yàn)?zāi)康?/strong>
熟悉python的基本數(shù)據(jù)結(jié)構(gòu),以及文件的輸入與輸出。
實(shí)驗(yàn)數(shù)據(jù)
xxxx年xx天池大賽,也是中國高校第x屆大數(shù)據(jù)挑戰(zhàn)賽的數(shù)據(jù)。數(shù)據(jù)包括兩個(gè)表,分別是用戶行為表mars_tianchi_user_actions.csv和歌曲藝人表mars_tianchi_songs.csv。大賽開放抽樣的歌曲藝人數(shù)據(jù),以及和這些藝人相關(guān)的6個(gè)月內(nèi)(20150301-20150831)的用戶行為歷史記錄。選手需要預(yù)測藝人隨后2個(gè)月,即60天(20150901-20151030)的播放數(shù)據(jù)。
實(shí)驗(yàn)內(nèi)容
對歌曲藝人數(shù)據(jù)mars_tianchi_songs進(jìn)行處理,統(tǒng)計(jì)出藝人的個(gè)數(shù)以及每個(gè)藝人的歌曲數(shù)量。輸出文件格式為exp2_1.csv,第一列為藝人的ID,第二列為該藝人的歌曲數(shù)目。最后一行輸出藝人的個(gè)數(shù)。
將用戶行為表和歌曲藝人表以歌曲song_id作為關(guān)聯(lián),合并為一個(gè)大表。各列名稱為第一到第五列與用戶行為表的列名一致,第六到第十列為歌曲藝人表中的第二列到第六列的列名。輸出文件名為exp2_2.csv。
按照藝人統(tǒng)計(jì)每個(gè)藝人每天所有歌曲的播放量,輸出文件為exp2_3.csv,各個(gè)列名為藝人id,日期Ds,歌曲播放總量。注意:這里只統(tǒng)計(jì)歌曲的播放量,不包括下載和收藏的數(shù)量。
解題思路:(利用pandas庫)
1.
(1)利用.drop_duplicates() 刪除重復(fù)值
(2)利用.loc[:,‘artist_id’].value_counts() 求出歌手重復(fù)次數(shù),即每個(gè)歌手的歌曲數(shù)目
(3)利用.loc[:,‘songs_id’].value_counts() 求出歌曲沒有重復(fù)
import pandas as pd data = pd.read_csv(r"C:\mars_tianchi_songs.csv") # 讀取數(shù)據(jù) Newdata = data.drop_duplicates(subset=['artist_id']) # 刪除重復(fù)值 artist_sum = Newdata['artist_id'].count() #artistChongFu_count = data.duplicated(subset=['artist_id']).count() artistChongFu_count = data.loc[:,'artist_id'].value_counts() 重復(fù)次數(shù),即每個(gè)歌手的歌曲數(shù)目 songChongFu_count = data.loc[:,'songs_id'].value_counts() # 沒有重復(fù)(歌手) artistChongFu_count.loc['artist_sum'] = artist_sum # 沒有重復(fù)(歌曲)artistChongFu_count.to_csv('exp2_1.csv') # 輸出文件格式為exp2_1.csv
利用merge()合并兩個(gè)表
import pandas as pd import os data = pd.read_csv(r"C:\mars_tianchi_songs.csv") data_two = pd.read_csv(r"C:\mars_tianchi_user_actions.csv") num=pd.merge(data_two, data) num.to_csv('exp2_2.csv')
利用groupby()[].sum()進(jìn)行重復(fù)性相加
import pandas as pd data =pd.read_csv('exp2_2.csv') DataCHongfu = data.groupby(['artist_id','Ds'])['gmt_create'].sum()#重復(fù)項(xiàng)相加DataCHongfu.to_csv('exp2_3.csv')
以上就是關(guān)于“怎么使用Python操作文本數(shù)據(jù)”這篇文章的內(nèi)容,相信大家都有了一定的了解,希望小編分享的內(nèi)容對大家有幫助,若想了解更多相關(guān)的知識內(nèi)容,請關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道。
文章名稱:怎么使用Python操作文本數(shù)據(jù)
本文地址:http://muchs.cn/article34/gddsse.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供關(guān)鍵詞優(yōu)化、靜態(tài)網(wǎng)站、外貿(mào)網(wǎng)站建設(shè)、標(biāo)簽優(yōu)化、商城網(wǎng)站、做網(wǎng)站
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)