python中文編碼與json中文輸出問(wèn)題詳解-創(chuàng)新互聯(lián)

前言

創(chuàng)新互聯(lián)建站專業(yè)為企業(yè)提供武宣網(wǎng)站建設(shè)、武宣做網(wǎng)站、武宣網(wǎng)站設(shè)計(jì)、武宣網(wǎng)站制作等企業(yè)網(wǎng)站建設(shè)、網(wǎng)頁(yè)設(shè)計(jì)與制作、武宣企業(yè)網(wǎng)站模板建站服務(wù),10余年武宣做網(wǎng)站經(jīng)驗(yàn),不只是建網(wǎng)站,更提供有價(jià)值的思路和整體網(wǎng)絡(luò)服務(wù)。

python2.x版本的字符編碼有時(shí)讓人很頭疼,遇到問(wèn)題,網(wǎng)上方法可以解決錯(cuò)誤,但對(duì)原理還是一知半解,本文主要介紹 python 中字符串處理的原理,附帶解決 json 文件輸出時(shí),顯示中文而非 unicode 問(wèn)題。首先簡(jiǎn)要介紹字符串編碼的歷史,其次,講解 python 對(duì)于字符串的處理,及編碼的檢測(cè)與轉(zhuǎn)換,最后,介紹 python 爬蟲(chóng)采取的 json 數(shù)據(jù)存入文件時(shí)中文輸出的問(wèn)題。

參考書(shū)籍:Python網(wǎng)絡(luò)爬蟲(chóng)從入門到實(shí)踐 by唐松

在python 2或者3 ,字符串編碼只有兩類 :

(1)通用的Unicode編碼;

(2)將Unicode轉(zhuǎn)化為某種類型的編碼,如UTF-8,GBK;

1、計(jì)算機(jī)歷史:

計(jì)算機(jī)只處理數(shù)字,因此處理文本時(shí),必須轉(zhuǎn)換成數(shù)字才行。

8位(bit)=1字節(jié)(byte)=256種不同狀態(tài)=從000000到111111;

1GB=1024M=1024(1024kb)=1024(1024(1024b));

ASCII編碼 是對(duì)應(yīng)英文字符與二進(jìn)制數(shù)字之間的關(guān)系;ASCII一共規(guī)定了128種,如大寫(xiě)字母A是65,即01000001;可見(jiàn)一字母一字節(jié);

GB2312編碼 簡(jiǎn)體中文常見(jiàn)的編碼,兩個(gè)字節(jié)代表一個(gè)中文漢字 ,理論上256*256個(gè)編碼,即可表示65536種中文字;

各國(guó)編碼不同,為了各國(guó)能擴(kuò)平臺(tái)進(jìn)行文本的轉(zhuǎn)換與處理,Unicode就被作為統(tǒng)一碼或者單一碼。Unicode編碼通常是兩個(gè)字節(jié),unicode與ASCII編碼的區(qū)別,在于unicode在ASCII編碼前加了一個(gè)0,即字母A的ASCII編碼為01000001,unicode編碼即為0000000001000001;但英文字母其實(shí)只用一個(gè)字節(jié)就夠了,unicode編碼寫(xiě)英文時(shí)多了一個(gè)字節(jié),浪費(fèi)存儲(chǔ)空間。因而unicode開(kāi)發(fā)了通用轉(zhuǎn)換格式(Unicode Transformation Format(UTF)),常見(jiàn)的有utf-8或者utf-16;

要明白encode()和decode()的區(qū)別

encode()的作用是將Unicode編碼的字符串轉(zhuǎn)換為其他編碼格式。

例如: st1.encode("utf-8") 這句話的作用是將Unicode編碼的st1編碼為utf-8編碼的字符串

decode()的作用是把其他編碼格式的字符串轉(zhuǎn)換成Unicode編碼的字符串。

例如: st2.decode("utf-8") 這句話的作用是將utf-8編碼的字符串st2解碼為Unicode編碼的字符串

第二,除Unicode編碼的字符串以外,任何一種編碼的字符串要想轉(zhuǎn)換為其他編碼格式,必須先解碼后編碼

非Unicode編碼--> Unicode編碼-->非Unicode編碼

例如,utf-8編碼的字符串st想要轉(zhuǎn)換為gbk編碼的字符串,必須經(jīng)過(guò)以下步驟:

st=st.decode("utf-8") #解碼為Unicode編碼
st=st.encode("gbk") #從Unicode編碼編碼為gbk編碼

另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務(wù)器15元起步,三天無(wú)理由+7*72小時(shí)售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國(guó)服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡(jiǎn)單易用、服務(wù)可用性高、性價(jià)比高”等特點(diǎn)與優(yōu)勢(shì),專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場(chǎng)景需求。

新聞標(biāo)題:python中文編碼與json中文輸出問(wèn)題詳解-創(chuàng)新互聯(lián)
鏈接地址:http://muchs.cn/article48/dshehp.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供小程序開(kāi)發(fā)企業(yè)網(wǎng)站制作、關(guān)鍵詞優(yōu)化移動(dòng)網(wǎng)站建設(shè)、網(wǎng)站設(shè)計(jì)、全網(wǎng)營(yíng)銷推廣

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

營(yíng)銷型網(wǎng)站建設(shè)