Python編碼處理之str與Unicode的區(qū)別是什么-創(chuàng)新互聯(lián)

創(chuàng)新互聯(lián)www.cdcxhl.cn八線動(dòng)態(tài)BGP香港云服務(wù)器提供商,新人活動(dòng)買多久送多久,劃算不套路!

成都創(chuàng)新互聯(lián)從2013年成立,是專業(yè)互聯(lián)網(wǎng)技術(shù)服務(wù)公司,擁有項(xiàng)目成都網(wǎng)站建設(shè)、網(wǎng)站建設(shè)網(wǎng)站策劃,項(xiàng)目實(shí)施與項(xiàng)目整合能力。我們以讓每一個(gè)夢(mèng)想脫穎而出為使命,1280元華容做網(wǎng)站,已為上家服務(wù),為華容各地企業(yè)和個(gè)人服務(wù),聯(lián)系電話:13518219792

小編給大家分享一下Python編碼處理之 str與Unicode的區(qū)別是什么,希望大家閱讀完這篇文章后大所收獲,下面讓我們一起去探討吧!

用python處理中文,讀取文件或消息時(shí),如果發(fā)現(xiàn)亂碼(字符串處理,讀寫(xiě)文件,print),大多數(shù)人的做法是,調(diào)用encode/decode進(jìn)行調(diào)試,并沒(méi)有明確思考為何出現(xiàn)亂碼, 今天我們來(lái)討論一下如何處理編碼問(wèn)題。

調(diào)試時(shí)最常出現(xiàn)的錯(cuò)誤

錯(cuò)誤1

Traceback (most recent call last): File "<stdin>", line 1, in <module> UnicodeDecodeError: ‘a(chǎn)scii‘ 
codec can‘t 
decode byte 0xe6 in position 0: ordinal not in range(128)

錯(cuò)誤2

Traceback (most recent call last): File "<stdin>", line 1, in <module> File "/System/Library/Frameworks/
Python.framework/Versions/2.7/lib/python2.7/encodings/utf_8.py", line 16, in decode     return 
codecs.utf_8_decode
(input, errors, True) UnicodeEncodeError: ‘a(chǎn)scii‘ codec can‘t encode characters in position 0-1: 
ordinal not in 
range(128)

首先

必須有大體概念,了解下字符集,字符編碼

ASCII | Unicode | UTF-8 | 等等

字符編碼筆記:ASCII,Unicode和UTF-8

str 和 unicode

str和unicode都是basestring的子類

所以有判斷是否是字符串的方法

def is_str(s):     return isinstance(s, basestring) 

str和unicode 轉(zhuǎn)換

str  -> decode(‘the_coding_of_str‘) -> unicode unicode -> encode(‘the_coding_you_want‘) -> str 

區(qū)別

str是字節(jié)串,由unicode經(jīng)過(guò)編碼(encode)后的字節(jié)組成的

聲明方式

>>> s = ‘中文‘ s = u‘中文‘.encode(‘utf-8‘)  
>>> type(‘中文‘) <type ‘str‘>

求長(zhǎng)度(返回字節(jié)數(shù))

>>> u‘中文‘.encode(‘utf-8‘) ‘\xe4\xb8\xad\xe6\x96\x87‘ 
>>> len(u‘中文‘.encode(‘utf-8‘))

結(jié)論

搞明白要處理的是str還是unicode, 使用對(duì)的處理方法(str.decode/unicode.encode)

下面是判斷是否為unicode/str的方法

>>> isinstance(u‘中文‘, unicode) True 
>>> isinstance(‘中文‘, unicode) False  
>>> isinstance(‘中文‘, str) True 
>>> isinstance(u‘中文‘, str) False

簡(jiǎn)單原則:不要對(duì)str使用encode,不要對(duì)unicode使用decode (事實(shí)上可以對(duì)str進(jìn)行encode的,具體見(jiàn)最后,為了保證簡(jiǎn)單,不建議)

>>> ‘中文‘.encode(‘utf-8‘) 
Traceback (most recent call last): File "<stdin>", line 1, in <module> UnicodeDecodeError: ‘a(chǎn)scii‘ 
codec 
can‘t decode byte 0xe4 in position 0: ordinal not in range(128)  
>>> u‘中文‘.decode(‘utf-8‘) 
Traceback (most recent call last): File "<stdin>", line 1, in <module> File "/System/Library/Frameworks/
Python.framework/Versions/2.7/lib/python2.7/encodings/utf_8.py", line 16, in decode     return 
codecs.utf_8_decode(input, errors, True) UnicodeEncodeError: ‘a(chǎn)scii‘ codec can‘t encode characters in 
position 
0-1: ordinal not in range(128)

不同編碼轉(zhuǎn)換,使用unicode作為中間編碼

#s是code_A的str s.decode(‘code_A‘).encode(‘code_B‘)

文件處理,IDE和控制臺(tái)

處理流程,可以這么使用,把python看做一個(gè)水池,一個(gè)入口,一個(gè)出口

入口處,全部轉(zhuǎn)成unicode, 池里全部使用unicode處理,出口處,再轉(zhuǎn)成目標(biāo)編碼(當(dāng)然,有例外,處理邏輯中要用到具體編碼的情況)

讀文件  外部輸入編碼,decode轉(zhuǎn)成unicode  處理(內(nèi)部編碼,統(tǒng)一unicode)  encode轉(zhuǎn)成需要的目標(biāo)編碼  寫(xiě)到目標(biāo)輸出(文件或控制臺(tái)) 

IDE和控制臺(tái)報(bào)錯(cuò),原因是print時(shí),編碼和IDE自身編碼不一致導(dǎo)致

輸出時(shí)將編碼轉(zhuǎn)換成一致的就可以正常輸出

>>> print u‘中文‘.encode(‘gbk‘) ???? 
>>> print u‘中文‘.encode(‘utf-8‘) 中文

建議

規(guī)范編碼

統(tǒng)一編碼,防止由于某個(gè)環(huán)節(jié)產(chǎn)生的亂碼

環(huán)境編碼,IDE/文本編輯器, 文件編碼,數(shù)據(jù)庫(kù)數(shù)據(jù)表編碼

保證代碼源文件編碼

這個(gè)很重要

py文件默認(rèn)編碼是ASCII, 在源代碼文件中,如果用到非ASCII字符,需要在文件頭部進(jìn)行編碼聲明 文檔

不聲明的話,輸入非ASCII會(huì)遇到的錯(cuò)誤,必須放在文件第一行或第二行

File "XXX.py", line 3 SyntaxError: Non-ASCII character ‘\xd6‘ in file c.py on line 3, but no encoding declared; 
see http://www.python.org/peps/pep-0263.html for details

聲明方法

# -*- coding: utf-8 -*- 或者 #coding=utf-8

若頭部聲明coding=utf-8, a = ‘中文‘ 其編碼為utf-8

若頭部聲明coding=gb2312, a = ‘中文‘ 其編碼為gbk

so, 同一項(xiàng)目中所有源文件頭部統(tǒng)一一個(gè)編碼,并且聲明的編碼要和源文件保存的編碼一致(編輯器相關(guān))

在源代碼用作處理的硬編碼字符串,統(tǒng)一用unicode

將其類型和源文件本身的編碼隔離開(kāi), 獨(dú)立無(wú)依賴方便流程中各個(gè)位置處理

if s == u‘中文‘:  #而不是 s == ‘中文‘     pass #注意這里 s到這里時(shí),確保轉(zhuǎn)為unicode

以上幾步搞定后,你只需要關(guān)注兩個(gè) unicode和 你設(shè)定的編碼(一般使用utf-8)

處理順序

1. Decode early 2. Unicode everywhere 3. Encode later 

相關(guān)模塊及一些方法

獲得和設(shè)置系統(tǒng)默認(rèn)編碼

>>> import sys 
>>> sys.getdefaultencoding() ‘a(chǎn)scii‘  
>>> reload(sys) <module ‘sys‘ (built-in)> 
>>> sys.setdefaultencoding(‘utf-8‘) 
>>> sys.getdefaultencoding() ‘utf-8‘ 
>>> str.encode(‘other_coding‘)

在python中,直接將某種編碼的str進(jìn)行encode成另一種編碼str

#str_A為utf-8 str_A.encode(‘gbk‘)  執(zhí)行的操作是 str_A.decode(‘sys_codec‘).encode(‘gbk‘) 這里sys_codec即為上一步 sys.getdefaultencoding() 的編碼 

‘獲得和設(shè)置系統(tǒng)默認(rèn)編碼‘和這里的str.encode是相關(guān)的,但我一般很少這么用,主要是覺(jué)得復(fù)雜不可控,還是輸入明確decode,輸出明確encode來(lái)得簡(jiǎn)單些

chardet

文件編碼檢測(cè),下載

>>> import chardet 
>>> f = open(‘test.txt‘,‘r‘) 
>>> result = chardet.detect(f.read()) 
>>> result {‘confidence‘: 0.99, ‘encoding‘: ‘utf-8‘}

\u字符串轉(zhuǎn)對(duì)應(yīng)unicode字符串

>>> u‘中‘ u‘\u4e2d‘  
>>> s = ‘\u4e2d‘ 
>>> print s.decode(‘unicode_escape‘) 中  
>>> a = ‘\\u4fee\\u6539\\u8282\\u70b9\\u72b6\\u6001\\u6210\\u529f‘ 
>>> a.decode(‘unicode_escape‘) u‘\u4fee\u6539\u8282\u70b9\u72b6\u6001\u6210\u529f‘

看完了這篇文章,相信你對(duì)Python編碼處理之 str與Unicode的區(qū)別是什么有了一定的了解,想了解更多相關(guān)知識(shí),歡迎關(guān)注創(chuàng)新互聯(lián)-成都網(wǎng)站建設(shè)公司行業(yè)資訊頻道,感謝各位的閱讀!

文章題目:Python編碼處理之str與Unicode的區(qū)別是什么-創(chuàng)新互聯(lián)
鏈接URL:http://muchs.cn/article40/cdcjeo.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供軟件開(kāi)發(fā)建站公司、虛擬主機(jī)、品牌網(wǎng)站建設(shè)、全網(wǎng)營(yíng)銷推廣企業(yè)網(wǎng)站制作

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

成都定制網(wǎng)站建設(shè)