Java中Unicode編碼和實(shí)現(xiàn)的示例分析

這篇文章主要為大家展示了“Java中Unicode編碼和實(shí)現(xiàn)的示例分析”，內(nèi)容簡(jiǎn)而易懂，條理清晰，希望能夠幫助大家解決疑惑，下面讓小編帶領(lǐng)大家一起研究并學(xué)習(xí)一下“Java中Unicode編碼和實(shí)現(xiàn)的示例分析”這篇文章吧。

創(chuàng)新互聯(lián)專(zhuān)注于平山網(wǎng)站建設(shè)服務(wù)及定制，我們擁有豐富的企業(yè)做網(wǎng)站經(jīng)驗(yàn)。熱誠(chéng)為您提供平山營(yíng)銷(xiāo)型網(wǎng)站建設(shè)，平山網(wǎng)站制作、平山網(wǎng)頁(yè)設(shè)計(jì)、平山網(wǎng)站官網(wǎng)定制、小程序開(kāi)發(fā)服務(wù)，打造平山網(wǎng)絡(luò)公司原創(chuàng)品牌,更為您提供平山網(wǎng)站排名全網(wǎng)營(yíng)銷(xiāo)落地服務(wù)。

Unicode的編碼和實(shí)現(xiàn)

大概來(lái)說(shuō)，Unicode編碼系統(tǒng)可分為編碼方式和實(shí)現(xiàn)方式兩個(gè)層次。

編碼方式

字符是抽象的最小文本單位。它沒(méi)有固定的形狀（可能是一個(gè)字形），而且沒(méi)有值?！癆”是一個(gè)字符，“?”也是一個(gè)字符。字符集是字符的集合。編碼字符集是一個(gè)字符集，它為每一個(gè)字符分配一個(gè)唯一數(shù)字。

Unicode 最初設(shè)計(jì)是作為一種固定寬度的 16 位字符編碼。也就是每個(gè)字符占用2個(gè)字節(jié)。這樣理論上一共最多可以表示216（即65536）個(gè)字符。上述16位統(tǒng)一碼字符構(gòu)成基本多文種平面?；径辔姆N平面的字符的編碼為U+hhhh，其中每個(gè)h代表一個(gè)十六進(jìn)制數(shù)字。

很明顯，16 位編碼的所有 65，536 個(gè)字符并不能完全表示全世界所有正在使用或曾經(jīng)使用的字符。于是，Unicode 標(biāo)準(zhǔn)已擴(kuò)展到包含多達(dá) 1，112，064 個(gè)字符。那些超出原來(lái)的 16 位限制的字符被稱(chēng)作增補(bǔ)字符。Unicode 標(biāo)準(zhǔn) 2.0 版是第一個(gè)包含

啟用增補(bǔ)字符設(shè)計(jì)的版本，但是，直到 3.1 版才收入第一批增補(bǔ)字符集。

Unicode字符平面映射

目前的Unicode字元分為17組編排，每組稱(chēng)為平面（Plane），而每平面擁有65536（即216）個(gè)代碼點(diǎn)。然而目前只用了少數(shù)平面。

平面	始末字元值	中文名稱(chēng)	英文名稱(chēng)
0號(hào)平面	U+0000 - U+FFFF	基本多文種平面	Basic Multilingual Plane,簡(jiǎn)稱(chēng)BMP
1號(hào)平面	U+10000 - U+1FFFF	多文種補(bǔ)充平面	Supplementary Multilingual Plane,簡(jiǎn)稱(chēng)SMP
2號(hào)平面	U+20000 - U+2FFFF	表意文字補(bǔ)充平面	Supplementary Ideographic Plane,簡(jiǎn)稱(chēng)SIP
3號(hào)平面	U+30000 - U+3FFFF	表意文字第三平面（未正式使用）	Tertiary Ideographic Plane,簡(jiǎn)稱(chēng)TIP
4號(hào)平面至 13號(hào)平面	U+40000 - U+DFFFF	（尚未使用）
14號(hào)平面	U+E0000 - U+EFFFF	特別用途補(bǔ)充平面	Supplementary Special-purpose Plane,簡(jiǎn)稱(chēng)SSP
15號(hào)平面	U+F0000 - U+FFFFF	保留作為私人使用區(qū)（A區(qū)）	Private Use Area-A,簡(jiǎn)稱(chēng)PUA-A
16號(hào)平面	U+100000 - U+10FFFF	保留作為私人使用區(qū)（B區(qū)）	Private Use Area-B,簡(jiǎn)稱(chēng)PUA-B

增補(bǔ)字符是代碼點(diǎn)在 U+10000 至 U+10FFFF 范圍之間的字符（上述表格中1號(hào)平面~16號(hào)平面之間的），也就是那些使用原始的 Unicode 的 16 位設(shè)計(jì)無(wú)法表示的字符。從 U+0000 至 U+FFFF 之間的字符集有時(shí)候被稱(chēng)為基本多語(yǔ)言面（BMP）。因此，每一個(gè) Unicode 字符要么屬于 BMP，要么屬于增補(bǔ)字符。

實(shí)現(xiàn)方式

UTF-32、UTF-16 和 UTF-8 是具體的實(shí)現(xiàn)方案。Unicode的實(shí)現(xiàn)方式不同于編碼方式。一個(gè)字符的Unicode編碼是確定的。但是在實(shí)際傳輸過(guò)程中，由于不同系統(tǒng)平臺(tái)的設(shè)計(jì)不一定一致，以及出于節(jié)省空間的目的，對(duì)Unicode編碼的實(shí)現(xiàn)方式有所不同。Unicode的實(shí)現(xiàn)方式稱(chēng)為Unicode轉(zhuǎn)換格式（Unicode Transformation Format，簡(jiǎn)稱(chēng)為UTF）。

例如，如果一個(gè)僅包含基本7位ASCII字符的Unicode文件，如果每個(gè)字符都使用2字節(jié)的原Unicode編碼傳輸，其第一字節(jié)的8位始終為0。這就造成了比較大的浪費(fèi)。對(duì)于這種情況，可以使用UTF-8編碼，這是一種變長(zhǎng)編碼，它將基本7位ASCII字符仍用7位編碼表示，占用一個(gè)字節(jié)（首位補(bǔ)0）。而遇到與其他Unicode字符混合的情況，將按一定算法轉(zhuǎn)換，每個(gè)字符使用1-3個(gè)字節(jié)編碼，并利用首位為0或1進(jìn)行識(shí)別。這樣對(duì)以7位ASCII字符為主的西文文檔就大幅節(jié)省了編碼長(zhǎng)度（具體方案參見(jiàn)UTF-8）。類(lèi)似的，對(duì)未來(lái)會(huì)出現(xiàn)的需要4個(gè)字節(jié)的輔助平面字符和其他UCS-4擴(kuò)充字符，2字節(jié)編碼的UTF-16也需要通過(guò)一定的算法進(jìn)行轉(zhuǎn)換。

再如，如果直接使用與Unicode編碼一致（僅限于BMP字符）的UTF-16編碼，由于每個(gè)字符占用了兩個(gè)字節(jié)，在麥金塔電腦（Mac）機(jī)和個(gè)人電腦上，對(duì)字節(jié)順序的理解是不一致的。這時(shí)同一字節(jié)流可能會(huì)被解釋為不同內(nèi)容，如某字符為十六進(jìn)制編碼4E59，按兩個(gè)字節(jié)拆分為4E和59，在Mac上讀取時(shí)是從低字節(jié)開(kāi)始，那么在Mac OS會(huì)認(rèn)為此4E59編碼為594E，找到的字符為“奎”，而在Windows上從高字節(jié)開(kāi)始讀取，則編碼為U+4E59的字符為“乙”。就是說(shuō)在Windows下以UTF-16編碼保存一個(gè)字符“乙”，在Mac OS環(huán)境下打開(kāi)會(huì)顯示成“奎”。此類(lèi)情況說(shuō)明UTF-16的編碼順序若不加以人為定義就可能發(fā)生混淆，于是在UTF-16編碼實(shí)現(xiàn)方式中使用了大端序（Big-Endian，簡(jiǎn)寫(xiě)為UTF-16 BE）、小端序（Little-Endian，簡(jiǎn)寫(xiě)為UTF-16 LE）的概念，以及可附加的字節(jié)順序記號(hào)解決方案，目前在PC機(jī)上的Windows系統(tǒng)和Linux系統(tǒng)對(duì)于UTF-16編碼默認(rèn)使用UTF-16 LE。（具體方案參見(jiàn)UTF-16）

此外Unicode的實(shí)現(xiàn)方式還包括UTF-7、Punycode、CESU-8、SCSU、UTF-32、GB18030等，這些實(shí)現(xiàn)方式有些僅在一定的國(guó)家和地區(qū)使用，有些則屬于未來(lái)的規(guī)劃方式。目前通用的實(shí)現(xiàn)方式是UTF-16小端序（LE）、UTF-16大端序（BE）和UTF-8。在微軟公司W(wǎng)indows XP附帶的記事本（Notepad）中，“另存為”對(duì)話框可以選擇的四種編碼方式除去非Unicode編碼的ANSI（對(duì)于英文系統(tǒng)即ASCII編碼，中文系統(tǒng)則為GB2312或Big5編碼）外，其余三種為“Unicode”（對(duì)應(yīng)UTF-16 LE）、“Unicode big endian”（對(duì)應(yīng)UTF-16 BE）和“UTF-8”。

代碼點(diǎn)、碼位

在字符編碼術(shù)語(yǔ)中，碼位或稱(chēng)編碼位置，即英文的code point或code position，是組成碼空間（或代碼頁(yè)）的數(shù)值。例如，ASCII碼包含128個(gè)碼位，范圍是016進(jìn)制到7F16進(jìn)制，擴(kuò)展ASCII碼包含256個(gè)碼位，范圍是016進(jìn)制到FF16進(jìn)制，而Unicode包含1,114,112個(gè)碼位，范圍是016進(jìn)制到10FFFF16進(jìn)制。Unicode碼空間劃分為17個(gè)Unicode字符平面（基本多文種平面，16個(gè)輔助平面），每個(gè)平面有65,536（= 216）個(gè)碼位。因此Unicode碼空間總計(jì)是17 × 65,536 = 1,114,112.

代碼單元、碼元

碼元（Code Unit，也稱(chēng)“代碼單元”）是指一個(gè)已編碼的文本中具有最短的比特組合的單元。對(duì)于UTF-8來(lái)說(shuō)，碼元是8比特長(zhǎng)；對(duì)于UTF-16來(lái)說(shuō)，碼元是16比特長(zhǎng)；對(duì)于UTF-32來(lái)說(shuō)，碼元是32比特長(zhǎng)。碼值（Code Value）是過(guò)時(shí)的用法。
明白了上述兩個(gè)概念，我們就可以認(rèn)為UTF-N（N為8,16,32）干的事就是把Unicode字符集的抽象碼位映射為N位長(zhǎng)的整數(shù)（即碼元）的序列，用于數(shù)據(jù)存儲(chǔ)或傳遞。

UTF-32 即將每一個(gè) Unicode 代碼點(diǎn)表示為相同值的 32 位整數(shù)。很明顯，它是內(nèi)部處理最方便的表達(dá)方式，但是，如果作為一般字符串表達(dá)方式，則要消耗更多的內(nèi)存。

UTF-16 使用一個(gè)或兩個(gè)未分配的 16 位代碼單元的序列對(duì) Unicode 代碼點(diǎn)進(jìn)行編碼。值 U+0000 至 U+FFFF 編碼為一個(gè)相同值的 16 位單元。增補(bǔ)字符編碼為兩個(gè)代碼單元，第一個(gè)單元來(lái)自于高代理范圍（U+D800 至 U+DBFF），第二個(gè)單元來(lái)自于低代理范圍（U+DC00 至 U+DFFF）。這在概念上可能看起來(lái)類(lèi)似于多字節(jié)編碼，但是其中有一個(gè)重要區(qū)別：值 U+D800 至 U+DFFF 保留用于 UTF-16；沒(méi)有這些值分配字符作為代碼點(diǎn)。這意味著，對(duì)于一個(gè)字符串中的每個(gè)單獨(dú)的代碼單元，軟件可以識(shí)別是否該代碼單元表示某個(gè)單單元字符，或者是否該代碼單元是某個(gè)雙單元字符的第一個(gè)或第二單元。這相當(dāng)于某些傳統(tǒng)的多字節(jié)字符編碼來(lái)說(shuō)是一個(gè)顯著的改進(jìn)，在傳統(tǒng)的多字節(jié)字符編碼中，字節(jié)值 0x41 既可能表示字母“A”，也可能是一個(gè)雙字節(jié)字符的第二個(gè)字節(jié)。

UTF-8 使用一至四個(gè)字節(jié)的序列對(duì)編碼 Unicode 代碼點(diǎn)進(jìn)行編碼。U+0000 至 U+007F 使用一個(gè)字節(jié)編碼，U+0080 至 U+07FF 使用兩個(gè)字節(jié)，U+0800 至 U+FFFF 使用三個(gè)字節(jié)，而 U+10000 至 U+10FFFF 使用四個(gè)字節(jié)。UTF-8 設(shè)計(jì)原理為：字節(jié)值 0x00 至 0x7F 始終表示代碼點(diǎn) U+0000 至 U+007F（Basic Latin 字符子集，它對(duì)應(yīng) ASCII 字符集）。這些字節(jié)值永遠(yuǎn)不會(huì)表示其他代碼點(diǎn)，這一特性使 UTF-8 可以很方便地在軟件中將特殊的含義賦予某些 ASCII 字符。

下表所示為幾個(gè)字符不同表達(dá)方式的比較：

Unicode 代碼點(diǎn)	U+0041	U+00DF	U+6771	U+10400
表示字形
UTF-32 代碼單元	00000041	000000DF	00006771	00010400
UTF-16 代碼單元	0041	00DF	6771	D801DC00
UTF-8 代碼單元	41	C39F	E69DB1	F0909080

注：上述編碼中的數(shù)字均是十六進(jìn)制表示的。

以上是“Java中Unicode編碼和實(shí)現(xiàn)的示例分析”這篇文章的所有內(nèi)容，感謝各位的閱讀！相信大家都有了一定的了解，希望分享的內(nèi)容對(duì)大家有所幫助，如果還想學(xué)習(xí)更多知識(shí)，歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道！

名稱(chēng)欄目：Java中Unicode編碼和實(shí)現(xiàn)的示例分析
本文鏈接：http://muchs.cn/article12/ghcpgc.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供虛擬主機(jī)、營(yíng)銷(xiāo)型網(wǎng)站建設(shè)、網(wǎng)站改版、小程序開(kāi)發(fā)、面包屑導(dǎo)航、企業(yè)建站

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶(hù)投稿、用戶(hù)轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請(qǐng)盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如需處理請(qǐng)聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來(lái)源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容