java設(shè)置字符集代碼 java語(yǔ)言使用的字符碼集是什么

Java 如何設(shè)置打開(kāi)文件內(nèi)容的字符集

3.5.3. meta設(shè)置

成都創(chuàng)新互聯(lián)是網(wǎng)站建設(shè)專(zhuān)家,致力于互聯(lián)網(wǎng)品牌建設(shè)與網(wǎng)絡(luò)營(yíng)銷(xiāo),專(zhuān)業(yè)領(lǐng)域包括網(wǎng)站設(shè)計(jì)制作、成都做網(wǎng)站、電商網(wǎng)站制作開(kāi)發(fā)、小程序開(kāi)發(fā)、微信營(yíng)銷(xiāo)、系統(tǒng)平臺(tái)開(kāi)發(fā),與其他網(wǎng)站設(shè)計(jì)及系統(tǒng)開(kāi)發(fā)公司不同,我們的整合解決方案結(jié)合了恒基網(wǎng)絡(luò)品牌建設(shè)經(jīng)驗(yàn)和互聯(lián)網(wǎng)整合營(yíng)銷(xiāo)的理念,并將策略和執(zhí)行緊密結(jié)合,且不斷評(píng)估并優(yōu)化我們的方案,為客戶(hù)提供全方位的互聯(lián)網(wǎng)品牌整合方案!

指定網(wǎng)頁(yè)使用的編碼,該設(shè)置對(duì)靜態(tài)網(wǎng)頁(yè)尤其有作用。因?yàn)殪o態(tài)網(wǎng)頁(yè)無(wú)法采用jsp的設(shè)置,而且也無(wú)法執(zhí)行response.setCharacterEncoding()。例如:META http-equiv="Content-Type" content="text/html; charset=GBK" /

如果同時(shí)采用了jsp輸出和meta設(shè)置兩種編碼指定方式,則jsp指定的優(yōu)先。因?yàn)閖sp指定的直接體現(xiàn)在response中。

需要注意的是,apache有一個(gè)設(shè)置可以給無(wú)編碼指定的網(wǎng)頁(yè)指定編碼,該指定等同于jsp的編碼指定方式,所以會(huì)覆蓋靜態(tài)網(wǎng)頁(yè)中的meta指定。所以有人建議關(guān)閉該設(shè)置。

3.5.4. form設(shè)置

當(dāng)瀏覽器提交表單的時(shí)候,可以指定相應(yīng)的編碼。例如:form accept-charset= "gb2312"。一般不必不使用該設(shè)置,瀏覽器會(huì)直接使用網(wǎng)頁(yè)的編碼。

4. 系統(tǒng)軟件

下面討論幾個(gè)相關(guān)的系統(tǒng)軟件。

4.1. mysql數(shù)據(jù)庫(kù)

很明顯,要支持多語(yǔ)言,應(yīng)該將數(shù)據(jù)庫(kù)的編碼設(shè)置成utf或者unicode,而utf更適合與存儲(chǔ)。但是,如果中文數(shù)據(jù)中包含的英文字母很少,其實(shí)unicode更為適合。

數(shù)據(jù)庫(kù)的編碼可以通過(guò)mysql的配置文件設(shè)置,例如default-character-set=utf8。還可以在數(shù)據(jù)庫(kù)鏈接URL中設(shè)置,例如: useUnicode=truecharacterEncoding=UTF-8。注意這兩者應(yīng)該保持一致,在新的sql版本里,在數(shù)據(jù)庫(kù)鏈接URL里可以不進(jìn)行設(shè)置,但也不能是錯(cuò)誤的設(shè)置。

4.2. apache

appache和編碼有關(guān)的配置在httpd.conf中,例如AddDefaultCharset UTF-8。如前所述,該功能會(huì)將所有靜態(tài)頁(yè)面的編碼設(shè)置為UTF-8,最好關(guān)閉該功能。

另外,apache還有單獨(dú)的模塊來(lái)處理網(wǎng)頁(yè)響應(yīng)頭,其中也可能對(duì)編碼進(jìn)行設(shè)置。

4.3. linux默認(rèn)編碼

這里所說(shuō)的linux默認(rèn)編碼,是指運(yùn)行時(shí)的環(huán)境變量。兩個(gè)重要的環(huán)境變量是LC_ALL和LANG,默認(rèn)編碼會(huì)影響到j(luò)ava URLEncode的行為,下面有描述。

建議都設(shè)置為"zh_CN.UTF-8"。

4.4. 其它

為了支持中文文件名,linux在加載磁盤(pán)時(shí)應(yīng)該指定字符集,例如:mount /dev/hda5 /mnt/hda5/ -t ntfs -o iocharset=gb2312。

另外,如前所述,使用GET方法提交的信息不支持request.setCharacterEncoding(),但可以通過(guò)tomcat的配置文件指定字符集,在tomcat的server.xml文件中,形如:Connector ... URIEncoding="GBK"/。這種方法將統(tǒng)一設(shè)置所有請(qǐng)求,而不能針對(duì)具體頁(yè)面進(jìn)行設(shè)置,也不一定和browser使用的編碼相同,所以有時(shí)候并不是所期望的。

5. URL地址

URL地址中含有中文字符是很麻煩的,前面描述過(guò)使用GET方法提交表單的情況,使用GET方法時(shí),參數(shù)就是包含在URL中。

5.1. URL編碼

對(duì)于URL中的一些特殊字符,瀏覽器會(huì)自動(dòng)進(jìn)行編碼。這些字符除了"/?"等外,還包括unicode字符,比如漢子。這時(shí)的編碼比較特殊。

IE有一個(gè)選項(xiàng)"總是使用UTF-8發(fā)送URL",當(dāng)該選項(xiàng)有效時(shí),IE將會(huì)對(duì)特殊字符進(jìn)行UTF-8編碼,同時(shí)進(jìn)行URL編碼。如果改選項(xiàng)無(wú)效,則使用默認(rèn)編碼"GBK",并且不進(jìn)行URL編碼。但是,對(duì)于URL后面的參數(shù),則總是不進(jìn)行編碼,相當(dāng)于UTF-8選項(xiàng)無(wú)效。比如"中文.html?a=中文",當(dāng)UTF-8選項(xiàng)有效時(shí),將發(fā)送鏈接"%e4%b8%ad%e6%96%87.html?a=\x4e\x2d\x65\x87";而UTF-8選項(xiàng)無(wú)效時(shí),將發(fā)送鏈接"\x4e\x2d\x65\x87.html?a=\x4e\x2d\x65\x87"。注意后者前面的"中文"兩個(gè)字只有4個(gè)字節(jié),而前者卻有18個(gè)字節(jié),這主要時(shí)URL編碼的原因。

當(dāng)web server(tomcat)接收到該鏈接時(shí),將會(huì)進(jìn)行URL解碼,即去掉"%",同時(shí)按照ISO8859-1編碼(上面已經(jīng)描述,可以使用URLEncoding來(lái)設(shè)置成其它編碼)識(shí)別。上述例子的結(jié)果分別是"\ue4\ub8\uad\ue6\u96\u87.html?a=\u4e\u2d\u65\u87"和"\u4e\u2d\u65\u87.html?a=\u4e\u2d\u65\u87",注意前者前面的"中文"兩個(gè)字恢復(fù)成了6個(gè)字符。這里用"\u",表示是unicode。

所以,由于客戶(hù)端設(shè)置的不同,相同的鏈接,在服務(wù)器上得到了不同結(jié)果。這個(gè)問(wèn)題不少人都遇到,卻沒(méi)有很好的解決辦法。所以有的網(wǎng)站會(huì)建議用戶(hù)嘗試關(guān)閉UTF-8選項(xiàng)。不過(guò),下面會(huì)描述一個(gè)更好的處理辦法。

5.2. rewrite

熟悉的人都知道,apache有一個(gè)功能強(qiáng)大的rewrite模塊,這里不描述其功能。需要說(shuō)明的是該模塊會(huì)自動(dòng)將URL解碼(去除%),即完成上述web server(tomcat)的部分功能。有相關(guān)文檔介紹說(shuō)可以使用[NE]參數(shù)來(lái)關(guān)閉該功能,但我試驗(yàn)并未成功,可能是因?yàn)榘姹荆ㄎ沂褂玫氖莂pache 2.0.54)問(wèn)題。另外,當(dāng)參數(shù)中含有"? "等符號(hào)的時(shí)候,該功能將導(dǎo)致系統(tǒng)得不到正常結(jié)果。

rewrite本身似乎完全是采用字節(jié)處理的方式,而不考慮字符串的編碼,所以不會(huì)帶來(lái)編碼問(wèn)題。

5.3. URLEncode.encode()

這是Java本身提供對(duì)的URL編碼函數(shù),完成的工作和上述UTF-8選項(xiàng)有效時(shí)瀏覽器所做的工作相似。值得說(shuō)明的是,java已經(jīng)不贊成不指定編碼來(lái)使用該方法(deprecated)。應(yīng)該在使用的時(shí)候增加編碼指定。

當(dāng)不指定編碼的時(shí)候,該方法使用系統(tǒng)默認(rèn)編碼,這會(huì)導(dǎo)致軟件運(yùn)行結(jié)果得不確定。比如對(duì)于"中文",當(dāng)系統(tǒng)默認(rèn)編碼為"gb2312"時(shí),結(jié)果是"%4e%2d%65%87",而默認(rèn)編碼為"UTF-8",結(jié)果卻是"%e4%b8%ad%e6%96%87",后續(xù)程序?qū)㈦y以處理。另外,這兒說(shuō)的系統(tǒng)默認(rèn)編碼是由運(yùn)行tomcat時(shí)的環(huán)境變量LC_ALL和LANG等決定的,曾經(jīng)出現(xiàn)過(guò)tomcat重啟后就出現(xiàn)亂碼的問(wèn)題,最后才郁悶的發(fā)現(xiàn)是因?yàn)樾薷男薷牧诉@兩個(gè)環(huán)境變量。

建議統(tǒng)一指定為"UTF-8"編碼,可能需要修改相應(yīng)的程序。

5.4. 一個(gè)解決方案

上面說(shuō)起過(guò),因?yàn)闉g覽器設(shè)置的不同,對(duì)于同一個(gè)鏈接,web server收到的是不同內(nèi)容,而軟件系統(tǒng)有無(wú)法知道這中間的區(qū)別,所以這一協(xié)議目前還存在缺陷。

針對(duì)具體問(wèn)題,不應(yīng)該僥幸認(rèn)為所有客戶(hù)的IE設(shè)置都是UTF-8有效的,也不應(yīng)該粗暴的建議用戶(hù)修改IE設(shè)置,要知道,用戶(hù)不可能去記住每一個(gè)web server的設(shè)置。所以,接下來(lái)的解決辦法就只能是讓自己的程序多一點(diǎn)智能:根據(jù)內(nèi)容來(lái)分析編碼是否UTF-8。

比較幸運(yùn)的是UTF-8編碼相當(dāng)有規(guī)律,所以可以通過(guò)分析傳輸過(guò)來(lái)的鏈接內(nèi)容,來(lái)判斷是否是正確的UTF-8字符,如果是,則以UTF-8處理之,如果不是,則使用客戶(hù)默認(rèn)編碼(比如"GBK"),下面是一個(gè)判斷是否UTF-8的例子,如果你了解相應(yīng)規(guī)律,就容易理解。

public static boolean isValidUtf8(byte[] b,int aMaxCount){

int lLen=b.length,lCharCount=0;

for(int i=0;ilLen lCharCountaMaxCount;++lCharCount){

byte lByte=b[i++];//to fast operation, ++ now, ready for the following for(;;)

if(lByte=0) continue;//=0 is normal ascii

if(lByte(byte)0xc0 || lByte(byte)0xfd) return false;

int lCount=lByte(byte)0xfc?5:lByte(byte)0xf8?4

:lByte(byte)0xf0?3:lByte(byte)0xe0?2:1;

if(i+lCountlLen) return false;

for(int j=0;jlCount;++j,++i) if(b[i]=(byte)0xc0) return false;

}

return true;

}

相應(yīng)地,一個(gè)使用上述方法的例子如下:

public static String getUrlParam(String aStr,String aDefaultCharset)

throws UnsupportedEncodingException{

if(aStr==null) return null;

byte[] lBytes=aStr.getBytes("ISO-8859-1");

return new String(lBytes,StringUtil.isValidUtf8(lBytes)?"utf8":aDefaultCharset);

}

不過(guò),該方法也存在缺陷,如下兩方面:

l 沒(méi)有包括對(duì)用戶(hù)默認(rèn)編碼的識(shí)別,這可以根據(jù)請(qǐng)求信息的語(yǔ)言來(lái)判斷,但不一定正確,因?yàn)槲覀冇袝r(shí)候也會(huì)輸入一些韓文,或者其他文字。

l 可能會(huì)錯(cuò)誤判斷UTF-8字符,一個(gè)例子是"學(xué)習(xí)"兩個(gè)字,其GBK編碼是" \xd1\xa7\xcf\xb0",如果使用上述isValidUtf8方法判斷,將返回true??梢钥紤]使用更嚴(yán)格的判斷方法,不過(guò)估計(jì)效果不大。

有一個(gè)例子可以證明google也遇到了上述問(wèn)題,而且也采用了和上述相似的處理方法,比如,如果在地址欄中輸入";newwindow=1q=學(xué)習(xí)",google將無(wú)法正確識(shí)別,而其他漢字一般能夠正常識(shí)別。

最后,應(yīng)該補(bǔ)充說(shuō)明一下,如果不使用rewrite規(guī)則,或者通過(guò)表單提交數(shù)據(jù),其實(shí)并不一定會(huì)遇到上述問(wèn)題,因?yàn)檫@時(shí)可以在提交數(shù)據(jù)時(shí)指定希望的編碼。另外,中文文件名確實(shí)會(huì)帶來(lái)問(wèn)題,應(yīng)該謹(jǐn)慎使用。

6. 其它

下面描述一些和編碼有關(guān)的其他問(wèn)題。

6.1. SecureCRT

除了瀏覽器和控制臺(tái)與編碼有關(guān)外,一些客戶(hù)端也很有關(guān)系。比如在使用SecureCRT連接linux時(shí),應(yīng)該讓SecureCRT的顯示編碼(不同的session,可以有不同的編碼設(shè)置)和linux的編碼環(huán)境變量保持一致。否則看到的一些幫助信息,就可能是亂碼。

另外,mysql有自己的編碼設(shè)置,也應(yīng)該保持和SecureCRT的顯示編碼一致。否則通過(guò)SecureCRT執(zhí)行sql語(yǔ)句的時(shí)候,可能無(wú)法處理中文字符,查詢(xún)結(jié)果也會(huì)出現(xiàn)亂碼。

對(duì)于Utf-8文件,很多編輯器(比如記事本)會(huì)在文件開(kāi)頭增加三個(gè)不可見(jiàn)的標(biāo)志字節(jié),如果作為mysql的輸入文件,則必須要去掉這三個(gè)字符。(用linux的vi保存可以去掉這三個(gè)字符)。一個(gè)有趣的現(xiàn)象是,在中文windows下,創(chuàng)建一個(gè)新txt文件,用記事本打開(kāi),輸入"連通"兩個(gè)字,保存,再打開(kāi),你會(huì)發(fā)現(xiàn)兩個(gè)字沒(méi)了,只留下一個(gè)小黑點(diǎn)。

6.2. 過(guò)濾器

如果需要統(tǒng)一設(shè)置編碼,則通過(guò)filter進(jìn)行設(shè)置是個(gè)不錯(cuò)的選擇。在filter class中,可以統(tǒng)一為需要的請(qǐng)求或者回應(yīng)設(shè)置編碼。參加上述setCharacterEncoding()。這個(gè)類(lèi)apache已經(jīng)給出了可以直接使用的例子SetCharacterEncodingFilter。

6.3. POST和GET

很明顯,以POST提交信息時(shí),URL有更好的可讀性,而且可以方便的使用setCharacterEncoding()來(lái)處理字符集問(wèn)題。但GET方法形成的URL能夠更容易表達(dá)網(wǎng)頁(yè)的實(shí)際內(nèi)容,也能夠用于收藏。

從統(tǒng)一的角度考慮問(wèn)題,建議采用GET方法,這要求在程序中獲得參數(shù)是進(jìn)行特殊處理,而無(wú)法使用setCharacterEncoding()的便利,如果不考慮rewrite,就不存在IE的UTF-8問(wèn)題,可以考慮通過(guò)設(shè)置URIEncoding來(lái)方便獲取URL中的參數(shù)。

6.4. 簡(jiǎn)繁體編碼轉(zhuǎn)換

GBK同時(shí)包含簡(jiǎn)體和繁體編碼,也就是說(shuō)同一個(gè)字,由于編碼不同,在GBK編碼下屬于兩個(gè)字。有時(shí)候,為了正確取得完整的結(jié)果,應(yīng)該將繁體和簡(jiǎn)體進(jìn)行統(tǒng)一??梢钥紤]將UTF、GBK中的所有繁體字,轉(zhuǎn)換為相應(yīng)的簡(jiǎn)體字,BIG5編碼的數(shù)據(jù),也應(yīng)該轉(zhuǎn)化成相應(yīng)的簡(jiǎn)體字。當(dāng)然,仍舊以UTF編碼存儲(chǔ)。

例如,對(duì)于"語(yǔ)言 ?言",用UTF表示為"\xE8\xAF\xAD\xE8\xA8\x80 \xE8\xAA\x9E\xE8\xA8\x80",進(jìn)行簡(jiǎn)繁體編碼轉(zhuǎn)換后應(yīng)該是兩個(gè)相同的 "\xE8\xAF\xAD\xE8\xA8\x80"。

java輸入輸出流字符集怎么設(shè)

1. InputStream 和OutputStream,兩個(gè)是為字節(jié)流設(shè)計(jì)的,主要用來(lái)處理字節(jié)或二進(jìn)制對(duì)象,

2. Reader和 Writer.兩個(gè)是為字符流(一個(gè)字符占兩個(gè)字節(jié))設(shè)計(jì)的,主要用來(lái)處理字符或字符串.

字符流處理的單元為2個(gè)字節(jié)的Unicode字符,分別操作字符、字符數(shù)組或字符串,而字節(jié)流處理單元為1個(gè)字節(jié),操作字節(jié)和字節(jié)數(shù)組。所以字符流是由Java虛擬機(jī)將字節(jié)轉(zhuǎn)化為2個(gè)字節(jié)的Unicode字符為單位的字符而成的,所以它對(duì)多國(guó)語(yǔ)言支持性比較好!如果是音頻文件、圖片、歌曲,就用字節(jié)流好點(diǎn),如果是關(guān)系到中文(文本)的,用字符流好點(diǎn)

所有文件的儲(chǔ)存是都是字節(jié)(byte)的儲(chǔ)存,在磁盤(pán)上保留的并不是文件的字符而是先把字符編碼成字節(jié),再儲(chǔ)存這些字節(jié)到磁盤(pán)。在讀取文件(特別是文本文件)時(shí),也是一個(gè)字節(jié)一個(gè)字節(jié)地讀取以形成字節(jié)序列

1,字節(jié)流可用于任何類(lèi)型的對(duì)象,包括二進(jìn)制對(duì)象,而字符流只能處理字符或者字符串;

2,字節(jié)流提供了處理任何類(lèi)型的IO操作的功能,但它不能直接處理Unicode字符,而字符流就可以

字節(jié)流是最基本的,所有的InputStrem和OutputStream的子類(lèi)都是,主要用在處理二進(jìn)制數(shù)據(jù),它是按字節(jié)來(lái)處理的 但實(shí)際中很多的數(shù)據(jù)是文本,又提出了字符流的概念,它是按虛擬機(jī)的encode來(lái)處理,也就是要進(jìn)行字符集的轉(zhuǎn)化 這兩個(gè)之間通過(guò) InputStreamReader,OutputStreamWriter來(lái)關(guān)聯(lián),實(shí)際上是通過(guò)byte[]和String來(lái)關(guān)聯(lián) 在實(shí)際開(kāi)發(fā)中出現(xiàn)的漢字問(wèn)題實(shí)際上都是在字符流和字節(jié)流之間轉(zhuǎn)化不統(tǒng)一而造成的.

如何在JAVA中定義自己的字符集

java中定義一個(gè)字符串?dāng)?shù)組方式如下:

1.String[] str={"AAA","BBB","CCC"};

2.String str[]={"AAA","BBB","CCC"};

string類(lèi)型和其他基本類(lèi)型相似,創(chuàng)建數(shù)組時(shí),有上述兩種方式。

eclipse怎么設(shè)置字符集編碼

1、 windows-Preferences...打開(kāi)"首選項(xiàng)"對(duì)話(huà)框,左側(cè)導(dǎo)航樹(shù),導(dǎo)航到general-Workspace,右側(cè) Text file encoding,選擇Other,改變?yōu)?utf-8(必須小寫(xiě)),以后新建立工程其屬性對(duì)話(huà)框中的Text file encoding即為UTF-8。

2、 windows-Preferences...打開(kāi)"首選項(xiàng)"對(duì)話(huà)框,左側(cè)導(dǎo)航樹(shù),導(dǎo)航到general-Content Types,右側(cè)Content Types樹(shù),點(diǎn)開(kāi)Text,選擇 Java Source File,在下面的Default encoding輸入框中輸入U(xiǎn)TF-8,點(diǎn)Update,則設(shè)置Java文件編碼為UTF-8。然后設(shè)置jsp、js、css等類(lèi)型的Default encoding,設(shè)置方式同Java Source File。

3.windows-Preferences...打開(kāi)"首選項(xiàng)"對(duì)話(huà)框,左側(cè)導(dǎo)航樹(shù),導(dǎo)航到MyEclipse-Files and Editors-JSP,把Encoding改為UTF-8

網(wǎng)頁(yè)標(biāo)題:java設(shè)置字符集代碼 java語(yǔ)言使用的字符碼集是什么
鏈接地址:http://www.muchs.cn/article46/docsghg.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供App開(kāi)發(fā)、商城網(wǎng)站、網(wǎng)站改版、移動(dòng)網(wǎng)站建設(shè)、外貿(mào)網(wǎng)站建設(shè)、外貿(mào)建站

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶(hù)投稿、用戶(hù)轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀(guān)點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話(huà):028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

成都定制網(wǎng)站網(wǎng)頁(yè)設(shè)計(jì)