Perl正則表達(dá)式中字符與字符集有哪些

這篇文章將為大家詳細(xì)講解有關(guān)Perl正則表達(dá)式中字符與字符集有哪些,小編覺得挺實(shí)用的,因此分享給大家做個(gè)參考,希望大家閱讀完這篇文章后可以有所收獲。

創(chuàng)新互聯(lián)建站專注于穆棱網(wǎng)站建設(shè)服務(wù)及定制,我們擁有豐富的企業(yè)做網(wǎng)站經(jīng)驗(yàn)。 熱誠為您提供穆棱營銷型網(wǎng)站建設(shè),穆棱網(wǎng)站制作、穆棱網(wǎng)頁設(shè)計(jì)、穆棱網(wǎng)站官網(wǎng)定制、小程序定制開發(fā)服務(wù),打造穆棱網(wǎng)絡(luò)公司原創(chuàng)品牌,更為您提供穆棱網(wǎng)站排名全網(wǎng)營銷落地服務(wù)。

⑴元字符

正則表達(dá)式語言由兩種基本字符類型組成:原義文本字符和元字符(  metacharacter  )。原義文本字符也即要匹配的實(shí)際文本字符或者空格,而元字符是一個(gè)或一組代替一個(gè)或多個(gè)字符的字符,可以用來進(jìn)行模糊匹配。常用的元字符及其表達(dá)式的含義如下表所示:

Perl正則表達(dá)式中字符與字符集有哪些

元字符的元(meta)實(shí)際上是通配的意思(但與linux的通配符不是一個(gè)體系)。在Perl中,反斜杠\就是一個(gè)特殊的元字符,要想匹配元字符本身(而不是他在正則表達(dá)式里面的含義),可以在相應(yīng)的元字符之前加反斜杠,例如'\.'、'\*'、'\\'就分別匹配文本中的'.'、'*'、'\'。此外元字符^匹配行首,在集合字符[]內(nèi)部表示補(bǔ)集,元字符$則匹配行尾。

⑵模式分組與捕獲

在  Perl  的正則表達(dá)式中,圓括號(hào)  ()  也是一個(gè)特殊的元字符,用來對(duì)字符串進(jìn)行分組,很多元字符只對(duì)單個(gè)字符進(jìn)行操作,進(jìn)行分組后可對(duì)多個(gè)字符進(jìn)行操作,如下所示:
fred+    #可匹配freddddd…(fred)+    #可匹配fredfredfred…
圓括號(hào)內(nèi)也即模式組內(nèi)的字符串也可以被反向引用來進(jìn)行操作,被引用的模式組也被稱為捕獲組(  capture group  ),引用方法為反斜杠加捕獲組順序編號(hào),如下所示:
(.)\1        #匹配一個(gè)任意字符并重復(fù)一次,也即匹配兩個(gè)連續(xù)的相同字符y(….) d\1      #匹配y開頭后面四個(gè)任意字符,d開頭也是相同這樣字符的兩個(gè)單詞,例如yabba dabbay(.)(.)\2\1      #匹配y開頭后面兩個(gè)任意字符,然后接下來是這兩個(gè)字符的倒序的單詞,這是匹配類似yabba的這種回文結(jié)構(gòu)y((.)(.)\3\2) d\1    #嵌套結(jié)構(gòu)的反向引用,這里匹配y開頭和d開頭具有四個(gè)字符回文結(jié)構(gòu)的單詞組,例如yabba dabba
對(duì)于復(fù)雜嵌套結(jié)構(gòu)的捕獲組編號(hào),  Perl  有個(gè)很簡單的規(guī)則,只需根據(jù)從左到右左圓括號(hào)的順序即可。如果反向引用捕獲組編號(hào)后面緊跟著數(shù)字,為了消歧義可能需要更多的圓括號(hào),而從  Perl 5.10  開始,反向引用可以使用  \g{n}  的格式,如下所示:  
(.)\g{1}11    #匹配類似于aa11這樣的字符

在這種格式寫法下,還可以使用相對(duì)位置進(jìn)行編號(hào):

(.)(.)\g{-1}11  #匹配類似于xaa11這樣的字符

相對(duì)反向引用使用負(fù)號(hào)來指左邊的捕獲組,-1則為在左邊最靠近引用位置的捕獲組,這種寫法避免了在另外加入括號(hào)之后所有編號(hào)都必須修改的窘?jīng)r,更有利于程序維護(hù)。

很多時(shí)候我們僅僅是想填加括號(hào)進(jìn)行分組,但是又不想修改所有反向引用的編號(hào),可以只啟用圓括號(hào)的模式分組功能而關(guān)閉捕獲功能,在左圓括號(hào)內(nèi)添加  ?:  修飾符,如下所示:
y(?:(.)(.)\2\1) d(?:(.)(.)\4\3)    #外層括號(hào)只起到模式分組作用,可以匹配類似yabba deffe結(jié)構(gòu)的詞組

⑶字符集

字符集(character class)是指一組可能出現(xiàn)的字符,通過寫在方括號(hào)[]內(nèi)的表達(dá)式進(jìn)行表示,字符集可以匹配包含在集合內(nèi)的單個(gè)字符。例如[abcxyz]可以匹配出現(xiàn)在字符串中的a、b、c、x、y、z中的任一個(gè),相連的字符中間可以使用連字符-表示范圍,例如上式可以寫為[a-cx-z],如果在集合內(nèi)包含連字符本身(而不是表示范圍的含義)則可以使用反斜杠轉(zhuǎn)義。對(duì)于ASCII字符可以使用反斜杠加八進(jìn)制數(shù)字編碼進(jìn)行表示,例如[\000-\177]會(huì)匹配全部127個(gè)ASCII字符。在集合中開頭添加脫字符^可以取補(bǔ)集,例如[^0-9]會(huì)匹配除數(shù)字以外的字符。對(duì)于Unicode字符集,除了可以像\x{2668}通過編碼進(jìn)行匹配外,還可以通過Unicode屬性,例如很多字符屬于空白符Space、數(shù)字Digit等,那么匹配的表達(dá)式則為\p{Space}和\p{Digit}。

字符集的出現(xiàn)是為了簡寫正則表達(dá)式,字符集也可以縮寫例如\d可以代表[0-9],\w可以代表[a-zA-Z0-9_]。但在Perl從ASCII時(shí)代邁向Unicode時(shí)代之后,字符集的縮寫更加寬泛,\d除了可以匹配普通數(shù)字,還可以匹配其他語言里的各種數(shù)字寫法。從Perl 5.14開始,可以在正則表達(dá)式界定符后面添加修飾符a(關(guān)于界定符和修飾符詳見下一小節(jié)),則正則表達(dá)式嚴(yán)格按照ASCII編碼進(jìn)行匹配,例如/\d/a則等同于/[0-9]/。字符集縮寫將小寫字母改為大寫字母即變?yōu)檠a(bǔ)集,例如ASCII編碼下\D可以代表[^0-9],此外很有意思的是[\d\D]將會(huì)匹配任何字符且包括換行符,這比'.'所包含的范圍更廣。

⑷元字符優(yōu)先級(jí)

和操作符或者函數(shù)一樣,正則表達(dá)式的元字符也存在優(yōu)先級(jí)問題。元字符優(yōu)先級(jí)規(guī)則如下所示:

①在此優(yōu)先級(jí)表的最頂端是括號(hào)(),在模式分組和反向引用的時(shí)候使用,括號(hào)內(nèi)部的任何部分比括號(hào)外的部分結(jié)合更緊密;

②第二級(jí)是數(shù)量詞即星號(hào)(*), 加號(hào)(+),問號(hào)(?)以及由花括號(hào)表示的數(shù)量詞,如{5,15}、{3, }、{5}等,它們通常和前一項(xiàng)元素緊密結(jié)合;

③第三級(jí)的是錨定和序列(sequence),錨定包括開頭^、結(jié)尾$、詞界符\b、非詞界符\B,序列(一個(gè)元素緊接著一個(gè)元素)實(shí)際上是一種操作,雖然它沒有使用元字符;

④  優(yōu)先級(jí)最低的是豎線  |  ,表示或,由于其優(yōu)先級(jí)最低,它通常將模式劃分成幾個(gè)部分。

關(guān)于“Perl正則表達(dá)式中字符與字符集有哪些”這篇文章就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,使各位可以學(xué)到更多知識(shí),如果覺得文章不錯(cuò),請(qǐng)把它分享出去讓更多的人看到。

當(dāng)前標(biāo)題:Perl正則表達(dá)式中字符與字符集有哪些
文章來源:http://muchs.cn/article2/ghgpic.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供外貿(mào)網(wǎng)站建設(shè)定制開發(fā)、虛擬主機(jī)、網(wǎng)站收錄、標(biāo)簽優(yōu)化搜索引擎優(yōu)化

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)

成都做網(wǎng)站