這篇文章主要介紹“python正則表達(dá)式re模塊怎么使用”,在日常操作中,相信很多人在python正則表達(dá)式re模塊怎么使用問題上存在疑惑,小編查閱了各式資料,整理出簡(jiǎn)單好用的操作方法,希望對(duì)大家解答”python正則表達(dá)式re模塊怎么使用”的疑惑有所幫助!接下來,請(qǐng)跟著小編一起來學(xué)習(xí)吧!
創(chuàng)新互聯(lián)公司專注為客戶提供全方位的互聯(lián)網(wǎng)綜合服務(wù),包含不限于成都網(wǎng)站設(shè)計(jì)、成都做網(wǎng)站、港口網(wǎng)絡(luò)推廣、成都小程序開發(fā)、港口網(wǎng)絡(luò)營(yíng)銷、港口企業(yè)策劃、港口品牌公關(guān)、搜索引擎seo、人物專訪、企業(yè)宣傳片、企業(yè)代運(yùn)營(yíng)等,從售前售中售后,我們都將竭誠(chéng)為您服務(wù),您的肯定,是我們最大的嘉獎(jiǎng);創(chuàng)新互聯(lián)公司為所有大學(xué)生創(chuàng)業(yè)者提供港口建站搭建服務(wù),24小時(shí)服務(wù)熱線:18982081108,官方網(wǎng)址:muchs.cn
在Python中需要通過正則表達(dá)式對(duì)字符串進(jìn)?匹配的時(shí)候,可以使??個(gè)python自帶的模塊,名字為re。
正則表達(dá)式的大致匹配過程是:
1.依次拿出表達(dá)式和文本中的字符比較,
2.如果每一個(gè)字符都能匹配,則匹配成功;一旦有匹配不成功的字符則匹配失敗。
3.如果表達(dá)式中有量詞或邊界,這個(gè)過程會(huì)稍微有一些不同。
r:Python 中字符串的前導(dǎo) r
代表原始字符串標(biāo)識(shí)符,該字符串中的特殊符號(hào)不會(huì)被轉(zhuǎn)義,適用于正則表達(dá)式中繁雜的特殊符號(hào)表示。 因此 r"\n"
表示包含 '\'
和 'n'
兩個(gè)字符的字符串,而 "\n"
則表示只包含一個(gè)換行符的字符串。
print("\\n") # 輸出 \n print(r"\n") #輸出 \n
re模塊的使用:import re
語法:re.match(pattern, string, flags=0)
pattern | 匹配的正則表達(dá)式 |
string | 要匹配的字符串 |
flags | 標(biāo)志位,用于控制正則表達(dá)式的匹配方式,如:是否區(qū)分大小寫,多行匹配等等。
|
嘗試從字符串的起始位置匹配一個(gè)模式,如果不是起始位置匹配成功的話,match()就返回none。匹配成功re.match方法返回一個(gè)匹配的對(duì)象。
如果上?步匹配到數(shù)據(jù)的話,可以使?group?法來提取數(shù)據(jù)。以使用group(num) 或 groups() 匹配對(duì)象函數(shù)來獲取匹配表達(dá)式。
group()用來提出分組截獲的字符串,()用來分組,group() 同group(0)就是匹配正則表達(dá)式整體結(jié)果,group(1) 列出第一個(gè)括號(hào)匹配部分,group(2) 列出第二個(gè)括號(hào)匹配部分,group(3) 列出第三個(gè)括號(hào)匹配部分。沒有匹配成功的,re.search()返回None。
舉例:
>>> import re >>> result = re.match("itcast","itcast.cn") >>> result.group() 'itcast'
從string頭開始匹配pattern完全可以匹配,pattern匹配結(jié)束,同時(shí)匹配終止,后面的.cn不再匹配,返回匹配成功的信息。
字符 | 功能 | 位置 |
. | 匹配任意1個(gè)字符(除了\n) | |
[ ] | 匹配[ ]中列舉的字符 | |
\d | 匹配數(shù)字,即0-9 | 可以寫在字符集[...]中 |
\D | 匹配?數(shù)字,即不是數(shù)字 | 可以寫在字符集[...]中 |
\s | 匹配空?,即空格,tab鍵 | 可以寫在字符集[...]中 |
\S | 匹配?空?字符 | 可以寫在字符集[...]中 |
\w | 匹配單詞字符,即a-z、A-Z、0-9、_ | 可以寫在字符集[...]中 |
\W | 匹配?單詞字符 | 可以寫在字符集[...]中 |
\w | \w 匹配單詞字符,即a-z、A-Z、0-9、_ | |
\W | 匹配?單詞字符 |
[...]字符集,對(duì)應(yīng)的位置可以是字符集中任意字符。字符集中的字符可以逐個(gè)列出,也可以給出范圍,比如[abc]和[a-c],第一個(gè)字符如果是^表示取反。所有特殊字符(比如"]""-""^")在字符集中都失去原來的含義,如要使用可把"]""-"放在第一個(gè)字符,"^"放在非第一個(gè)字符。
舉例:
import re ret = re.match(".","M") print(ret.group()) ret = re.match("t.o","too") print(ret.group()) ret = re.match("t.o","two") print(ret.group()) # 如果hello的?字符?寫,那么正則表達(dá)式需要?寫的h ret = re.match("h","hello Python") print(ret.group()) # 如果hello的?字符?寫,那么正則表達(dá)式需要?寫的H ret = re.match("H","Hello Python") print(ret.group()) # ??寫h都可以的情況 ret = re.match("[hH]","hello Python") print(ret.group()) ret = re.match("[hH]","Hello Python") print(ret.group()) ret = re.match("[hH]ello Python","Hello Python") print(ret.group()) # 匹配0到9的多種寫法 ret = re.match("[0123456789]Hello Python","7Hello Python") print(ret.group()) ret = re.match("[0-9]Hello Python","7Hello Python") print(ret.group()) # 匹配0到3和5-9 ret = re.match("[0-35-9]Hello Python","7Hello Python") print(ret.group()) ret = re.match("[0-35-9]Hello Python","4Hello Python") #print(ret.group()) ret = re.match("嫦娥\d號(hào)","嫦娥1號(hào)發(fā)射成功") print(ret.group()) ret = re.match("嫦娥\d號(hào)","嫦娥2號(hào)發(fā)射成功") print(ret.group())
結(jié)果:
M
too
two
h
H
h
H
Hello Python
7Hello Python
7Hello Python
7Hello Python
嫦娥1號(hào)
嫦娥2號(hào)
字符 | 功能 | 位置 | 表達(dá)式實(shí)例 | 完整匹配的字符串 |
* | 匹配前?個(gè)字符出現(xiàn)0次或者?限次,即可有可? | 用在字符或(...)之后 | abc* | abccc |
+ | 匹配前?個(gè)字符出現(xiàn)1次或者?限次,即?少有1次 | 用在字符或(...)之后 | abc+ | abccc |
? | 匹配前?個(gè)字符出現(xiàn)1次或者0次,即要么有1次,要么沒有 | 用在字符或(...)之后 | abc? | ab,abc |
{m} | 匹配前?個(gè)字符出現(xiàn)m次 | 用在字符或(...)之后 | ab{2}c | abbc |
{m,n} | 匹配前?個(gè)字符出現(xiàn)從m到n次,若省略m,則匹配0到n次,若省略n,則匹配m到無限次 | 用在字符或(...)之后 | ab{1,2}c | abc,abbc |
舉例:
import re #:匹配出,?個(gè)字符串第?個(gè)字?為?寫字符,后?都是?寫字?并且這些?寫字?可有可? ret = re.match("[A-Z][a-z]*","M") print(ret.group()) ret = re.match("[A-Z][a-z]*","MnnM") print(ret.group()) ret = re.match("[A-Z][a-z]*","Aabcdef") print(ret.group()) #匹配出,變量名是否有效 names = ["name1", "_name", "2_name", "__name__"] for name in names: ret = re.match("[a-zA-Z_]+[\w]*",name) if ret: print("變量名 %s 符合要求" % ret.group()) else: print("變量名 %s ?法" % name) #匹配出,0到99之間的數(shù)字 ret = re.match("[1-9]?[0-9]","7") print(ret.group()) ret = re.match("[1-9]?\d","33") print(ret.group()) # 這個(gè)結(jié)果并不是想要的,利?$才能解決 ret = re.match("[1-9]?\d","09") print(ret.group()) ret = re.match("[a-zA-Z0-9_]{6}","12a3g45678") print(ret.group()) #匹配出,8到20位的密碼,可以是??寫英?字?、數(shù)字、下劃線 ret = re.match("[a-zA-Z0-9_]{8,20}","1ad12f23s34455ff66") print(ret.group())
結(jié)果:
M
Mnn
Aabcdef
變量名 name1 符合要求
變量名 _name 符合要求
變量名 2_name ?法
變量名 __name__ 符合要求
7
33
0
12a3g4
1ad12f23s34455ff66
字符 | 功能 |
^ | 匹配字符串開頭 |
$ | 匹配字符串結(jié)尾 |
舉例:匹配163.com的郵箱地址
import re email_list = ["xiaoWang@163.com", "xiaoWang@163.comheihei", ".com.xiaowang@qq.com"] for email in email_list: ret = re.match("[\w]{4,20}@163\.com$", email) if ret: print("%s 是符合規(guī)定的郵件地址,匹配后的結(jié)果是:%s" % (email, ret.group())) else: print("%s 不符合要求" % email)
結(jié)果:
xiaoWang@163.com 是符合規(guī)定的郵件地址,匹配后的結(jié)果是:xiaoWang@163.com
xiaoWang@163.comheihei 不符合要求
.com.xiaowang@qq.com 不符合要求
字符 | 功能 |
| | 匹配左右任意?個(gè)表達(dá)式 |
(ab) | 將括號(hào)中字符作為?個(gè)分組 |
\num | 引?分組num匹配到的字符串 |
(?P<name>) | 分組起別名,匹配到的子串組在外部是通過定義的 name 來獲取的 |
(?P=name) | 引?別名為name分組匹配到的字符串 |
舉例:|
#匹配出0-100之間的數(shù)字 import re ret = re.match("[1-9]?\d$|100","8") print(ret.group()) # 8 ret = re.match("[1-9]?\d$|100","78") print(ret.group()) # 78 ret = re.match("[1-9]?\d$|100","08") # print(ret.group()) # 不是0-100之間 ret = re.match("[1-9]?\d$|100","100") print(ret.group()) # 100
舉例:()
#需求:匹配出163、126、qq郵箱 ret = re.match("\w{4,20}@163\.com", "test@163.com") print(ret.group()) # test@163.com ret = re.match("\w{4,20}@(163|126|qq)\.com", "test@126.com") print(ret.group()) # test@126.com ret = re.match("\w{4,20}@(163|126|qq)\.com", "test@qq.com") print(ret.group()) # test@qq.com ret = re.match("\w{4,20}@(163|126|qq)\.com", "test@gmail.com") if ret: print(ret.group()) else: print("不是163、126、qq郵箱") # 不是163、126、qq郵箱 #不是以4、7結(jié)尾的?機(jī)號(hào)碼(11位) tels = ["13100001234", "18912344321", "10086", "18800007777"] for tel in tels: ret = re.match("1\d{9}[0-35-68-9]", tel) if ret: print(ret.group()) else: print("%s 不是想要的?機(jī)號(hào)" % tel) #提取區(qū)號(hào)和電話號(hào)碼 ret = re.match("([^-]*)-(\d+)","010-12345678") print(ret.group()) print(ret.group(1)) print(ret.group(2))
舉例:\number
匹配數(shù)字代表的組合。每個(gè)括號(hào)是一個(gè)組合,組合從1開始編號(hào)。比如 (.+) \1
匹配 'the the'
或者 '55 55'
, 但不會(huì)匹配 'thethe'
(注意組合后面的空格)。這個(gè)特殊序列只能用于匹配前面99個(gè)組合。如果 number 的第一個(gè)數(shù)位是0, 或者 number 是三個(gè)八進(jìn)制數(shù),它將不會(huì)被看作是一個(gè)組合,而是八進(jìn)制的數(shù)字值。在 '['
和 ']'
字符集合內(nèi),任何數(shù)字轉(zhuǎn)義都被看作是字符。
例子1:匹配出 <html>hh</html>
\1,...,\9,匹配第n個(gè)分組的內(nèi)容。如例子所示,指匹配第一個(gè)分組的內(nèi)容。
import re # 正確的理解思路:如果在第?對(duì)<>中是什么,按理說在后?的那對(duì)<>中就應(yīng)該是什么。通過引?分組中匹配到的數(shù)據(jù)即可,但是要注意是元字符串,即類似 r""這種格式。 ret = re.match(r"<([a-zA-Z]*)>\w*</\1>", "<html>hh</html>") # 因?yàn)?對(duì)<>中的數(shù)據(jù)不?致,所以沒有匹配出來 test_label = ["<html>hh</html>","<html>hh</htmlbalabala>"] for label in test_label: ret = re.match(r"<([a-zA-Z]*)>\w*</\1>", label) if ret: print("%s 這是一對(duì)正確的標(biāo)簽" % ret.group()) else: print("%s 這是?對(duì)不正確的標(biāo)簽" % label)
結(jié)果:
<html>hh</html> 這是一對(duì)正確的標(biāo)簽
<html>hh</htmlbalabala> 這是?對(duì)不正確的標(biāo)簽
例子2:匹配出 <html><h2>www.itcast.cn</h2></html>
import re labels = ["<html><h2>www.itcast.cn</h2></html>", "<html><h2>www.itcast.cn</h3></html>"] for label in labels: ret = re.match(r"<(\w*)><(\w*)>.*</\2></\1>", label) if ret: print("%s 是符合要求的標(biāo)簽" % ret.group()) else: print("%s 不符合要求" % label)
結(jié)果:
<html><h2>www.itcast.cn</h2></html> 是符合要求的標(biāo)簽
<html><h2>www.itcast.cn</h3></html> 不符合要求
舉例:(?P<name>) (?P=name)
一個(gè)用于標(biāo)記,一個(gè)用于在同一個(gè)正則表達(dá)式中復(fù)用
import re ret = re.match(r"<(?P<name1>\w*)><(?P<name2>\w*)>.*</(?P=name2)></(?P=name1)>","<html><h2>www.itcast.cn</h2></html>") ret.group() ret = re.match(r"<(?P<name1>\w*)><(?P<name2>\w*)>.*</(?P=name2)></(?P=name1)>","<html><h2>www.itcast.cn</h3></html>") #ret.group()
compile 函數(shù)用于編譯正則表達(dá)式,生成一個(gè)正則表達(dá)式( Pattern )對(duì)象,供 match() 和 search() 這兩個(gè)函數(shù)使用。
prog = re.compile(pattern) result = prog.match(string)
等價(jià)于
result = re.match(pattern, string)
舉例:
>>>import re >>> pattern = re.compile(r'\d+') m = pattern.match('one12twothree34four', 3, 10) # 從'1'的位置開始匹配,正好匹配 >>> print m # 返回一個(gè) Match 對(duì)象 <_sre.SRE_Match object at 0x10a42aac0> >>> m.group(0) # 可省略 0 '12' >>> m.start(0) # 可省略 0 3 >>> m.end(0) # 可省略 0 5 >>> m.span(0) # 可省略 0 (3, 5)
在上面,當(dāng)匹配成功時(shí)返回一個(gè) Match 對(duì)象,其中:
group([group1, …])
方法用于獲得一個(gè)或多個(gè)分組匹配的字符串,當(dāng)要獲得整個(gè)匹配的子串時(shí),可直接使用 group()
或 group(0)
;
start([group])
方法用于獲取分組匹配的子串在整個(gè)字符串中的起始位置(子串第一個(gè)字符的索引),參數(shù)默認(rèn)值為 0;
end([group])
方法用于獲取分組匹配的子串在整個(gè)字符串中的結(jié)束位置(子串最后一個(gè)字符的索引+1),參數(shù)默認(rèn)值為 0;
span([group])
方法返回 (start(group), end(group))
re.search 掃描整個(gè)字符串并返回第一個(gè)成功的匹配,如果沒有匹配,就返回一個(gè) None
。
re.match與re.search的區(qū)別:re.match只匹配字符串的開始,如果字符串開始不符合正則表達(dá)式,則匹配失敗,函數(shù)返回None;而re.search匹配整個(gè)字符串,直到找到一個(gè)匹配
舉例:
import re ret = re.search(r"\d+", "閱讀次數(shù)為9999") print(ret.group())
結(jié)果:
9999
在字符串中找到正則表達(dá)式所匹配的所有子串,并返回一個(gè)列表,如果沒有找到匹配的,則返回空列表。注意:match 和 search 是匹配一次 findall 匹配所有。
舉例:
import re ret = re.findall(r"\d+", "python = 9999, c = 7890, c++ = 12345") print(ret)
結(jié)果:
['9999', '7890', '12345']
和 findall 類似,在字符串中找到正則表達(dá)式所匹配的所有子串,并把它們作為一個(gè)迭代器返回。
import re it = re.finditer(r"\d+", "12a32bc43jf3") for match in it: print(match.group())
結(jié)果:
12
32
43
3
sub是substitute的所寫,表示替換,將匹配到的數(shù)據(jù)進(jìn)?替換。
語法:re.sub(pattern, repl, string, count=0, flags=0)
參數(shù) | 描述 |
pattern | 必選,表示正則中的模式字符串 |
repl | 必選,就是replacement,要替換的字符串,也可為一個(gè)函數(shù) |
string | 必選,被替換的那個(gè)string字符串 |
count | 可選參數(shù),count 是要替換的最大次數(shù),必須是非負(fù)整數(shù)。如果省略這個(gè)參數(shù)或設(shè)為 0,所有的匹配都會(huì)被替換 |
flag | 可選參數(shù),標(biāo)志位,用于控制正則表達(dá)式的匹配方式,如:是否區(qū)分大小寫,多行匹配等等。 |
舉例:將匹配到的閱讀次數(shù)加1
方法一:
import re ret = re.sub(r"\d+", '998', "python = 997") print(ret)
結(jié)果:python = 998
方法二:
import re def add(temp): #int()參數(shù)必須是字符串,類似字節(jié)的對(duì)象或數(shù)字,而不是“re.Match” strNum = temp.group() num = int(strNum) + 1 return str(num) ret = re.sub(r"\d+", add, "python = 997") print(ret) ret = re.sub(r"\d+", add, "python = 99") print(ret)
結(jié)果;
python = 998
python = 100
行為與sub()
相同,但是返回一個(gè)元組 (字符串, 替換次數(shù))
。
re.subn(pattern, repl, string[, count])
返回:(sub(repl, string[, count]), 替換次數(shù))
import re pattern = re.compile(r'(\w+) (\w+)') s = 'i say, hello world!' print(re.subn(pattern, r'\2 \1', s)) def func(m): return m.group(1).title() + ' ' + m.group(2).title() print(re.subn(pattern, func, s)) ### output ### # ('say i, world hello!', 2) # ('I Say, Hello World!', 2)
根據(jù)匹配進(jìn)?切割字符串,并返回?個(gè)列表。
re.
split
(pattern, string, maxsplit=0, flags=0)
參數(shù) | 描述 |
pattern | 匹配的正則表達(dá)式 |
string | 要匹配的字符串 |
maxsplit | 分隔次數(shù),maxsplit=1 分隔一次,默認(rèn)為 0,不限制次數(shù) |
舉例:
import re ret = re.split(r":| ","info:xiaoZhang 33 shandong") print(ret)
結(jié)果:['info', 'xiaoZhang', '33', 'shandong']
Python?數(shù)量詞默認(rèn)是貪婪的(在少數(shù)語??也可能是默認(rèn)?貪婪),總是嘗試匹配盡可能多的字符;?貪婪則相反,總是嘗試匹配盡可能少的字符。
例如:正則表達(dá)式”ab*”如果用于查找”abbbc”,將找到”abbb”。而如果使用非貪婪的數(shù)量詞”ab*?”,將找到”a”。
注:我們一般使用非貪婪模式來提取。
在"*","?","+","{m,n}"后?加上?,使貪婪變成?貪婪。
舉例1:
import re s="This is a number 234-235-22-423" #正則表達(dá)式模式中使?到通配字,那它在從左到右的順序求值時(shí),會(huì)盡量“抓取”滿?匹配最?字符串,在我們上?的例???,“.+”會(huì)從字符串的啟始處抓取滿?模式的最?字符,其中包括我們想得到的第?個(gè)整型字段的中的?部分,“\d+”只需?位字符就可以匹配,所以它匹配了數(shù)字“4”,?“.+”則匹配了從字符串起始到這個(gè)第?位數(shù)字4之前的所有字符 r=re.match(".+(\d+-\d+-\d+-\d+)",s) print(r.group(1)) #?貪婪操作符“?”,這個(gè)操作符可以?在"*","+","?"的后?,要求正則匹配的越少越好 r=re.match(".+?(\d+-\d+-\d+-\d+)",s) print(r.group(1))
結(jié)果:
4-235-22-423
234-235-22-423
舉例2:
>>> re.match(r"aa(\d+)","aa2343ddd").group(1) '2343' >>> re.match(r"aa(\d+?)","aa2343ddd").group(1) '2' >>> re.match(r"aa(\d+)ddd","aa2343ddd").group(1) '2343' >>> re.match(r"aa(\d+?)ddd","aa2343ddd").group(1) '2343'
舉例3:提取圖片地址
import re test_str="<img src=https://rpic.douyucdn.cn/appCovers/2016/11/13/1213973.jpg>" ret = re.search(r"https://.*?.jpg", test_str) print(ret.group())
與大多數(shù)編程語言相同,正則表達(dá)式里使用”\”作為轉(zhuǎn)義字符,這就可能造成反斜杠困擾。假如你需要匹配文本中的字符”\”,那么使用編程語言表示的正則表達(dá)式里將需要4個(gè)反斜杠”\\\\”:前兩個(gè)和后兩個(gè)分別用于在編程語言里轉(zhuǎn)義成反斜杠,轉(zhuǎn)換成兩個(gè)反斜杠后再在正則表達(dá)式里轉(zhuǎn)義成一個(gè)反斜杠。Python里的原生字符串很好地解決了這個(gè)問題,Python中字符串前?加上 r 表示原?字符串。
import re mm = "c:\\a\\b\\c" print(mm)#c:\a\b\c ret = re.match("c:\\\\",mm).group() print(ret)#c:\ ret = re.match("c:\\\\a",mm).group() print(ret)#c:\a ret = re.match(r"c:\\a",mm).group() print(ret)#c:\a ret = re.match(r"c:\a",mm).group() print(ret)#AttributeError: 'NoneType' object has no attribute 'group'
到此,關(guān)于“python正則表達(dá)式re模塊怎么使用”的學(xué)習(xí)就結(jié)束了,希望能夠解決大家的疑惑。理論與實(shí)踐的搭配能更好的幫助大家學(xué)習(xí),快去試試吧!若想繼續(xù)學(xué)習(xí)更多相關(guān)知識(shí),請(qǐng)繼續(xù)關(guān)注創(chuàng)新互聯(lián)網(wǎng)站,小編會(huì)繼續(xù)努力為大家?guī)砀鄬?shí)用的文章!
當(dāng)前名稱:python正則表達(dá)式re模塊怎么使用
本文網(wǎng)址:http://muchs.cn/article10/gededo.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供自適應(yīng)網(wǎng)站、外貿(mào)網(wǎng)站建設(shè)、全網(wǎng)營(yíng)銷推廣、域名注冊(cè)、App開發(fā)、小程序開發(fā)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)
移動(dòng)網(wǎng)站建設(shè)知識(shí)