Python3網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)-26、正則表達(dá)式-創(chuàng)新互聯(lián)

本節(jié)我們看一下正則表達(dá)式的相關(guān)用法，正則表達(dá)式是處理字符串的強(qiáng)大的工具，它有自己特定的語法結(jié)構(gòu)，有了它，實(shí)現(xiàn)字符串的檢索、替換、匹配驗(yàn)證都不在話下。
當(dāng)然對于爬蟲來說，有了它，我們從 HTML 里面提取我們想要的信息就非常方便了。

成都創(chuàng)新互聯(lián)公司專注于成都網(wǎng)站制作、做網(wǎng)站、外貿(mào)營銷網(wǎng)站建設(shè)、網(wǎng)頁設(shè)計(jì)、網(wǎng)站制作、網(wǎng)站開發(fā)。公司秉持“客戶至上,用心服務(wù)”的宗旨,從客戶的利益和觀點(diǎn)出發(fā),讓客戶在網(wǎng)絡(luò)營銷中找到自己的駐足之地。尊重和關(guān)懷每一位客戶，用嚴(yán)謹(jǐn)?shù)膽B(tài)度對待客戶，用專業(yè)的服務(wù)創(chuàng)造價值，成為客戶值得信賴的朋友，為客戶解除后顧之憂。

1. 實(shí)例引入

說了這么多，可能我們對它到底是個什么還是比較模糊，下面我們就用幾個實(shí)例來感受一下正則表達(dá)式的用法。
我們打開開源中國提供的正則表達(dá)式測試工具：http://tool.oschina.net/regex/，打開之后我們可以輸入待匹配的文本，然后選擇常用的正則表達(dá)式，就可以從我們輸入的文本中得出相應(yīng)的匹配結(jié)果了。
例如我們在這里輸入待匹配的文本如下：

Hello, my phone number?is?010-86432100?and?email?iscqc@cuiqingcai.com,?and?my website?is?http://cuiqingcai.com.

這段字符串中包含了一個電話號碼和一個電子郵件，接下來我們就嘗試用正則表達(dá)式提取出來，如圖 3-10 所示：

Python3網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)-26、正則表達(dá)式

圖 3-10 運(yùn)行頁面
我們在網(wǎng)頁中選擇匹配 Email 地址，就可以看到在下方出現(xiàn)了文本中的 Email。如果我們選擇了匹配網(wǎng)址 URL，就可以看到在下方出現(xiàn)了文本中的 URL。是不是非常神奇？
其實(shí)，在這里就是用了正則表達(dá)式匹配，也就是用了一定的規(guī)則將特定的文本提取出來。比如電子郵件它開頭是一段字符串，然后是一個 @ 符號，然后就是某個域名，這是有特定的組成格式的。另外對于 URL，開頭是協(xié)議類型，然后是冒號加雙斜線，然后是域名加路徑。
對于 URL 來說，我們就可以用下面的正則表達(dá)式匹配：

[a-zA-z]+://[^\s]*
Python資源分享qun 784758214 ,內(nèi)有安裝包，PDF，學(xué)習(xí)視頻，這里是Python學(xué)習(xí)者的聚集地，零基礎(chǔ)，進(jìn)階，都?xì)g迎

如果我們用這個正則表達(dá)式去匹配一個字符串，如果這個字符串中包含類似 URL 的文本，那就會被提取出來。
這個正則表達(dá)式看上去是亂糟糟的一團(tuán)，其實(shí)不然，這里面都是有特定的語法規(guī)則的。比如 a-z 代表匹配任意的小寫字母，s 表示匹配任意的空白字符，* 就代表匹配前面的字符任意多個，這一長串的正則表達(dá)式就是這么多匹配規(guī)則的組合，最后實(shí)現(xiàn)特定的匹配功能。
寫好正則表達(dá)式后，我們就可以拿它去一個長字符串里匹配查找了，不論這個字符串里面有什么，只要符合我們寫的規(guī)則，統(tǒng)統(tǒng)可以找出來。那么對于網(wǎng)頁來說，如果我們想找出網(wǎng)頁源代碼里有多少 URL，就可以用匹配URL的正則表達(dá)式去匹配，就可以得到源碼中的 URL 了。
在上面我們說了幾個匹配規(guī)則，那么正則表達(dá)式的規(guī)則到底有多少？那么在這里把常用的匹配規(guī)則總結(jié)一下：

模式	描述
w	匹配字母數(shù)字及下劃線
W	匹配非字母數(shù)字及下劃線
s	匹配任意空白字符，等價于 [tnrf].
S	匹配任意非空字符
d	匹配任意數(shù)字，等價于 [0-9]
D	匹配任意非數(shù)字
A	匹配字符串開始
Z	匹配字符串結(jié)束，如果是存在換行，只匹配到換行前的結(jié)束字符串
z	匹配字符串結(jié)束
G	匹配最后匹配完成的位置
n	匹配一個換行符
t	匹配一個制表符
^	匹配字符串的開頭
$	匹配字符串的末尾
.	匹配任意字符，除了換行符，當(dāng) re.DOTALL 標(biāo)記被指定時，則可以匹配包括換行符的任意字符
[...]	用來表示一組字符，單獨(dú)列出：[amk] 匹配 'a'，'m' 或 'k'
<sup>1</sup>	不在 [] 中的字符：abc 匹配除了 a,b,c 之外的字符。
*	匹配 0 個或多個的表達(dá)式。
+	匹配 1 個或多個的表達(dá)式。
?	匹配 0 個或 1 個由前面的正則表達(dá)式定義的片段，非貪婪方式
{n}	精確匹配 n 個前面表達(dá)式。
{n, m}	匹配 n 到 m 次由前面的正則表達(dá)式定義的片段，貪婪方式
`ab`	匹配 a 或 b
( )	匹配括號內(nèi)的表達(dá)式，也表示一個組

可能看完了之后就有點(diǎn)暈暈的了把，不用擔(dān)心，下面我們會詳細(xì)講解下一些常見的規(guī)則的用法。怎么用它來從網(wǎng)頁中提取我們想要的信息。

2. 了解 re 庫

其實(shí)正則表達(dá)式不是 Python 獨(dú)有的，它在其他編程語言中也可以使用，但是 Python 的 re 庫提供了整個正則表達(dá)式的實(shí)現(xiàn)，利用 re 庫我們就可以在 Python 中使用正則表達(dá)式了，在 Python 中寫正則表達(dá)式幾乎都是用的這個庫，下面我們就來了解下它的一些常用方法。

3. match()

在這里首先介紹第一個常用的匹配方法，match() 方法，我們向這個方法傳入要匹配的字符串以及正則表達(dá)式，就可以來檢測這個正則表達(dá)式是否匹配該字符串了。

match() 方法會嘗試從字符串的起始位置匹配正則表達(dá)式，如果匹配，就返回匹配成功的結(jié)果，如果不匹配，那就返回 None。

我們用一個實(shí)例來感受一下：

import re

content = 'Hello 123 4567 World_This is a Regex Demo'
print(len(content))
result = re.match('^Hello\s\d\d\d\s\d{4}\s\w{10}', content)
print(result)
print(result.group())
print(result.span())

運(yùn)行結(jié)果：

41
<re.Match object; span=(0, 25), match='Hello 123 4567 World_This'>
Hello 123 4567 World_This
(0, 25)

在這里我們首先聲明了一個字符串，包含英文字母、空白字符、數(shù)字等等內(nèi)容，接下來我們寫了一個正則表達(dá)式：

^Hello\s\d\d\d\s\d{4}\s\w{10}

用它來匹配這個長字符串。開頭的 ^ 是匹配字符串的開頭，也就是以 Hello 開頭，然后 s 匹配空白字符，用來匹配目標(biāo)字符串的空格，d 匹配數(shù)字，3 個 d 匹配 123，然后再寫 1 個 s 匹配空格，后面還有 4567，我們其實(shí)可以依然用 4 個 d 來匹配，但是這么寫起來比較繁瑣，所以在后面可以跟 {4} 代表匹配前面的規(guī)則 4 次，也就是匹配 4 個數(shù)字，這樣也可以完成匹配，然后后面再緊接 1 個空白字符，然后 w{10} 匹配 10 個字母及下劃線，正則表達(dá)式到此為止就結(jié)束了，我們注意到其實(shí)并沒有把目標(biāo)字符串匹配完，不過這樣依然可以進(jìn)行匹配，只不過匹配結(jié)果短一點(diǎn)而已。

我們調(diào)用 match() 方法，第一個參數(shù)傳入了正則表達(dá)式，第二個參數(shù)傳入了要匹配的字符串。

打印輸出一下結(jié)果，可以看到結(jié)果是 SRE_Match 對象，證明成功匹配，它有兩個方法，group() 方法可以輸出匹配到的內(nèi)容，結(jié)果是 Hello 123 4567 World_This，這恰好是我們正則表達(dá)式規(guī)則所匹配的內(nèi)容，span() 方法可以輸出匹配的范圍，結(jié)果是 (0, 25)，這個就是匹配到的結(jié)果字符串在原字符串中的位置范圍。

通過上面的例子我們可以基本了解怎樣在 Python 中怎樣使用正則表達(dá)式來匹配一段文字。

匹配目標(biāo)

剛才我們用了 match() 方法可以得到匹配到的字符串內(nèi)容，但是如果我們想從字符串中提取一部分內(nèi)容怎么辦呢？就像最前面的實(shí)例一樣，從一段文本中提取出郵件或電話號等內(nèi)容。

在這里可以使用 () 括號來將我們想提取的子字符串括起來，() 實(shí)際上就是標(biāo)記了一個子表達(dá)式的開始和結(jié)束位置，被標(biāo)記的每個子表達(dá)式會依次對應(yīng)每一個分組，我們可以調(diào)用 group() 方法傳入分組的索引即可獲取提取的結(jié)果。

下面我們用一個實(shí)例感受一下：

import re

content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^Hello\s(\d+)\sWorld', content)
print(result)
print(result.group())
print(result.group(1))
print(result.span())

依然是前面的字符串，在這里我們想匹配這個字符串并且把其中的 1234567 提取出來，在這里我們將數(shù)字部分的正則表達(dá)式用 () 括起來，然后接下來調(diào)用了group(1) 獲取匹配結(jié)果。

運(yùn)行結(jié)果如下：

<re.Match object; span=(0, 19), match='Hello 1234567 World'>
Hello 1234567 World
1234567
(0, 19)

可以看到在結(jié)果中成功得到了 1234567，我們獲取用的是group(1)，與 group() 有所不同，group() 會輸出完整的匹配結(jié)果，而 group(1) 會輸出第一個被 () 包圍的匹配結(jié)果，假如正則表達(dá)式后面還有 () 包括的內(nèi)容，那么我們可以依次用 group(2)、group(3) 等來依次獲取。

通用匹配

剛才我們寫的正則表達(dá)式其實(shí)比較復(fù)雜，出現(xiàn)空白字符我們就寫 s 匹配空白字符，出現(xiàn)數(shù)字我們就寫 d 匹配數(shù)字，工作量非常大，其實(shí)完全沒必要這么做，還有一個萬能匹配可以用，也就是 . （點(diǎn)星），.（點(diǎn)）可以匹配任意字符（除換行符）,
（星）又代表匹配前面的字符無限次，所以它們組合在一起就可以匹配任意的字符了，有了它我們就不用挨個字符地匹配了。

所以接著上面的例子，我們可以改寫一下正則表達(dá)式。

import re

content = 'Hello 123 4567 World_This is a Regex Demo'
result = re.match('^Hello.*Demo$', content)
print(result)
print(result.group())
print(result.span())

在這里我們將中間的部分直接省略，全部用 .* 來代替，最后加一個結(jié)尾字符串就好了，運(yùn)行結(jié)果如下：

<re.Match object; span=(0, 41), match='Hello 123 4567 World_This is a Regex Demo'>
Hello 123 4567 World_This is a Regex Demo
(0, 41)

可以看到 group() 方法輸出了匹配的全部字符串，也就是說我們寫的正則表達(dá)式匹配到了目標(biāo)字符串的全部內(nèi)容，span() 方法輸出 (0, 41)，是整個字符串的長度。

因此，我們可以在使用 .* 來簡化正則表達(dá)式的書寫。

貪婪與非貪婪

在使用上面的通用匹配 .* 的時候可能我們有時候匹配到的并不是想要的結(jié)果，我們看下面的例子：

import re

content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^He.*(\d+).*Demo$', content)
print(result)
print(result.group(1))

在這里我們依然是想獲取中間的數(shù)字，所以中間我們依然寫的是 (d+)，數(shù)字兩側(cè)由于內(nèi)容比較雜亂，所以兩側(cè)我們想省略來寫，都寫 .，最后組成 ^He.(d+).*Demo$，看樣子并沒有什么問題，我們看下運(yùn)行結(jié)果：

<re.Match object; span=(0, 41), match='Hello 123 4567 World_This is a Regex Demo'>
7

奇怪的事情發(fā)生了，我們只得到了 7 這個數(shù)字，這是怎么回事？

這里就涉及一個貪婪匹配與非貪婪匹配的原因了，貪婪匹配下，.?會匹配盡可能多的字符，我們的正則表達(dá)式中 .?后面是 d+，也就是至少一個數(shù)字，并沒有指定具體多少個數(shù)字，所以 .* 就盡可能匹配多的字符，所以它把 123456 也匹配了，給 d+ 留下一個可滿足條件的數(shù)字 7，所以 d+ 得到的內(nèi)容就只有數(shù)字 7 了。

但這樣很明顯會給我們的匹配帶來很大的不便，有時候匹配結(jié)果會莫名其妙少了一部分內(nèi)容。其實(shí)這里我們只需要使用非貪婪匹配匹配就好了，非貪婪匹配的寫法是 .*?，多了一個 ?，那么它可以達(dá)到怎樣的效果？我們再用一個實(shí)例感受一下：

import re

content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^He.*?(\d+).*Demo$', content)
print(result)
print(result.group(1))

在這里我們只是將第一個 .?改成了 .?，轉(zhuǎn)變?yōu)榉秦澙菲ヅ?。結(jié)果如下：

<re.Match object; span=(0, 40), match='Hello 1234567 World_This is a Regex Demo'>
1234567

這下我們就可以成功獲取 1234567 了。原因可想而知，貪婪匹配是盡可能匹配多的字符，非貪婪匹配就是盡可能匹配少的字符，.? 之后是 d+ 用來匹配數(shù)字，當(dāng) .? 匹配到 Hello 后面的空白字符的時候，再往后的字符就是數(shù)字了，而 d+ 恰好可以匹配，那么這里 .? 就不再進(jìn)行匹配，交給 d+ 去匹配后面的數(shù)字。所以這樣，.? 匹配了盡可能少的字符，d+ 的結(jié)果就是 1234567 了。

所以說，在做匹配的時候，字符串中間我們可以盡量使用非貪婪匹配來匹配，也就是用 .? 來代替 .，以免出現(xiàn)匹配結(jié)果缺失的情況。

但這里注意，如果匹配的結(jié)果在字符串結(jié)尾，.*? 就有可能匹配不到任何內(nèi)容了，因?yàn)樗鼤ヅ浔M可能少的字符，例如：

import re

content = 'http://weibo.com/comment/kEraCN'
result1 = re.match('http.*?comment/(.*?)', content)
result2 = re.match('http.*?comment/(.*)', content)
print('result1', result1.group(1))
print('result2', result2.group(1))

運(yùn)行結(jié)果：

result1 
result2 kEraCN

觀察到 .? 沒有匹配到任何結(jié)果，而 .?則盡量匹配多的內(nèi)容，成功得到了匹配結(jié)果。

所以在這里好好體會一下貪婪匹配和非貪婪匹配的原理，對后面寫正則表達(dá)式非常有幫助。

修飾符

正則表達(dá)式可以包含一些可選標(biāo)志修飾符來控制匹配的模式。修飾符被指定為一個可選的標(biāo)志。

我們用一個實(shí)例先來感受一下：

import re

content = '''Hello 1234567 World_This
is a Regex Demo
'''
result = re.match('^He.*?(\d+).*?Demo$', content)
print(result.group(1))

和上面的例子相仿，我們在字符串中加了個換行符，正則表達(dá)式也是一樣的來匹配其中的數(shù)字，看一下運(yùn)行結(jié)果：

AttributeError:?'NoneType'?object has no attribute?'group'

運(yùn)行直接報錯，也就是說正則表達(dá)式?jīng)]有匹配到這個字符串，返回結(jié)果為 None，而我們又調(diào)用了 group() 方法所以導(dǎo)致AttributeError。

那我們加了一個換行符為什么就匹配不到了呢？是因?yàn)?. 匹配的是除換行符之外的任意字符，當(dāng)遇到換行符時，.*? 就不能匹配了，所以導(dǎo)致匹配失敗。

那么在這里我們只需要加一個修飾符 re.S，即可修正這個錯誤。

result?= re.match('^He.*?(\d+).*?Demo$', content, re.S)

在 match() 方法的第三個參數(shù)傳入 re.S，它的作用是使 . 匹配包括換行符在內(nèi)的所有字符。

運(yùn)行結(jié)果：

這個 re.S 在網(wǎng)頁匹配中會經(jīng)常用到，因?yàn)?HTML 節(jié)點(diǎn)經(jīng)常會有換行，加上它我們就可以匹配節(jié)點(diǎn)與節(jié)點(diǎn)之間的換行了。

另外還有一些修飾符，在必要的情況下也可以使用：

修飾符	描述
re.I	使匹配對大小寫不敏感
re.L	做本地化識別（locale-aware）匹配
re.M	多行匹配，影響 ^ 和 $
re.S	使 . 匹配包括換行在內(nèi)的所有字符
re.U	根據(jù)Unicode字符集解析字符。這個標(biāo)志影響 w, W, b, B.
re.X	該標(biāo)志通過給予你更靈活的格式以便你將正則表達(dá)式寫得更易于理解。

在網(wǎng)頁匹配中較為常用的為 re.S、re.I。

轉(zhuǎn)義匹配

我們知道正則表達(dá)式定義了許多匹配模式，如 . 匹配除換行符以外的任意字符，但是如果目標(biāo)字符串里面它就包含 . 我們改怎么匹配？

那么這里就需要用到轉(zhuǎn)義匹配了，我們用一個實(shí)例來感受一下：

import re

content = '(百度)www.baidu.com'
result = re.match('\(百度\)www\.baidu\.com', content)
print(result)

當(dāng)遇到用于正則匹配模式的特殊字符時，我們在前面加反斜線來轉(zhuǎn)義一下就可以匹配了。例如 . 我們就可以用 . 來匹配，運(yùn)行結(jié)果：

<_sre.SRE_Match?object; span=(0,?17),?match='(百度)www.baidu.com'>

可以看到成功匹配到了原字符串。

以上是寫正則表達(dá)式常用的幾個知識點(diǎn)，熟練掌握上面的知識點(diǎn)對后面我們寫正則表達(dá)式匹配非常有幫助。

4. search()

我們在前面提到過 match() 方法是從字符串的開頭開始匹配，一旦開頭不匹配，那么整個匹配就失敗了。

我們看下面的例子：

import re

content = 'Extra stings Hello 1234567 World_This is a Regex Demo Extra stings'
result = re.match('Hello.*?(\d+).*?Demo', content)
print(result)
Python資源分享qun 784758214 ,內(nèi)有安裝包，PDF，學(xué)習(xí)視頻，這里是Python學(xué)習(xí)者的聚集地，零基礎(chǔ)，進(jìn)階，都?xì)g迎

在這里我們有一個字符串，它是以 Extra 開頭的，但是正則表達(dá)式我們是以 Hello 開頭的，整個正則表達(dá)式是字符串的一部分，但是這樣匹配是失敗的，也就是說只要第一個字符不匹配整個匹配就不能成功，運(yùn)行結(jié)果如下：

None

所以 match() 方法在我們在使用的時候需要考慮到開頭的內(nèi)容，所以在做匹配的時候并不那么方便，它適合來檢測某個字符串是否符合某個正則表達(dá)式的規(guī)則。

所以在這里就有另外一個方法 search()，它在匹配時會掃描整個字符串，然后返回第一個成功匹配的結(jié)果，也就是說，正則表達(dá)式可以是字符串的一部分，在匹配時，search() 方法會依次掃描字符串，直到找到第一個符合規(guī)則的字符串，然后返回匹配內(nèi)容，如果搜索完了還沒有找到，那就返回 None。

我們把上面的代碼中的 match() 方法修改成 search()，再看下運(yùn)行結(jié)果：

<re.Match?object; span=(13,?53),?match='Hello?1234567?World_This?is a?Regex?Demo'>

這樣就得到了匹配結(jié)果。

所以說，為了匹配方便，我們可以盡量使用 search() 方法。

下面我們再用幾個實(shí)例來感受一下 search() 方法的用法。

首先這里有一段待匹配的 HTML 文本，我們接下來寫幾個正則表達(dá)式實(shí)例來實(shí)現(xiàn)相應(yīng)信息的提取。

html = '''<div id="songs-list">
    <h3 class="title">經(jīng)典老歌</h3>
    <p class="introduction">
        經(jīng)典老歌列表
    </p>
    <ul id="list" class="list-group">
        <li data-view="2">一路上有你</li>
        <li data-view="7">
            <a href="/2.mp3" singer="任賢齊">滄海一聲笑</a>
        </li>
        <li data-view="4" class="active">
            <a href="/3.mp3" singer="齊秦">往事隨風(fēng)</a>
        </li>
        <li data-view="6"><a href="/4.mp3" singer="beyond">光輝歲月</a></li>
        <li data-view="5"><a href="/5.mp3" singer="陳慧琳">記事本</a></li>
        <li data-view="5">
            <a href="/6.mp3" singer="鄧麗君"><i class="fa fa-user"></i>但愿人長久</a>
        </li>
    </ul>
</div>'''

觀察到 ul 節(jié)點(diǎn)里面有許多 li 節(jié)點(diǎn)，其中 li 節(jié)點(diǎn)有的包含 a 節(jié)點(diǎn)，有的不包含 a 節(jié)點(diǎn)，a 節(jié)點(diǎn)還有一些相應(yīng)的屬性，超鏈接和歌手名。

首先我們嘗試提取 class 為 active的 li 節(jié)點(diǎn)內(nèi)部的超鏈接包含的歌手名和歌名。

所以我們需要提取第三個 li 節(jié)點(diǎn)下的 a 節(jié)點(diǎn)的 singer 屬性和文本。

所以正則表達(dá)式可以以 li 開頭，然后接下來尋找一個標(biāo)志符 active，中間的部分可以用 .? 來匹配，然后接下來我們要提取 singer 這個屬性值，所以還需要寫入singer="(.?)" ，我們需要提取的部分用小括號括起來，以便于用 group() 方法提取出來，它的兩側(cè)邊界是雙引號，然后接下來還需要匹配 a 節(jié)點(diǎn)的文本，那么它的左邊界是 >，右邊界是 </a>，所以我們指定一下左右邊界，然后目標(biāo)內(nèi)容依然用 (.*?) 來匹配，所以最后的正則表達(dá)式就變成了：

<li.*?active.*?singer="(.*?)">(.*?)</a>

然后我們再調(diào)用 search() 方法，它便會搜索整個 HTML 文本，找到符合正則表達(dá)式的第一個內(nèi)容返回。另外由于代碼有換行，所以這里第三個參數(shù)需要傳入 re.S。

所以整個匹配代碼如下：

result = re.search('<li.*?active.*?singer="(.*?)">(.*?)</a>', html, re.S)
if result:
    print(result.group(1), result.group(2))

由于我們需要獲取的歌手和歌名都已經(jīng)用了小括號包圍，所以可以用 group() 方法獲取，序號依次對應(yīng) group() 的參數(shù)。

運(yùn)行結(jié)果：

齊秦 往事隨風(fēng)

可以看到這個正是我們想提取的 class 為 active 的 li 節(jié)點(diǎn)內(nèi)部的超鏈接包含的歌手名和歌名。

那么正則表達(dá)式不加 active 會怎樣呢？也就是匹配不帶 class 為 active 的節(jié)點(diǎn)內(nèi)容，我們將正則表達(dá)式中的 active 去掉，代碼改寫如下：

result = re.search('<li.*?singer="(.*?)">(.*?)</a>', html, re.S)
if result:
    print(result.group(1), result.group(2))

由于 search() 方法會返回第一個符合條件的匹配目標(biāo)，那在這里結(jié)果就變了。

運(yùn)行結(jié)果如下：

任賢齊 滄海一聲笑

因?yàn)槲覀儼?active 標(biāo)簽去掉之后，從字符串開頭開始搜索，符合條件的節(jié)點(diǎn)就變成了第二個 li 節(jié)點(diǎn)，后面的就不再進(jìn)行匹配，所以運(yùn)行結(jié)果自然就變成了第二個 li 節(jié)點(diǎn)中的內(nèi)容。

注意在上面兩次匹配中，search() 方法的第三個參數(shù)我們都加了 re.S，使得 .*? 可以匹配換行，所以含有換行的 li 節(jié)點(diǎn)被匹配到了，如果我們將其去掉，結(jié)果會是什么？

result = re.search('<li.*?singer="(.*?)">(.*?)</a>', html)
if result:
    print(result.group(1), result.group(2))

運(yùn)行結(jié)果：

beyond?光輝歲月

可以看到結(jié)果就變成了第四個 li 節(jié)點(diǎn)的內(nèi)容，這是因?yàn)榈诙€和第三個 li 節(jié)點(diǎn)都包含了換行符，去掉 re.S 之后，.*? 已經(jīng)不能匹配換行符，所以正則表達(dá)式不會匹配到第二個和第三個 li 節(jié)點(diǎn)，而第四個 li 節(jié)點(diǎn)中不包含換行符，所以成功匹配。

由于絕大部分的 HTML 文本都包含了換行符，所以通過上面的例子，我們盡量都需要加上 re.S 修飾符，以免出現(xiàn)匹配不到的問題。

5. findall()

在前面我們說了 search() 方法的用法，它可以返回匹配正則表達(dá)式的第一個內(nèi)容，但是如果我們想要獲取匹配正則表達(dá)式的所有內(nèi)容的話怎么辦？這時就需要借助于 findall() 方法了。

findall() 方法會搜索整個字符串然后返回匹配正則表達(dá)式的所有內(nèi)容。

還是上面的 HTML 文本，如果我們想獲取所有 a 節(jié)點(diǎn)的超鏈接、歌手和歌名，就可以將 search() 方法換成 findall() 方法。如果有返回結(jié)果的話就是列表類型，所以我們需要遍歷一下來獲依次獲取每組內(nèi)容。

results = re.findall('<li.*?href="(.*?)".*?singer="(.*?)">(.*?)</a>', html, re.S)
print(results)
print(type(results))
for result in results:
    print(result)
    print(result[0], result[1], result[2])

運(yùn)行結(jié)果：

[('/2.mp3', '任賢齊', '滄海一聲笑'), ('/3.mp3', '齊秦', '往事隨風(fēng)'), ('/4.mp3', 'beyond', '光輝歲月'), ('/5.mp3', '陳慧琳', '記事本'), ('/6.mp3', '鄧麗君', '但愿人長久')]
<class 'list'>
('/2.mp3', '任賢齊', '滄海一聲笑')
/2.mp3 任賢齊 滄海一聲笑
('/3.mp3', '齊秦', '往事隨風(fēng)')
/3.mp3 齊秦 往事隨風(fēng)
('/4.mp3', 'beyond', '光輝歲月')
/4.mp3 beyond 光輝歲月
('/5.mp3', '陳慧琳', '記事本')
/5.mp3 陳慧琳 記事本
('/6.mp3', '鄧麗君', '但愿人長久')
/6.mp3 鄧麗君 但愿人長久

可以看到，返回的列表的每個元素都是元組類型，我們用對應(yīng)的索引依次取出即可。

所以，如果只是獲取第一個內(nèi)容，可以用 search() 方法，當(dāng)需要提取多個內(nèi)容時，就可以用 findall() 方法。

6. sub()

正則表達(dá)式除了提取信息，我們有時候還需要借助于它來修改文本，比如我們想要把一串文本中的所有數(shù)字都去掉，如果我們只用字符串的 replace() 方法那就太繁瑣了，在這里我們就可以借助于 sub() 方法。

我們用一個實(shí)例來感受一下：

import re

content = '54aK54yr5oiR54ix5L2g'
content = re.sub('\d+', '', content)
print(content)

運(yùn)行結(jié)果：

aKyroiRixLg

在這里我們只需要在第一個參數(shù)傳入 d+ 來匹配所有的數(shù)字，然后第二個參數(shù)是替換成的字符串，要去掉的話就可以賦值為空，第三個參數(shù)就是原字符串。

得到的結(jié)果就是替換修改之后的內(nèi)容。

那么在上面的 HTML 文本中，如果我們想正則獲取所有 li 節(jié)點(diǎn)的歌名，如果直接用正則表達(dá)式來提取可能比較繁瑣，比如可以寫成這樣子：

results = re.findall('<li.*?>\s*?(<a.*?>)?(\w+)(</a>)?\s*?</li>', html, re.S)
for result in results:
    print(result[1])

運(yùn)行結(jié)果：

一路上有你
滄海一聲笑
往事隨風(fēng)
光輝歲月
記事本
但愿人長久

但如果我們借助于 sub() 方法就比較簡單了，我們可以先用sub() 方法將 a 節(jié)點(diǎn)去掉，只留下文本，然后再利用findall() 提取就好了。

html = re.sub('<a.*?>|</a>|<i.*?>|</i>', '', html)
results = re.findall('<li.*?>(.*?)</li>', html, re.S)
for result in results:
    print(result.strip())

運(yùn)行結(jié)果：

<div id="songs-list">
    <h3 class="title">經(jīng)典老歌</h3>
    <p class="introduction">
        經(jīng)典老歌列表
    </p>
    <ul id="list" class="list-group">
        <li data-view="2">一路上有你</li>
        <li data-view="7">
            滄海一聲笑
        </li>
        <li data-view="4" class="active">
            往事隨風(fēng)
        </li>
        <li data-view="6">光輝歲月</li>
        <li data-view="5">記事本</li>
        <li data-view="5">
            但愿人長久
        </li>
    </ul>
</div>
一路上有你
滄海一聲笑
往事隨風(fēng)
光輝歲月
記事本
但愿人長久

可以到 a 節(jié)點(diǎn)在經(jīng)過 sub() 方法處理后都沒有了，然后再 findall() 直接提取即可。所以在適當(dāng)?shù)臅r候我們可以借助于 sub() 方法做一些相應(yīng)處理可以事半功倍。

7. compile()

前面我們所講的方法都是用來處理字符串的方法，最后再介紹一個 compile() 方法，這個方法可以講正則字符串編譯成正則表達(dá)式對象，以便于在后面的匹配中復(fù)用。

import re

content1 = '2016-12-15 12:00'
content2 = '2016-12-17 12:55'
content3 = '2016-12-22 13:21'
pattern = re.compile('\d{2}:\d{2}')
result1 = re.sub(pattern, '', content1)
result2 = re.sub(pattern, '', content2)
result3 = re.sub(pattern, '', content3)
print(result1, result2, result3)
Python資源分享qun 784758214 ,內(nèi)有安裝包，PDF，學(xué)習(xí)視頻，這里是Python學(xué)習(xí)者的聚集地，零基礎(chǔ)，進(jìn)階，都?xì)g迎

例如這里有三個日期，我們想分別將三個日期中的時間去掉，所以在這里我們可以借助于 sub() 方法，sub() 方法的第一個參數(shù)是正則表達(dá)式，但是這里我們沒有必要重復(fù)寫三個同樣的正則表達(dá)式，所以可以借助于 compile() 方法將正則表達(dá)式編譯成一個正則表達(dá)式對象，以便復(fù)用。

運(yùn)行結(jié)果：

2016-12-15 2016-12-17 2016-12-22

另外 compile() 還可以傳入修飾符，例如 re.S 等修飾符，這樣在 search()、findall() 等方法中就不需要額外傳了。所以 compile() 方法可以說是給正則表達(dá)式做了一層封裝，以便于我們更好地復(fù)用。

8. 結(jié)語

到此為止，正則表達(dá)式的基本用法就介紹完畢了，后面我們會有實(shí)戰(zhàn)來講解正則表達(dá)式的使用。

另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)cdcxhl.cn，海內(nèi)外云服務(wù)器15元起步，三天無理由+7*72小時售后在線，公司持有idc許可證，提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案，具有“安全穩(wěn)定、簡單易用、服務(wù)可用性高、性價比高”等特點(diǎn)與優(yōu)勢，專為企業(yè)上云打造定制，能夠滿足用戶豐富、多元化的應(yīng)用場景需求。

文章名稱：Python3網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)-26、正則表達(dá)式-創(chuàng)新互聯(lián)
分享鏈接：http://muchs.cn/article48/djhchp.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供網(wǎng)頁設(shè)計(jì)公司、網(wǎng)站導(dǎo)航、網(wǎng)站制作、外貿(mào)網(wǎng)站建設(shè)、定制網(wǎng)站、全網(wǎng)營銷推廣

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請盡快告知，我們將會在第一時間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

Python3網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)-26、正則表達(dá)式-創(chuàng)新互聯(lián)

1. 實(shí)例引入

2. 了解 re 庫

3. match()

匹配目標(biāo)

通用匹配

貪婪與非貪婪

修飾符

轉(zhuǎn)義匹配

4. search()

5. findall()

6. sub()

7. compile()

8. 結(jié)語

Python3網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)-26、正則表達(dá)式-創(chuàng)新互聯(lián)