Python如何爬取指定百度搜索的內(nèi)容并提取網(wǎng)頁(yè)的標(biāo)題內(nèi)容

Python如何爬取指定百度搜索的內(nèi)容并提取網(wǎng)頁(yè)的標(biāo)題內(nèi)容，針對(duì)這個(gè)問(wèn)題，這篇文章詳細(xì)介紹了相對(duì)應(yīng)的分析和解答，希望可以幫助更多想解決這個(gè)問(wèn)題的小伙伴找到更簡(jiǎn)單易行的方法。

十多年的齊齊哈爾網(wǎng)站建設(shè)經(jīng)驗(yàn)，針對(duì)設(shè)計(jì)、前端、開發(fā)、售后、文案、推廣等六對(duì)一服務(wù)，響應(yīng)快，48小時(shí)及時(shí)工作處理。成都營(yíng)銷網(wǎng)站建設(shè)的優(yōu)勢(shì)是能夠根據(jù)用戶設(shè)備顯示端的尺寸不同，自動(dòng)調(diào)整齊齊哈爾建站的顯示方式，使網(wǎng)站能夠適用不同顯示終端，在瀏覽器中調(diào)整網(wǎng)站的寬度，無(wú)論在任何一種瀏覽器上瀏覽網(wǎng)站，都能展現(xiàn)優(yōu)雅布局與設(shè)計(jì)，從而大程度地提升瀏覽體驗(yàn)。創(chuàng)新互聯(lián)從事“齊齊哈爾網(wǎng)站設(shè)計(jì)”,“齊齊哈爾網(wǎng)站推廣”以來(lái)，每個(gè)客戶項(xiàng)目都認(rèn)真落實(shí)執(zhí)行。

hello，大家好。今天為大家?guī)?lái)的是之前分享過(guò)的requests庫(kù)與lxml庫(kù)的結(jié)合使用案例一：指定百度搜索的內(nèi)容并提取網(wǎng)頁(yè)的標(biāo)題內(nèi)容。好的，廢話不多說(shuō)，直接上主菜。

第一步：完成初步分析

下面我們來(lái)完成我們的第一步，分析我們的目標(biāo)。大家可千萬(wàn)不要小看這一步哦，因?yàn)槲覀冎挥兴悸非逦拍茉谳^短的時(shí)間里面寫出漂亮的代碼。

1.確定url：

首先，我們想要請(qǐng)求網(wǎng)頁(yè)，必須知道我們的url（即網(wǎng)址）是什么。下面，我打開Chrome（谷歌）瀏覽器，并且打開百度頁(yè)面，指定搜索“python”，得到下圖結(jié)果：

Python如何爬取指定百度搜索的內(nèi)容并提取網(wǎng)頁(yè)的標(biāo)題內(nèi)容

第二步：完成獲取頁(yè)面程序主體框架

寫python程序，有時(shí)候很矛盾，是用面向?qū)ο竽?？還是面向過(guò)程呢？其實(shí)都隨意（我比較隨意，因?yàn)闆]有人要求我必須使用什么寫），這里我采取面向?qū)ο蟮姆绞絹?lái)寫這個(gè)程序。

1.首先，我們需要寫出大體的框架：

#文件一
import requests

class MySpider(object):
    def __init__(self):
        self.url = 'http://www.baidu.com/s?wd={name}' #這里采用format的格式化輸入
        self.headers = {
            'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Safari/537.36'
        }

    def main(self):
        #處理url
        self.target = input('請(qǐng)輸入你感興趣的內(nèi)容：')
        self.url = self.url.format(name=self.target)  #重新構(gòu)建url，大家測(cè)試的時(shí)候可以嘗試打印
        #請(qǐng)求
        text = self.get() 
        #寫入文件
        self.write(text)

    def get(self):
        '''請(qǐng)求并返回網(wǎng)頁(yè)源代碼'''
        pass
    
    def write(self,text):
        '''將返回的源代碼寫入文件，等待之后解析用'''
        pass

if __name__ == '__main__':
    spider = MySpider()
    spider.main()

2.為什么需要寫入文件，而不直接解析：

這里有幾個(gè)原因。

1>我們寫代碼，一般來(lái)說(shuō)都不可能一次寫成功，總是需要修改和測(cè)試的。平時(shí)我們寫代碼，自然可以隨意的測(cè)試運(yùn)行，都可以檢測(cè)代碼是否正確，但是爬蟲卻不能這樣。因?yàn)槿绻阍谳^短時(shí)間內(nèi)訪問(wèn)了網(wǎng)站次數(shù)過(guò)多，可能會(huì)導(dǎo)致網(wǎng)站對(duì)你做出一些限制性舉動(dòng)，比如：增加驗(yàn)證碼判斷你是否為人類，嚴(yán)重點(diǎn)的短時(shí)間內(nèi)封禁你的ip。因此，我們將網(wǎng)頁(yè)源代碼寫入文件，這樣在之后寫解析代碼的時(shí)候就不需要重新去訪問(wèn)網(wǎng)站了。

2>我們以html的形式寫入文件，可以用瀏覽器打開這個(gè)文件，可以比較清晰的看出這個(gè)文件是否為我們需要爬取的文件。如下圖是我爬取后存入的文件以谷歌瀏覽器打開的結(jié)果：

Python如何爬取指定百度搜索的內(nèi)容并提取網(wǎng)頁(yè)的標(biāo)題內(nèi)容

完成獲取頁(yè)面程序：

下面我們來(lái)完成獲取頁(yè)面的程序代碼：

1.完成請(qǐng)求函數(shù)get:

def get(self):
        '''請(qǐng)求并返回網(wǎng)頁(yè)源代碼'''
        response = requests.get(self.url,self.headers)
        if response.status_code == 200:
            return response.text

這個(gè)沒什么好說(shuō)的，是最基礎(chǔ)的代碼。

2.完成寫入文件函數(shù)write:

def write(self,text):
 with open('%s.html'%self.target,'w',encoding='utf-8') as f:     #這里的self.target為輸入搜索的內(nèi)容
  f.write(text)

這個(gè)也只是文件的基本操作，沒什么好講解的地方，只是注意我們這里存入的為html文件，而不是txt文件。

3.檢測(cè)是否正常運(yùn)行以及是否為我們想要的結(jié)果：

這里檢測(cè)的方式我前面已經(jīng)提及，就是瀏覽器打開相應(yīng)的頁(yè)面即可。如下圖操作：

Python如何爬取指定百度搜索的內(nèi)容并提取網(wǎng)頁(yè)的標(biāo)題內(nèi)容

說(shuō)明程序正常運(yùn)行。

完成解析頁(yè)面的大體框架和局部?jī)?nèi)容：

1.完成解析頁(yè)面程序的框架：

from lxml import etree

class Parse(object):
    def __init__(self):
        #讀取內(nèi)容并且初始化
        with open('python.html','r',encoding='utf-8') as f:
            self.html = etree.HTML(f.read())

    #解析頁(yè)面
    def parse(self):
        pass

if __name__ == '__main__':
    parser = Parse()
    parser.parse()

2.完成解析函數(shù)parse：

下面我們來(lái)完成最后一步，解析函數(shù)的敲寫。

首先我們需要分析下，我們想要獲取的內(nèi)容在什么標(biāo)簽里面。分析過(guò)程如圖（個(gè)人認(rèn)為這部分比較重要，因?yàn)槲页鯇W(xué)的時(shí)候主要困惑于兩點(diǎn)：如何處理失敗的請(qǐng)求，解析的思路是什么）

Python如何爬取指定百度搜索的內(nèi)容并提取網(wǎng)頁(yè)的標(biāo)題內(nèi)容

好的，分析清楚了我們需要的內(nèi)容在哪里之后，可以使用lxml來(lái)寫代碼了，如下：

def parse(self):
    #獲取url
    h4_tags = self.html.xpath('//h4[contains(@class,"t")]//text()')
    h4_tags = [i.strip() for i in h4_tags]
    print(h4_tags)

下面要做的工作就是處理這些字符串，但是這個(gè)并不是我們的重點(diǎn)，并且這些數(shù)據(jù)并不重要，所以就不處理了。

總結(jié)與全文代碼：

1.首先附上全文代碼：

# -*- coding:utf-8 -*-

#獲取網(wǎng)頁(yè)內(nèi)容文件
import requests

class MySpider(object):
    def __init__(self):
        self.url = 'http://www.baidu.com/s?wd={name}'
        #寫清楚獲取headers途徑
        self.headers = {
            'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Safari/537.36'
        }

    def main(self):
        #處理url
        self.target = input('請(qǐng)輸入你感興趣的內(nèi)容：')
        self.url = self.url.format(name=self.target)
        #請(qǐng)求
        text = self.get()
        #寫入文件
        # self.write(text)

    def get(self):
        '''請(qǐng)求并返回網(wǎng)頁(yè)源代碼'''
        response = requests.get(self.url,self.headers)
        if response.status_code == 200:
            return response.text

    def write(self,text):
        with open('%s.html'%self.target,'w',encoding='utf-8') as f:
            f.write(text)

if __name__ == '__main__':
    spider = MySpider()
    spider.main()

# -*- coding:utf-8 -*-

#解析頁(yè)面文件

from lxml import etree

class Parse(object):
    def __init__(self):
        with open('python.html','r',encoding='utf-8') as f:
            self.html = etree.HTML(f.read())

    def parse(self):
        #獲取標(biāo)題
        h4_tags = self.html.xpath('//h4[contains(@class,"t")]//text()')
        h4_tags = [i.strip() for i in h4_tags]
        print(h4_tags)

if __name__ == '__main__':
    parser = Parse()
    parser.parse()

2.總結(jié)：

好的，今天的分享就到此為止了。這是最基礎(chǔ)的案例，主要目的是讓大家先熟悉下，如何使用requests和lxml寫一個(gè)爬蟲程序，其次就是讓大家熟悉下分析網(wǎng)站的思路。

關(guān)于Python如何爬取指定百度搜索的內(nèi)容并提取網(wǎng)頁(yè)的標(biāo)題內(nèi)容問(wèn)題的解答就分享到這里了，希望以上內(nèi)容可以對(duì)大家有一定的幫助，如果你還有很多疑惑沒有解開，可以關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道了解更多相關(guān)知識(shí)。

當(dāng)前題目：Python如何爬取指定百度搜索的內(nèi)容并提取網(wǎng)頁(yè)的標(biāo)題內(nèi)容
URL標(biāo)題：http://muchs.cn/article14/joooge.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供Google、小程序開發(fā)、動(dòng)態(tài)網(wǎng)站、面包屑導(dǎo)航、、電子商務(wù)

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請(qǐng)盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如需處理請(qǐng)聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來(lái)源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

Python如何爬取指定百度搜索的內(nèi)容并提取網(wǎng)頁(yè)的標(biāo)題內(nèi)容

第一步：完成初步分析

1.確定url：

第二步：完成獲取頁(yè)面程序主體框架

1.首先，我們需要寫出大體的框架：

2.為什么需要寫入文件，而不直接解析：

完成獲取頁(yè)面程序：

1.完成請(qǐng)求函數(shù)get:

2.完成寫入文件函數(shù)write:

3.檢測(cè)是否正常運(yùn)行以及是否為我們想要的結(jié)果：

完成解析頁(yè)面的大體框架和局部?jī)?nèi)容：

1.完成解析頁(yè)面程序的框架：

2.完成解析函數(shù)parse：

總結(jié)與全文代碼：

1.首先附上全文代碼：

2.總結(jié)：

1.首先，我們需要寫出大體的框架：

2.為什么需要寫入文件，而不直接解析：