python爬蟲(chóng)爬取筆趣網(wǎng)小說(shuō)網(wǎng)站過(guò)程圖解-創(chuàng)新互聯(lián)

首先:文章用到的解析庫(kù)介紹

10余年的康縣網(wǎng)站建設(shè)經(jīng)驗(yàn),針對(duì)設(shè)計(jì)、前端、開(kāi)發(fā)、售后、文案、推廣等六對(duì)一服務(wù),響應(yīng)快,48小時(shí)及時(shí)工作處理。成都營(yíng)銷網(wǎng)站建設(shè)的優(yōu)勢(shì)是能夠根據(jù)用戶設(shè)備顯示端的尺寸不同,自動(dòng)調(diào)整康縣建站的顯示方式,使網(wǎng)站能夠適用不同顯示終端,在瀏覽器中調(diào)整網(wǎng)站的寬度,無(wú)論在任何一種瀏覽器上瀏覽網(wǎng)站,都能展現(xiàn)優(yōu)雅布局與設(shè)計(jì),從而大程度地提升瀏覽體驗(yàn)。創(chuàng)新互聯(lián)建站從事“康縣網(wǎng)站設(shè)計(jì)”,“康縣網(wǎng)站推廣”以來(lái),每個(gè)客戶項(xiàng)目都認(rèn)真落實(shí)執(zhí)行。

BeautifulSoup:

Beautiful Soup提供一些簡(jiǎn)單的、python式的函數(shù)用來(lái)處理導(dǎo)航、搜索、修改分析樹(shù)等功能。

它是一個(gè)工具箱,通過(guò)解析文檔為用戶提供需要抓取的數(shù)據(jù),因?yàn)楹?jiǎn)單,所以不需要多少代碼就可以寫出一個(gè)完整的應(yīng)用程序。

Beautiful Soup自動(dòng)將輸入文檔轉(zhuǎn)換為Unicode編碼,輸出文檔轉(zhuǎn)換為utf-8編碼。

你不需要考慮編碼方式,除非文檔沒(méi)有指定一個(gè)編碼方式,這時(shí),Beautiful Soup就不能自動(dòng)識(shí)別編碼方式了。然后,你僅僅需要說(shuō)明一下原始編碼方式就可以了。

Beautiful Soup已成為和lxml、html6lib一樣出色的python解釋器,為用戶靈活地提供不同的解析策略或強(qiáng)勁的速度。

爬取小說(shuō)原因背景:

以前很喜歡看起點(diǎn)網(wǎng)上面的小說(shuō),但是很多都要錢,窮學(xué)生沒(méi)多少錢,就發(fā)現(xiàn)了筆趣網(wǎng)。

筆趣看是一個(gè)小說(shuō)網(wǎng)站,這里有很多起點(diǎn)中文網(wǎng)的免費(fèi)小說(shuō),而且這個(gè)網(wǎng)站只能在線瀏覽,不支持小說(shuō)打包下載。

所以本次爬取呢,就是從該網(wǎng)站爬取并保存一個(gè)名為《一念永恒》的小說(shuō)。

另外本次爬取只是做例子演示,請(qǐng)支持正版資源?。。。。。。。。。。?/p>

那么簡(jiǎn)單的爬取開(kāi)始:

①打開(kāi)url鏈接,按F12或者右鍵- 檢查 進(jìn)入開(kāi)發(fā)者工具

python爬蟲(chóng)爬取筆趣網(wǎng)小說(shuō)網(wǎng)站過(guò)程圖解

② 在開(kāi)發(fā)者工具中,捕獲我們要找到的請(qǐng)求條目信息

選擇主文章的一部分內(nèi)容,選擇復(fù)制粘貼那一部分,

然后再打開(kāi)開(kāi)發(fā)者工具欄:

“network—選擇放大鏡圖標(biāo)sreach—然后再搜索欄粘貼我們要搜索的內(nèi)容”

python爬蟲(chóng)爬取筆趣網(wǎng)小說(shuō)網(wǎng)站過(guò)程圖解

然后會(huì)在下方得到條目信息,點(diǎn)擊,頁(yè)面會(huì)跳轉(zhuǎn)到加載正文的請(qǐng)求響應(yīng)條目中。

我們可以看到:

正文部分是處于 id 為 content 和 class 為 showtxt 的 div 中。

③ 構(gòu)造url請(qǐng)求

上面的信息是不夠的,因?yàn)楝F(xiàn)在的網(wǎng)站都有了反爬能力,我們所需要是模擬一條正常從瀏覽器中發(fā)出的url請(qǐng)求鏈接。

這里我們會(huì)用到: User-Agent(瀏覽器標(biāo)識(shí))

還是開(kāi)發(fā)者工具,點(diǎn)擊Headers,就可以看到Request-Response條目明細(xì)。

python爬蟲(chóng)爬取筆趣網(wǎng)小說(shuō)網(wǎng)站過(guò)程圖解

④ 發(fā)出請(qǐng)求:

有了字段的詳細(xì)內(nèi)容,我們就可以編寫出請(qǐng)求網(wǎng)頁(yè)的代碼

python爬蟲(chóng)爬取筆趣網(wǎng)小說(shuō)網(wǎng)站過(guò)程圖解

⑤ 獲得相應(yīng)內(nèi)容,然后運(yùn)行,得到內(nèi)容如下:

python爬蟲(chóng)爬取筆趣網(wǎng)小說(shuō)網(wǎng)站過(guò)程圖解

解析響應(yīng)數(shù)據(jù)

下面,我們使用BeautifulSoup進(jìn)行解析 運(yùn)行….代碼結(jié)果如圖:

python爬蟲(chóng)爬取筆趣網(wǎng)小說(shuō)網(wǎng)站過(guò)程圖解

到這里,小說(shuō)就爬取完成了。

以上就是本文的全部?jī)?nèi)容,希望對(duì)大家的學(xué)習(xí)有所幫助,也希望大家多多支持創(chuàng)新互聯(lián)成都網(wǎng)站設(shè)計(jì)公司。

另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務(wù)器15元起步,三天無(wú)理由+7*72小時(shí)售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國(guó)服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡(jiǎn)單易用、服務(wù)可用性高、性價(jià)比高”等特點(diǎn)與優(yōu)勢(shì),專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場(chǎng)景需求。

文章題目:python爬蟲(chóng)爬取筆趣網(wǎng)小說(shuō)網(wǎng)站過(guò)程圖解-創(chuàng)新互聯(lián)
路徑分享:http://muchs.cn/article42/dsipec.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供定制開(kāi)發(fā)、手機(jī)網(wǎng)站建設(shè)、品牌網(wǎng)站建設(shè)、微信公眾號(hào)、網(wǎng)站制作網(wǎng)站建設(shè)

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

網(wǎng)站優(yōu)化排名