怎么使用Python定時(shí)抓取微博評(píng)論

這篇文章主要講解了“怎么使用Python定時(shí)抓取微博評(píng)論”,文中的講解內(nèi)容簡(jiǎn)單清晰,易于學(xué)習(xí)與理解,下面請(qǐng)大家跟著小編的思路慢慢深入,一起來研究和學(xué)習(xí)“怎么使用Python定時(shí)抓取微博評(píng)論”吧!

創(chuàng)新互聯(lián)建站是專業(yè)的馬尾網(wǎng)站建設(shè)公司,馬尾接單;提供網(wǎng)站設(shè)計(jì)制作、網(wǎng)站設(shè)計(jì),網(wǎng)頁設(shè)計(jì),網(wǎng)站設(shè)計(jì),建網(wǎng)站,PHP網(wǎng)站建設(shè)等專業(yè)做網(wǎng)站服務(wù);采用PHP框架,可快速的進(jìn)行馬尾網(wǎng)站開發(fā)網(wǎng)頁制作和功能擴(kuò)展;專業(yè)做搜索引擎喜愛的網(wǎng)站,專業(yè)的做網(wǎng)站團(tuán)隊(duì),希望更多企業(yè)前來合作!

【Part1——理論篇】

試想一個(gè)問題,如果我們要抓取某個(gè)微博大V微博的評(píng)論數(shù)據(jù),應(yīng)該怎么實(shí)現(xiàn)呢?最簡(jiǎn)單的做法就是找到微博評(píng)論數(shù)據(jù)接口,然后通過改變參數(shù)來獲取最新數(shù)據(jù)并保存。首先從微博api尋找抓取評(píng)論的接口,如下圖所示。

怎么使用Python定時(shí)抓取微博評(píng)論

但是很不幸,該接口頻率受限,抓不了幾次就被禁了,還沒有開始起飛,就涼涼了。

怎么使用Python定時(shí)抓取微博評(píng)論

接下來小編又選擇微博的移動(dòng)端網(wǎng)站,先登錄,然后找到我們想要抓取評(píng)論的微博,打開瀏覽器自帶流量分析工具,一直下拉評(píng)論,找到評(píng)論數(shù)據(jù)接口,如下圖所示。

怎么使用Python定時(shí)抓取微博評(píng)論

之后點(diǎn)擊“參數(shù)”選項(xiàng)卡,可以看到參數(shù)為下圖所示的內(nèi)容:

怎么使用Python定時(shí)抓取微博評(píng)論

可以看到總共有4個(gè)參數(shù),其中第1、2個(gè)參數(shù)為該條微博的id,就像人的身份證號(hào)一樣,這個(gè)相當(dāng)于該條微博的“身份證號(hào)”,max_id是變換頁碼的參數(shù),每次都要變化,下次的max_id參數(shù)值在本次請(qǐng)求的返回?cái)?shù)據(jù)中。

怎么使用Python定時(shí)抓取微博評(píng)論

【Part2——實(shí)戰(zhàn)篇】

有了上文的基礎(chǔ)之后,下面我們開始擼代碼,使用Python進(jìn)行實(shí)現(xiàn)。

怎么使用Python定時(shí)抓取微博評(píng)論

1、首先區(qū)分url,第一次不需要max_id,第二次需要用第一次返回的max_id。

怎么使用Python定時(shí)抓取微博評(píng)論

2、請(qǐng)求的時(shí)候需要帶上cookie數(shù)據(jù),微博cookie的有效期比較長(zhǎng),足夠抓一條微博的評(píng)論數(shù)據(jù)了,cookie數(shù)據(jù)可以從瀏覽器分析工具中找到。

怎么使用Python定時(shí)抓取微博評(píng)論

3、然后將返回?cái)?shù)據(jù)轉(zhuǎn)換成json格式,取出評(píng)論內(nèi)容、評(píng)論者昵稱和評(píng)論時(shí)間等數(shù)據(jù),輸出結(jié)果如下圖所示。

怎么使用Python定時(shí)抓取微博評(píng)論

4、為了保存評(píng)論內(nèi)容,我們要將評(píng)論中的表情去掉,使用正則表達(dá)式進(jìn)行處理,如下圖所示。

怎么使用Python定時(shí)抓取微博評(píng)論

5、之后接著把內(nèi)容保存到txt文件中,使用簡(jiǎn)單的open函數(shù)進(jìn)行實(shí)現(xiàn),如下圖所示。

怎么使用Python定時(shí)抓取微博評(píng)論

6、重點(diǎn)來了,通過此接口最多只能返回16頁的數(shù)據(jù)(每頁20條),網(wǎng)上也有說返回50頁的,但是接口不同、返回的數(shù)據(jù)條數(shù)也不同,所以我加了個(gè)for循環(huán),一步到位,遍歷還是很給力的,如下圖所示。

怎么使用Python定時(shí)抓取微博評(píng)論

7、這里把函數(shù)命名為job。為了能夠一直取出最新的數(shù)據(jù),我們可以用schedule給程序加個(gè)定時(shí)功能,每隔10分鐘或者半個(gè)小時(shí)抓1次,如下圖所示。

怎么使用Python定時(shí)抓取微博評(píng)論

8、對(duì)獲取到的數(shù)據(jù),做去重處理,如下圖所示。如果評(píng)論已經(jīng)在里邊的話,就直接pass掉,如果沒有的話,繼續(xù)追加即可。

怎么使用Python定時(shí)抓取微博評(píng)論

這項(xiàng)工作到此就基本完成了。

感謝各位的閱讀,以上就是“怎么使用Python定時(shí)抓取微博評(píng)論”的內(nèi)容了,經(jīng)過本文的學(xué)習(xí)后,相信大家對(duì)怎么使用Python定時(shí)抓取微博評(píng)論這一問題有了更深刻的體會(huì),具體使用情況還需要大家實(shí)踐驗(yàn)證。這里是創(chuàng)新互聯(lián),小編將為大家推送更多相關(guān)知識(shí)點(diǎn)的文章,歡迎關(guān)注!

新聞標(biāo)題:怎么使用Python定時(shí)抓取微博評(píng)論
當(dāng)前網(wǎng)址:http://muchs.cn/article6/jopjog.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供關(guān)鍵詞優(yōu)化、App開發(fā)、外貿(mào)建站、網(wǎng)站策劃、移動(dòng)網(wǎng)站建設(shè)品牌網(wǎng)站建設(shè)

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)

營銷型網(wǎng)站建設(shè)