怎么用Python爬取B站動(dòng)漫番劇更新信息

這篇文章主要介紹“怎么用Python爬取B站動(dòng)漫番劇更新信息”，在日常操作中，相信很多人在怎么用Python爬取B站動(dòng)漫番劇更新信息問題上存在疑惑，小編查閱了各式資料，整理出簡(jiǎn)單好用的操作方法，希望對(duì)大家解答”怎么用Python爬取B站動(dòng)漫番劇更新信息”的疑惑有所幫助！接下來，請(qǐng)跟著小編一起來學(xué)習(xí)吧！

成都創(chuàng)新互聯(lián) - 棕樹數(shù)據(jù)中心，四川服務(wù)器租用，成都服務(wù)器租用，四川網(wǎng)通托管,綿陽(yáng)服務(wù)器托管，德陽(yáng)服務(wù)器托管，遂寧服務(wù)器托管，綿陽(yáng)服務(wù)器托管，四川云主機(jī)，成都云主機(jī)，西南云主機(jī)，棕樹數(shù)據(jù)中心，西南服務(wù)器托管，四川/成都大帶寬，成都機(jī)柜租用，四川老牌ＩＤＣ服務(wù)商

目標(biāo)：爬取b站番劇最近更新

輸出格式:名字+播放量+簡(jiǎn)介
那么開始擼吧~

用到的類庫(kù)：

requests:網(wǎng)絡(luò)請(qǐng)求
pyquery:解析xml文檔，像使用jquery一樣簡(jiǎn)單哦~

1.分析頁(yè)面布局，找到需要爬取的內(nèi)容

目標(biāo)url：

https://bangumi.bilibili.com/22/

怎么用Python爬取B站動(dòng)漫番劇更新信息

設(shè)計(jì)video類:

import requests
from pyquery import PyQuery as pq

class Video(object):
    def __init__(self,name,see,intro):
        self.name=name
        self.see=see
        self.intro=intro

    def __str__(self):
        return "{}--{}--{}".format(self.name,self.see,self.intro)

分析完頁(yè)面，設(shè)取爬去類:

class bilibili(object):
    host="https://bangumi.bilibili.com"

    def __init__(self):
        self.dom=pq(requests.get('https://bangumi.bilibili.com/22/').text)

    def get_recent(self):
        '''最近更新'''
        items=self.dom('#list_bangumi_new .c-list .new .c-item')
        videos=[]
        for i in items:
            name=i.find('.r-i .t').attr('title')
            link=self.host+i.find('.r-i .t').attr('href')
            d=pq(requests.get(url=link).text)
            see=d(".info-count .info-count-item").eq(1).find('em').text()
            intro=d('.info-row').eq(3).find('.info-desc').text()
            videos.append(Video(name=name,see=see,intro=intro))
        return videos

哎呀，怎么回事，居然返回為空
這種情況下不要慌,如果代碼沒有錯(cuò)誤，那么一般是由兩種情況造成
沒有選擇到目標(biāo)，頁(yè)面是js動(dòng)態(tài)加載的

我們先試下第一種情況，打開瀏覽器，f12，將選擇字符串復(fù)制到console中運(yùn)行下，我們這就是

$('#list_bangumi_new .c-list .new .c-item')

怎么用Python爬取B站動(dòng)漫番劇更新信息

這是一個(gè)item的信息，里面有我們想要的名字信息，那接下來就是去詳情頁(yè)尋找播放量和簡(jiǎn)介了，但是詳情頁(yè)鏈接在哪那，剛剛那個(gè)接口里并沒有，我們f12，審查一下元素。

這里的鏈接是/anime/6439,剛剛的接口里并沒有這個(gè)信息啊，那這個(gè)信息應(yīng)該就是拼接出來的了,關(guān)鍵就是6439這個(gè)數(shù)字了,去剛剛那個(gè)接口信息里尋找一下，果然找到了一個(gè)season_id字段符合，那么詳情頁(yè)鏈接就構(gòu)造如下:

detail_url = "https://bangumi.bilibili.com/anime/{season_id}"

那么接下來就是去分析詳情頁(yè),爬去我們想要播放量和簡(jiǎn)介信息了,構(gòu)造爬去代碼如下:

see = d(".info-count .info-count-item").eq(1).find('em').text()
intro = d('.info-desc-wrp').find('.info-desc').text()

那么最終爬取類關(guān)鍵代碼如下:

   class bilibili(object):
    recent_url = "https://bangumi.bilibili.com/api/timeline_v2_global"  # 最近更新
    detail_url = "https://bangumi.bilibili.com/anime/{season_id}"

    def __init__(self):
        self.dom=pq(requests.get('https://bangumi.bilibili.com/22/').text)

    def get_recent(self):
        '''最近更新'''
        items=json.loads(requests.get(self.recent_url).text)['result']
        videos=[]
        for i in items:
            name=i['title']
            link=self.detail_url.format(season_id=i['season_id'])
            d=pq(requests.get(url=link).text)
            see = d(".info-count .info-count-item").eq(1).find('em').text()
            intro = d('.info-desc-wrp').find('.info-desc').text()
            videos.append(Video(name=name,see=see,intro=intro))
        return videos

運(yùn)行一下:

怎么用Python爬取B站動(dòng)漫番劇更新信息

很ok，那接下來把它做成命令行~

2.制作命令行版

用到的類庫(kù)：
argparse:解析命令行參數(shù)

主要代碼如下：

if __name__ == '__main__':
    parser=argparse.ArgumentParser()
    parser.add_argument('--recent',help="get the recent info",action="store_true")
    parser.add_argument('--num',help="The number of results returned,default show all",type=int,default=0)
    parser.add_argument('-v','--version',help="show version",action="store_true")
    args=parser.parse_args()

    if args.version:
        print("bilibili 1.0")
    elif args.recent:
       b = bilibili()
       b.get_recent(args.num)

看下效果：

怎么用Python爬取B站動(dòng)漫番劇更新信息

ok,大功告成，接下來大家就自由發(fā)揮添加更多的功能吧~：）

到此，關(guān)于“怎么用Python爬取B站動(dòng)漫番劇更新信息”的學(xué)習(xí)就結(jié)束了，希望能夠解決大家的疑惑。理論與實(shí)踐的搭配能更好的幫助大家學(xué)習(xí)，快去試試吧！若想繼續(xù)學(xué)習(xí)更多相關(guān)知識(shí)，請(qǐng)繼續(xù)關(guān)注創(chuàng)新互聯(lián)網(wǎng)站，小編會(huì)繼續(xù)努力為大家?guī)砀鄬?shí)用的文章！

標(biāo)題名稱：怎么用Python爬取B站動(dòng)漫番劇更新信息
文章鏈接：http://muchs.cn/article24/picgce.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供網(wǎng)站營(yíng)銷、微信小程序、靜態(tài)網(wǎng)站、網(wǎng)站建設(shè)、關(guān)鍵詞優(yōu)化、網(wǎng)站排名

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請(qǐng)盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如需處理請(qǐng)聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

怎么用Python爬取B站動(dòng)漫番劇更新信息

1.分析頁(yè)面布局，找到需要爬取的內(nèi)容

2.制作命令行版

1.分析頁(yè)面布局，找到需要爬取的內(nèi)容