使用python爬取百度貼吧的案例-創(chuàng)新互聯(lián)

使用python爬取百度貼吧的案例?這個(gè)問(wèn)題可能是我們?nèi)粘W(xué)習(xí)或工作經(jīng)常見(jiàn)到的。希望通過(guò)這個(gè)問(wèn)題能讓你收獲頗深。下面是小編給大家?guī)?lái)的參考內(nèi)容,讓我們一起來(lái)看看吧!

成都網(wǎng)站設(shè)計(jì)、做網(wǎng)站、成都外貿(mào)網(wǎng)站建設(shè)公司的開(kāi)發(fā),更需要了解用戶(hù),從用戶(hù)角度來(lái)建設(shè)網(wǎng)站,獲得較好的用戶(hù)體驗(yàn)。成都創(chuàng)新互聯(lián)公司多年互聯(lián)網(wǎng)經(jīng)驗(yàn),見(jiàn)的多,溝通容易、能幫助客戶(hù)提出的運(yùn)營(yíng)建議。作為成都一家網(wǎng)絡(luò)公司,打造的就是網(wǎng)站建設(shè)產(chǎn)品直銷(xiāo)的概念。選擇成都創(chuàng)新互聯(lián)公司,不只是建站,我們把建站作為產(chǎn)品,不斷的更新、完善,讓每位來(lái)訪用戶(hù)感受到浩方產(chǎn)品的價(jià)值服務(wù)。
  • 寫(xiě)在最前面:

我們用 urllib 爬取頁(yè)面,再用BeautifulSoup提取有用信息,最后用 xlsxwriter 把獲取的信息 寫(xiě)入到excel表。

一、技術(shù)列表

  1. python 基礎(chǔ)

  2. xlsxwriter 用來(lái)寫(xiě)入excel文件的

  3. urllib——python內(nèi)置爬蟲(chóng)工具

  4. BeautifulSoup解析提取數(shù)據(jù)

二、找到目標(biāo)頁(yè)面

https://tieba.baidu.com/f?kw=%E6%97%85%E6%B8%B8&ie=utf-8&pn=0

使用python爬取百度貼吧的案例

三、輸出結(jié)果

使用python爬取百度貼吧的案例

四、安裝必要的庫(kù)

  1. win+R 打開(kāi)運(yùn)行

  2. 輸出cmd 進(jìn)入控制臺(tái)

  3. 分別安裝beautifulsoup4,lxml,xlsxwriter

pip install   lxml
pip install   beautifulsoup4
pip install   xlsxwriter

五、分析頁(yè)面

1. 頁(yè)面規(guī)律

我們單擊分頁(yè)按鈕,拿到頁(yè)面最后一個(gè)參數(shù)的規(guī)律

  • 第二頁(yè):https://tieba.baidu.com/f?kw=旅游&ie=utf-8&pn= 50

  • 第三頁(yè):https://tieba.baidu.com/f?kw=旅游&ie=utf-8&pn= 100

  • 第四頁(yè):https://tieba.baidu.com/f?kw=旅游&ie=utf-8&pn= 150

使用python爬取百度貼吧的案例使用python爬取百度貼吧的案例

2. 頁(yè)面信息

旅游信息列表打開(kāi)網(wǎng)頁(yè)https://tieba.baidu.com/f?kw=旅游&ie=utf-8&pn= 50按鍵盤(pán)F12鍵或者 鼠標(biāo)右鍵"檢查元素"(我用的谷歌chrome瀏覽器)

發(fā)現(xiàn)所有旅游列表都有個(gè)共同的class類(lèi)名j_thread_list

使用python爬取百度貼吧的案例

作者與創(chuàng)建時(shí)間

作者的class為frs-author-name

創(chuàng)建時(shí)間的class為is_show_create_time

使用python爬取百度貼吧的案例

標(biāo)題

標(biāo)題的class為j_th_tit

使用python爬取百度貼吧的案例

六、全部代碼

import xlsxwriter
# 用來(lái)寫(xiě)入excel文件的
import urllib.parse
# URL編碼格式轉(zhuǎn)換的
import urllib.request
# 發(fā)起http請(qǐng)求的
from bs4 import BeautifulSoup
# css方法解析提取信息

url='https://tieba.baidu.com/f?kw='+urllib.parse.quote('旅游')+'&ie=utf-8&pn='
# 百度貼吧旅游信息
# parse.quote("旅游") # 結(jié)果為%E6%97%85%E6%B8%B8

herders={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.102 Safari/537.36', 'Referer':'https://tieba.baidu.com/','Connection':'keep-alive'}
# 請(qǐng)求頭信息

data = []
# 所有爬蟲(chóng)的數(shù)據(jù)都存放到 這個(gè)data列表里面

"""
getList 獲取分頁(yè)中的列表信息
url   分頁(yè)地址
"""
def getList(url):

    req = urllib.request.Request(url,headers=herders)
    # 設(shè)置請(qǐng)求頭
    response=urllib.request.urlopen(req)
    # 發(fā)起請(qǐng)求得到 響應(yīng)結(jié)果response

    htmlText = response.read().decode("utf-8").replace("<!--","").replace("-->","")
    # htmlText = 響應(yīng)結(jié)果read讀取.decode 轉(zhuǎn)換為utf文本.replace 替換掉html中的注釋
    # 我們需要的結(jié)果在注釋中,所以要先替換掉注釋標(biāo)簽 <!-- -->

    html = BeautifulSoup(htmlText,"lxml")
    # 創(chuàng)建beautifulSoup對(duì)象

    thread_list=html.select(".j_thread_list")
    # 獲取到所有的旅游類(lèi)別


    # 遍歷旅游列表
    for thread in thread_list:
        title = thread.select(".j_th_tit")[0].get_text()
        author = thread.select(".frs-author-name")[0].get_text()
        time= thread.select(".is_show_create_time")[0].get_text()
        # 提取標(biāo)題,作者,事件
        print(title) # 打印標(biāo)簽
        data.append([title,author,time])
        # 追加到總數(shù)據(jù)中

"""
獲取到所有的分頁(yè)地址,大5頁(yè)
url 頁(yè)面地址
p=5 最多5頁(yè)
"""
def getPage(url,p=5):
    for i in range(5):
        link = url+str(i*50)
        # 再一次拼接 第1頁(yè)0  第2頁(yè)50 第3頁(yè)100 第4頁(yè)150
        getList(link)
        # 執(zhí)行獲取頁(yè)面函數(shù)getList

"""
寫(xiě)入excel文件
data 被寫(xiě)入的數(shù)據(jù)
"""
def writeExecl(data):
    lens = len(data)
    # 獲取頁(yè)面的長(zhǎng)度
    workbook = xlsxwriter.Workbook('travel.xlsx')
    # 創(chuàng)建一個(gè)excel文件
    sheet = workbook.add_worksheet()
    # 添加一張工作表
    sheet.write_row("A1",["標(biāo)題","作者","時(shí)間"])
    # 寫(xiě)入一行標(biāo)題
    for i in range(2, lens + 2):
        sheet.write_row("A"+str(i),data[i - 2])
    # 遍歷data 寫(xiě)入行數(shù)據(jù)到excel
    workbook.close()
    # 關(guān)閉excel文件
    print("xlsx格式表格寫(xiě)入數(shù)據(jù)成功!")

"""
定義主函數(shù)
"""
def main():
    getPage(url,5) #獲取分頁(yè)
    writeExecl(data) #寫(xiě)入數(shù)據(jù)到excel

# 如果到模塊的名字是__main__ 執(zhí)行main主函數(shù)
if __name__ == '__main__':
    main()

七、單詞表

main        主要的
def         (define) 定義
getPage     獲取頁(yè)面
writeExcel  寫(xiě)入excel
workbook    工作簿
sheet       表
write_row   寫(xiě)入行
add         添加
close       關(guān)閉
len         length長(zhǎng)度
data        數(shù)據(jù)
range       范圍
str         (string)字符串
append      追加
author      作者
select      選擇
Beautiful   美麗
Soup        糖
herders     頭信息
response    響應(yīng)
read        讀
decode      編碼
Request     請(qǐng)求
parse       解析
quote       引用

感謝各位的閱讀!看完上述內(nèi)容,你們對(duì)使用python爬取百度貼吧的案例大概了解了嗎?希望文章內(nèi)容對(duì)大家有所幫助。如果想了解更多相關(guān)文章內(nèi)容,歡迎關(guān)注創(chuàng)新互聯(lián)-成都網(wǎng)站建設(shè)公司行業(yè)資訊頻道。

當(dāng)前標(biāo)題:使用python爬取百度貼吧的案例-創(chuàng)新互聯(lián)
標(biāo)題路徑:http://muchs.cn/article14/djeede.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供手機(jī)網(wǎng)站建設(shè)、品牌網(wǎng)站設(shè)計(jì)做網(wǎng)站、定制網(wǎng)站網(wǎng)站導(dǎo)航、營(yíng)銷(xiāo)型網(wǎng)站建設(shè)

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶(hù)投稿、用戶(hù)轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

網(wǎng)站托管運(yùn)營(yíng)