使用python爬取百度貼吧的案例?這個(gè)問(wèn)題可能是我們?nèi)粘W(xué)習(xí)或工作經(jīng)常見(jiàn)到的。希望通過(guò)這個(gè)問(wèn)題能讓你收獲頗深。下面是小編給大家?guī)?lái)的參考內(nèi)容,讓我們一起來(lái)看看吧!
成都網(wǎng)站設(shè)計(jì)、做網(wǎng)站、成都外貿(mào)網(wǎng)站建設(shè)公司的開(kāi)發(fā),更需要了解用戶(hù),從用戶(hù)角度來(lái)建設(shè)網(wǎng)站,獲得較好的用戶(hù)體驗(yàn)。成都創(chuàng)新互聯(lián)公司多年互聯(lián)網(wǎng)經(jīng)驗(yàn),見(jiàn)的多,溝通容易、能幫助客戶(hù)提出的運(yùn)營(yíng)建議。作為成都一家網(wǎng)絡(luò)公司,打造的就是網(wǎng)站建設(shè)產(chǎn)品直銷(xiāo)的概念。選擇成都創(chuàng)新互聯(lián)公司,不只是建站,我們把建站作為產(chǎn)品,不斷的更新、完善,讓每位來(lái)訪用戶(hù)感受到浩方產(chǎn)品的價(jià)值服務(wù)。寫(xiě)在最前面:
我們用 urllib 爬取頁(yè)面,再用BeautifulSoup提取有用信息,最后用 xlsxwriter 把獲取的信息 寫(xiě)入到excel表。
一、技術(shù)列表
python 基礎(chǔ)
xlsxwriter 用來(lái)寫(xiě)入excel文件的
urllib——python內(nèi)置爬蟲(chóng)工具
BeautifulSoup解析提取數(shù)據(jù)
二、找到目標(biāo)頁(yè)面
https://tieba.baidu.com/f?kw=%E6%97%85%E6%B8%B8&ie=utf-8&pn=0
三、輸出結(jié)果
四、安裝必要的庫(kù)
win+R 打開(kāi)運(yùn)行
輸出cmd 進(jìn)入控制臺(tái)
分別安裝beautifulsoup4,lxml,xlsxwriter
pip install lxml
pip install beautifulsoup4
pip install xlsxwriter
五、分析頁(yè)面
1. 頁(yè)面規(guī)律
我們單擊分頁(yè)按鈕,拿到頁(yè)面最后一個(gè)參數(shù)的規(guī)律
第二頁(yè):https://tieba.baidu.com/f?kw=旅游&ie=utf-8&pn= 50
第三頁(yè):https://tieba.baidu.com/f?kw=旅游&ie=utf-8&pn= 100
第四頁(yè):https://tieba.baidu.com/f?kw=旅游&ie=utf-8&pn= 150
2. 頁(yè)面信息
旅游信息列表打開(kāi)網(wǎng)頁(yè)https://tieba.baidu.com/f?kw=旅游&ie=utf-8&pn= 50按鍵盤(pán)F12鍵或者 鼠標(biāo)右鍵"檢查元素"(我用的谷歌chrome瀏覽器)
發(fā)現(xiàn)所有旅游列表都有個(gè)共同的class類(lèi)名j_thread_list
作者與創(chuàng)建時(shí)間
作者的class為frs-author-name
創(chuàng)建時(shí)間的class為is_show_create_time
標(biāo)題
標(biāo)題的class為j_th_tit
六、全部代碼
import xlsxwriter
# 用來(lái)寫(xiě)入excel文件的
import urllib.parse
# URL編碼格式轉(zhuǎn)換的
import urllib.request
# 發(fā)起http請(qǐng)求的
from bs4 import BeautifulSoup
# css方法解析提取信息
url='https://tieba.baidu.com/f?kw='+urllib.parse.quote('旅游')+'&ie=utf-8&pn='
# 百度貼吧旅游信息
# parse.quote("旅游") # 結(jié)果為%E6%97%85%E6%B8%B8
herders={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.102 Safari/537.36', 'Referer':'https://tieba.baidu.com/','Connection':'keep-alive'}
# 請(qǐng)求頭信息
data = []
# 所有爬蟲(chóng)的數(shù)據(jù)都存放到 這個(gè)data列表里面
"""
getList 獲取分頁(yè)中的列表信息
url 分頁(yè)地址
"""
def getList(url):
req = urllib.request.Request(url,headers=herders)
# 設(shè)置請(qǐng)求頭
response=urllib.request.urlopen(req)
# 發(fā)起請(qǐng)求得到 響應(yīng)結(jié)果response
htmlText = response.read().decode("utf-8").replace("<!--","").replace("-->","")
# htmlText = 響應(yīng)結(jié)果read讀取.decode 轉(zhuǎn)換為utf文本.replace 替換掉html中的注釋
# 我們需要的結(jié)果在注釋中,所以要先替換掉注釋標(biāo)簽 <!-- -->
html = BeautifulSoup(htmlText,"lxml")
# 創(chuàng)建beautifulSoup對(duì)象
thread_list=html.select(".j_thread_list")
# 獲取到所有的旅游類(lèi)別
# 遍歷旅游列表
for thread in thread_list:
title = thread.select(".j_th_tit")[0].get_text()
author = thread.select(".frs-author-name")[0].get_text()
time= thread.select(".is_show_create_time")[0].get_text()
# 提取標(biāo)題,作者,事件
print(title) # 打印標(biāo)簽
data.append([title,author,time])
# 追加到總數(shù)據(jù)中
"""
獲取到所有的分頁(yè)地址,大5頁(yè)
url 頁(yè)面地址
p=5 最多5頁(yè)
"""
def getPage(url,p=5):
for i in range(5):
link = url+str(i*50)
# 再一次拼接 第1頁(yè)0 第2頁(yè)50 第3頁(yè)100 第4頁(yè)150
getList(link)
# 執(zhí)行獲取頁(yè)面函數(shù)getList
"""
寫(xiě)入excel文件
data 被寫(xiě)入的數(shù)據(jù)
"""
def writeExecl(data):
lens = len(data)
# 獲取頁(yè)面的長(zhǎng)度
workbook = xlsxwriter.Workbook('travel.xlsx')
# 創(chuàng)建一個(gè)excel文件
sheet = workbook.add_worksheet()
# 添加一張工作表
sheet.write_row("A1",["標(biāo)題","作者","時(shí)間"])
# 寫(xiě)入一行標(biāo)題
for i in range(2, lens + 2):
sheet.write_row("A"+str(i),data[i - 2])
# 遍歷data 寫(xiě)入行數(shù)據(jù)到excel
workbook.close()
# 關(guān)閉excel文件
print("xlsx格式表格寫(xiě)入數(shù)據(jù)成功!")
"""
定義主函數(shù)
"""
def main():
getPage(url,5) #獲取分頁(yè)
writeExecl(data) #寫(xiě)入數(shù)據(jù)到excel
# 如果到模塊的名字是__main__ 執(zhí)行main主函數(shù)
if __name__ == '__main__':
main()
七、單詞表
main 主要的
def (define) 定義
getPage 獲取頁(yè)面
writeExcel 寫(xiě)入excel
workbook 工作簿
sheet 表
write_row 寫(xiě)入行
add 添加
close 關(guān)閉
len length長(zhǎng)度
data 數(shù)據(jù)
range 范圍
str (string)字符串
append 追加
author 作者
select 選擇
Beautiful 美麗
Soup 糖
herders 頭信息
response 響應(yīng)
read 讀
decode 編碼
Request 請(qǐng)求
parse 解析
quote 引用
感謝各位的閱讀!看完上述內(nèi)容,你們對(duì)使用python爬取百度貼吧的案例大概了解了嗎?希望文章內(nèi)容對(duì)大家有所幫助。如果想了解更多相關(guān)文章內(nèi)容,歡迎關(guān)注創(chuàng)新互聯(lián)-成都網(wǎng)站建設(shè)公司行業(yè)資訊頻道。
當(dāng)前標(biāo)題:使用python爬取百度貼吧的案例-創(chuàng)新互聯(lián)
標(biāo)題路徑:http://muchs.cn/article14/djeede.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供手機(jī)網(wǎng)站建設(shè)、品牌網(wǎng)站設(shè)計(jì)、做網(wǎng)站、定制網(wǎng)站、網(wǎng)站導(dǎo)航、營(yíng)銷(xiāo)型網(wǎng)站建設(shè)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶(hù)投稿、用戶(hù)轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容
網(wǎng)頁(yè)設(shè)計(jì)公司知識(shí)