Python中bs4基礎的示例分析-創(chuàng)新互聯(lián)

這篇文章給大家分享的是有關Python中bs4基礎的示例分析的內(nèi)容。小編覺得挺實用的，因此分享給大家做個參考，一起跟隨小編過來看看吧。

成都創(chuàng)新互聯(lián)公司堅持“要么做到，要么別承諾”的工作理念，服務領域包括：成都網(wǎng)站建設、成都做網(wǎng)站、企業(yè)官網(wǎng)、英文網(wǎng)站、手機端網(wǎng)站、網(wǎng)站推廣等服務，滿足客戶于互聯(lián)網(wǎng)時代的枝江網(wǎng)站設計、移動媒體設計的需求，幫助企業(yè)找到有效的互聯(lián)網(wǎng)解決方案。努力成為您成熟可靠的網(wǎng)絡建設合作伙伴！

安裝

在命令提示符框中直接輸入pip install beautifulsoup4

介紹

beautifulsoup是python的一個第三方庫，和xpath一樣，都是用來解析html數(shù)據(jù)的。

引入

from bs4 import BeautifulSoup

使用

將一段文檔傳入BeautifulSoup的構造方法，就能得到一個文檔的對象。

bs = BeautifulSoup(open('index.html',encoding='utf-8'),'lxml')
print(bs)

注意：這樣上傳文檔的話，BeautifulSoup里面需要兩個參數(shù)。一個為open方法，一個是固定寫法，也就是解析器。

open方法里面也同樣需要兩個參數(shù)，一個是想要解析的數(shù)據(jù)，另一個為設置編碼的格式。

（1）獲取網(wǎng)頁中的title標簽

print(bs.title)

（2）獲取head標簽及標簽內(nèi)部的所有其他標簽

print(bs.head)

（3）獲取當中的第一個a標簽

print(bs.a)

注意：獲取文檔當中所有的xx當中第一個xx或者第一個xx里面的內(nèi)容。都可以用bs.xx來獲取

（4）獲取指定標簽的所有屬性

print(bs.a.attrs)

（5）獲取標簽的屬性

print(bs.a['href'])

（6）獲取標簽的文本內(nèi)容。

print(bs.a.string)

注意：string獲取的文本指的是本標簽的文本，不包含子標簽的文本

（7）contents能夠獲取指定標簽下面的所有內(nèi)容。

print(bs.body.contents)

（8）獲取所有內(nèi)容當中指定索引的內(nèi)容

print(bs.div.contents[3])

（9）通過id和類名來找標簽

print(bs.find(id='kw')) print(bs.find(class_='shopping'))

注意：id是唯一的，通過id來找，只能找到一個，所以用find，而class不是唯一的，通過class來找，就有可能找到多個。

（10）select選擇指定的標簽

print(bs.select('title')) print(bs.select('a'))

在bs4中，小數(shù)點“.”表示類名，#表示id

print(bs.select('.first')) print(bs.select('#kw')) print(bs.select('div.now'))

感謝各位的閱讀！關于“Python中bs4基礎的示例分析”這篇文章就分享到這里了，希望以上內(nèi)容可以對大家有一定的幫助，讓大家可以學到更多知識，如果覺得文章不錯，可以把它分享出去讓更多的人看到吧！

網(wǎng)站名稱：Python中bs4基礎的示例分析-創(chuàng)新互聯(lián)
標題路徑：http://muchs.cn/article26/csjhcg.html

成都網(wǎng)站建設公司_創(chuàng)新互聯(lián)，為您提供云服務器、域名注冊、ChatGPT、商城網(wǎng)站、企業(yè)網(wǎng)站制作、用戶體驗

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容