BeautifulSoup初識-創(chuàng)新互聯(lián)

本來想用scrapy框架來抓取某個網站的內容，結果發(fā)現(xiàn)太龐大，要很多時間來研究。另外，抓取網頁的代碼部署在SAE上，所以不明白該如何將scrapy框架嵌入到SAE。 BeautifulSoup初識

所幸要取得網頁內容不是很復雜，就直接用urllib2來獲取內容。

成都創(chuàng)新互聯(lián)公司為企業(yè)級客戶提高一站式互聯(lián)網+設計服務，主要包括成都網站設計、成都網站制作、重慶App定制開發(fā)、小程序設計、宣傳片制作、LOGO設計等，幫助客戶快速提升營銷能力和企業(yè)形象，創(chuàng)新互聯(lián)各部門都有經驗豐富的經驗，可以確保每一個作品的質量和創(chuàng)作周期，同時每年都有很多新員工加入，為我們帶來大量新的創(chuàng)意。

但是取出的內容要如何處理，如何才能找到所需要的內容。從網上搜索發(fā)現(xiàn)可以用HtmlParser或者BeautifulSoup來獲取，經過嘗試之后果斷放棄HtmlParser。

BeautifulSoup：

python中的Beautiful是用Python寫的一個HTML/XML的解析器，它可以很好的處理不規(guī)范標記并生成剖析樹(parse tree)。

下載地址：http://www.crummy.com/software/BeautifulSoup/

下載完成之后，提取文件中的bs4文件夾?？截惖剿璧奈募A路徑下。

具體使用文檔：http://www.crummy.com/software/BeautifulSoup/bs4/doc/

現(xiàn)在來說說我的使用方法：

假定需要解析url的代碼如下：

import urllib2
from bs4 import BeautifulSoup


def catch_url( url ):
  content= urllib2.urlopen( url )
  soup= BeautifulSoup( content )
return soup

然后，使用BeautifulSoup來解析一下京東的主頁：

def parse360buyContent( content ):
  beauParse ＝ BeautifulSoup( content )

  soup= beauParse.findAll('div',{'id':'life'})
  data= []
  
for con in soup:
    text= con.a['href']
    data.append({'text':text})
  
  
return data

可以看到，解析出的結果是一個list，通過for來取出每一個條目。如果需要取出此條目中的<a href="www.360buy.com/products/xxxx">，只要將a做為屬性來取出，而href則需要按字典

類型來取出。

由于用到的地方就這一點，所以未作深入研究，只是做為后續(xù)一個可查詢的紀錄。

文章題目：BeautifulSoup初識-創(chuàng)新互聯(lián)
鏈接地址：http://muchs.cn/article32/djgdsc.html

成都網站建設公司_創(chuàng)新互聯(lián)，為您提供網站收錄、動態(tài)網站、關鍵詞優(yōu)化、移動網站建設、網站維護、企業(yè)建站

聲明：本網站發(fā)布的內容（圖片、視頻和文字）以用戶投稿、用戶轉載內容為主，如果涉及侵權請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內容未經允許不得轉載，或轉載時需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內容