BeautifulSoup初識-創(chuàng)新互聯(lián)

本來想用scrapy框架來抓取某個網站的內容,結果發(fā)現(xiàn)太龐大,要很多時間來研究。另外,抓取網頁的代碼部署在SAE上,所以不明白該如何將scrapy框架嵌入到SAE。BeautifulSoup初識

所幸要取得網頁內容不是很復雜,就直接用urllib2來獲取內容。

成都創(chuàng)新互聯(lián)公司為企業(yè)級客戶提高一站式互聯(lián)網+設計服務,主要包括成都網站設計、成都網站制作、重慶App定制開發(fā)、小程序設計、宣傳片制作、LOGO設計等,幫助客戶快速提升營銷能力和企業(yè)形象,創(chuàng)新互聯(lián)各部門都有經驗豐富的經驗,可以確保每一個作品的質量和創(chuàng)作周期,同時每年都有很多新員工加入,為我們帶來大量新的創(chuàng)意。 

但是取出的內容要如何處理,如何才能找到所需要的內容。從網上搜索發(fā)現(xiàn)可以用HtmlParser或者BeautifulSoup來獲取,經過嘗試之后果斷放棄HtmlParser。

BeautifulSoup:

   python中的Beautiful是用Python寫的一個HTML/XML的解析器,它可以很好的處理不規(guī)范標記并生成剖析樹(parse tree)。

 下載地址:http://www.crummy.com/software/BeautifulSoup/

 下載完成之后,提取文件中的bs4文件夾??截惖剿璧奈募A路徑下。

 具體使用文檔:http://www.crummy.com/software/BeautifulSoup/bs4/doc/

 現(xiàn)在來說說我的使用方法:

 假定需要解析url的代碼如下:

import urllib2
from bs4 import BeautifulSoup


def catch_url( url ):
  content= urllib2.urlopen( url )
  soup= BeautifulSoup( content )
return soup

 然后,使用BeautifulSoup來解析一下京東的主頁:

def parse360buyContent( content ):
  beauParse = BeautifulSoup( content )

  soup= beauParse.findAll('div',{'id':'life'})
  data= []
  
for con in soup:
    text= con.a['href']
    data.append({'text':text})
  
  
return data

可以看到,解析出的結果是一個list,通過for來取出每一個條目。如果需要取出此條目中的<a href="www.360buy.com/products/xxxx">,只要將a做為屬性來取出,而href則需要按字典

類型來取出。

 由于用到的地方就這一點,所以未作深入研究,只是做為后續(xù)一個可查詢的紀錄。

文章題目:BeautifulSoup初識-創(chuàng)新互聯(lián)
鏈接地址:http://muchs.cn/article32/djgdsc.html

成都網站建設公司_創(chuàng)新互聯(lián),為您提供網站收錄動態(tài)網站、關鍵詞優(yōu)化移動網站建設、網站維護、企業(yè)建站

廣告

聲明:本網站發(fā)布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創(chuàng)新互聯(lián)

成都定制網站網頁設計