爬蟲(chóng)簡(jiǎn)單總結(jié)！-創(chuàng)新互聯(lián)

執(zhí)行Python程序

執(zhí)行入門編程代碼“Hello，World！”，用Python輸出“Hello，World！”

創(chuàng)新互聯(lián)公司服務(wù)項(xiàng)目包括肥東網(wǎng)站建設(shè)、肥東網(wǎng)站制作、肥東網(wǎng)頁(yè)制作以及肥東網(wǎng)絡(luò)營(yíng)銷策劃等。多年來(lái)，我們專注于互聯(lián)網(wǎng)行業(yè)，利用自身積累的技術(shù)優(yōu)勢(shì)、行業(yè)經(jīng)驗(yàn)、深度合作伙伴關(guān)系等，向廣大中小型企業(yè)、政府機(jī)構(gòu)等提供互聯(lián)網(wǎng)行業(yè)的解決方案，肥東網(wǎng)站推廣取得了明顯的社會(huì)效益與經(jīng)濟(jì)效益。目前，我們服務(wù)的客戶以成都為中心已經(jīng)輻射到肥東省份的部分城市，未來(lái)相信會(huì)繼續(xù)擴(kuò)大服務(wù)區(qū)域并繼續(xù)獲得客戶的支持與信任！

#！/usr/bin/env/python
prent （"Hello,World！"）

    #!/usr/bin/python             是告訴操作系統(tǒng)執(zhí)行這個(gè)腳本的時(shí)候，調(diào)用 /usr/bin 下的 python 解釋器。這種用法是為了防止操作系統(tǒng)用戶沒(méi)有將 python 裝在默認(rèn)的 /usr/bin 路徑里。當(dāng)系統(tǒng)看到這一行的時(shí)候，首先會(huì)到 env 設(shè)置里查找 python 的安裝路徑，再調(diào)用對(duì)應(yīng)路徑下的解釋器程序完成操作。

常用的第三方庫(kù)

requests：是一個(gè)常用的用于http請(qǐng)求的模塊，它使用python語(yǔ)言編寫(xiě)，
可以方便的對(duì)網(wǎng)頁(yè)進(jìn)行爬取，是學(xué)習(xí)python爬蟲(chóng)的較好的http
請(qǐng)求模塊。

BeautifulSoup：是編寫(xiě) python 爬蟲(chóng)常用庫(kù)之一，主要用來(lái)解析 html
標(biāo)簽

import josn: 是一種輕量級(jí)的數(shù)據(jù)交換格式，易于人閱讀和編寫(xiě)。

xwlt: 這是一個(gè)開(kāi)發(fā)人員用來(lái)生成與微軟Excel版本95到2003兼容的電子表格
文件的庫(kù)。

mongo: 非關(guān)系型數(shù)據(jù)庫(kù)
鏈接數(shù)據(jù)庫(kù)：
./mongod *&
./mongo
pymongo

import os: OS: 模塊簡(jiǎn)單的來(lái)說(shuō)它是一個(gè)Python的系統(tǒng)編程的操作模塊，
可以處理文件和目錄這些我們?nèi)粘Ｊ謩?dòng)需要做的操作。

import sys: sys模塊包含了與Python解釋器和它的環(huán)境有關(guān)的函數(shù)。

from pc1 import*: 導(dǎo)入模塊，每次使用模塊中的函數(shù)，直接使用函數(shù)就
可以了。注:因?yàn)橐呀?jīng)知道該函數(shù)是那個(gè)模塊中的了。

爬蟲(chóng)！

    1. 訪問(wèn)網(wǎng)站，拿到html網(wǎng)頁(yè) 
    2. 提取html中我們 想要的內(nèi)容 
    3. 把我們 爬到的內(nèi)容 存到 數(shù)據(jù)庫(kù)

下面要從網(wǎng)頁(yè)上爬下照片到我們的數(shù)據(jù)庫(kù)中！

#!/usr/bin/env python
#encoding=utf-8

用來(lái)說(shuō)明你的Python源程序文件用使用的編碼。缺省情況下你的程序需要使用ascii碼來(lái)寫(xiě)，但如果在其中寫(xiě)中文的話，python解釋器一般會(huì)報(bào)錯(cuò)，但如果加上你所用的文件編碼，python就會(huì)自動(dòng)處理不再報(bào)錯(cuò)。

import requests
from bs4 import BeautifulSoup
import os
url = 'http://www.stallman.org/photos/rms-working/pages/{}.html'

導(dǎo)入我們需要的模塊及網(wǎng)站！

def spider(url):
list_n = range(1,149)
base_url = 'http://www.stallman.org/photos/rms-working/'

<base> 標(biāo)簽為頁(yè)面上的所有鏈接規(guī)定默認(rèn)地址或默認(rèn)目標(biāo)。

通常情況下，瀏覽器會(huì)從當(dāng)前文檔的 URL 中提取相應(yīng)的元素來(lái)填寫(xiě)相對(duì) URL 中的空白。

使用<base>標(biāo)簽可以改變這一點(diǎn)。瀏覽器隨后將不再使用當(dāng)前文檔的 URL，而使用指定的基本 URL 來(lái)解析所有的相對(duì) URL。這其中包括 <a>、<img>、<link>、<form> 標(biāo)簽中的 URL。

for i in list_n:
          print i  
          url_req = url.format(str(i))
          print url

建立一個(gè)循環(huán)，將我們要訪問(wèn)的網(wǎng)站頁(yè)數(shù)作為變量（i），帶入到我們的網(wǎng)站中

    res = requests.get(url_req,timeout=5)
    html = res.content
    soup = BeautifulSoup(html, 'html.parser')
    img = soup.find('img')
    src =  img.get('src')

訪問(wèn)網(wǎng)站， timeout=5 ，5S后沒(méi)有反應(yīng)是終止；
將網(wǎng)站內(nèi)容帶入到html中；
將html中的內(nèi)容用bs4中的BeautifulSoupbianyi編譯成超鏈接文本，方便我們查找需要的內(nèi)容。（也可以不進(jìn)行編譯，不過(guò)接下來(lái)我們只能用正則表達(dá)式的方式查找。及其麻煩）并且?guī)氲絪oup中；
在我們剛才得到的soup中查找圖片鏈接（imp）；
將找到的圖片寫(xiě)入src中。

   url_image = base_url + src.split('../')[1]
   os.system('wget %s' % url_image)

將我們得到的src和之前輸入的網(wǎng)址連接，就得到我們要爬的內(nèi)容了（../ ：返回上級(jí)，也就是url中../rms-working/一級(jí)）；
然后我們就可以用os命令下載了！

奈斯?。。。。。。?！

另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)cdcxhl.cn，海內(nèi)外云服務(wù)器15元起步，三天無(wú)理由+7*72小時(shí)售后在線，公司持有idc許可證，提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國(guó)服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案，具有“安全穩(wěn)定、簡(jiǎn)單易用、服務(wù)可用性高、性價(jià)比高”等特點(diǎn)與優(yōu)勢(shì)，專為企業(yè)上云打造定制，能夠滿足用戶豐富、多元化的應(yīng)用場(chǎng)景需求。

標(biāo)題名稱：爬蟲(chóng)簡(jiǎn)單總結(jié)！-創(chuàng)新互聯(lián)
分享網(wǎng)址：http://muchs.cn/article22/ceejjc.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供域名注冊(cè)、標(biāo)簽優(yōu)化、網(wǎng)站內(nèi)鏈、云服務(wù)器、面包屑導(dǎo)航、網(wǎng)站營(yíng)銷

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請(qǐng)盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如需處理請(qǐng)聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來(lái)源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

爬蟲(chóng)簡(jiǎn)單總結(jié)！-創(chuàng)新互聯(lián)

執(zhí)行Python程序

常用的第三方庫(kù)

爬蟲(chóng)！

爬蟲(chóng)簡(jiǎn)單總結(jié)！-創(chuàng)新互聯(lián)