執(zhí)行入門編程代碼“Hello,World!”,用Python輸出“Hello,World!”
創(chuàng)新互聯(lián)公司服務(wù)項(xiàng)目包括肥東網(wǎng)站建設(shè)、肥東網(wǎng)站制作、肥東網(wǎng)頁(yè)制作以及肥東網(wǎng)絡(luò)營(yíng)銷策劃等。多年來(lái),我們專注于互聯(lián)網(wǎng)行業(yè),利用自身積累的技術(shù)優(yōu)勢(shì)、行業(yè)經(jīng)驗(yàn)、深度合作伙伴關(guān)系等,向廣大中小型企業(yè)、政府機(jī)構(gòu)等提供互聯(lián)網(wǎng)行業(yè)的解決方案,肥東網(wǎng)站推廣取得了明顯的社會(huì)效益與經(jīng)濟(jì)效益。目前,我們服務(wù)的客戶以成都為中心已經(jīng)輻射到肥東省份的部分城市,未來(lái)相信會(huì)繼續(xù)擴(kuò)大服務(wù)區(qū)域并繼續(xù)獲得客戶的支持與信任!#!/usr/bin/env/python |
---|
prent ("Hello,World!") |
#!/usr/bin/python 是告訴操作系統(tǒng)執(zhí)行這個(gè)腳本的時(shí)候,調(diào)用 /usr/bin 下的 python 解釋器。這種用法是為了防止操作系統(tǒng)用戶沒(méi)有將 python 裝在默認(rèn)的 /usr/bin 路徑里。當(dāng)系統(tǒng)看到這一行的時(shí)候,首先會(huì)到 env 設(shè)置里查找 python 的安裝路徑,再調(diào)用對(duì)應(yīng)路徑下的解釋器程序完成操作。
requests:是一個(gè)常用的用于http請(qǐng)求的模塊,它使用python語(yǔ)言編寫(xiě),
可以方便的對(duì)網(wǎng)頁(yè)進(jìn)行爬取,是學(xué)習(xí)python爬蟲(chóng)的較好的http
請(qǐng)求模塊。
BeautifulSoup:是編寫(xiě) python 爬蟲(chóng)常用庫(kù)之一,主要用來(lái)解析 html
標(biāo)簽
import josn: 是一種輕量級(jí)的數(shù)據(jù)交換格式,易于人閱讀和編寫(xiě)。
xwlt: 這是一個(gè)開(kāi)發(fā)人員用來(lái)生成與微軟Excel版本95到2003兼容的電子表格
文件的庫(kù)。
mongo: 非關(guān)系型數(shù)據(jù)庫(kù)
鏈接數(shù)據(jù)庫(kù):
./mongod *&
./mongo
pymongo
import os: OS: 模塊簡(jiǎn)單的來(lái)說(shuō)它是一個(gè)Python的系統(tǒng)編程的操作模塊,
可以處理文件和目錄這些我們?nèi)粘J謩?dòng)需要做的操作。
import sys: sys模塊包含了與Python解釋器和它的環(huán)境有關(guān)的函數(shù)。
from pc1 import*: 導(dǎo)入模塊,每次使用模塊中的函數(shù),直接使用函數(shù)就
可以了。注:因?yàn)橐呀?jīng)知道該函數(shù)是那個(gè)模塊中的了。
1. 訪問(wèn)網(wǎng)站,拿到html網(wǎng)頁(yè)
2. 提取html中我們 想要的內(nèi)容
3. 把我們 爬到的內(nèi)容 存到 數(shù)據(jù)庫(kù)
下面要從網(wǎng)頁(yè)上爬下照片到我們的數(shù)據(jù)庫(kù)中!
#!/usr/bin/env python
#encoding=utf-8
用來(lái)說(shuō)明你的Python源程序文件用使用的編碼。缺省情況下你的程序需要使用ascii碼來(lái)寫(xiě),但如果在其中寫(xiě)中文的話,python解釋器一般會(huì)報(bào)錯(cuò),但如果加上你所用的文件編碼,python就會(huì)自動(dòng)處理不再報(bào)錯(cuò)。
import requests
from bs4 import BeautifulSoup
import os
url = 'http://www.stallman.org/photos/rms-working/pages/{}.html'
導(dǎo)入我們需要的模塊及網(wǎng)站!
def spider(url):
list_n = range(1,149)
base_url = 'http://www.stallman.org/photos/rms-working/'
<base> 標(biāo)簽為頁(yè)面上的所有鏈接規(guī)定默認(rèn)地址或默認(rèn)目標(biāo)。
通常情況下,瀏覽器會(huì)從當(dāng)前文檔的 URL 中提取相應(yīng)的元素來(lái)填寫(xiě)相對(duì) URL 中的空白。
使用<base>標(biāo)簽可以改變這一點(diǎn)。瀏覽器隨后將不再使用當(dāng)前文檔的 URL,而使用指定的基本 URL 來(lái)解析所有的相對(duì) URL。這其中包括 <a>、<img>、<link>、<form> 標(biāo)簽中的 URL。
for i in list_n:
print i
url_req = url.format(str(i))
print url
建立一個(gè)循環(huán),將我們要訪問(wèn)的網(wǎng)站頁(yè)數(shù)作為變量(i),帶入到我們的網(wǎng)站中
res = requests.get(url_req,timeout=5)
html = res.content
soup = BeautifulSoup(html, 'html.parser')
img = soup.find('img')
src = img.get('src')
訪問(wèn)網(wǎng)站, timeout=5 ,5S后沒(méi)有反應(yīng)是終止;
將網(wǎng)站內(nèi)容帶入到html中;
將html中的內(nèi)容用bs4中的BeautifulSoupbianyi編譯成超鏈接文本,方便我們查找需要的內(nèi)容。(也可以不進(jìn)行編譯,不過(guò)接下來(lái)我們只能用正則表達(dá)式的方式查找。及其麻煩)并且?guī)氲絪oup中;
在我們剛才得到的soup中查找圖片鏈接(imp);
將找到的圖片寫(xiě)入src中。
url_image = base_url + src.split('../')[1]
os.system('wget %s' % url_image)
將我們得到的src和之前輸入的網(wǎng)址連接,就得到我們要爬的內(nèi)容了(../ :返回上級(jí),也就是url中../rms-working/一級(jí));
然后我們就可以用os命令下載了!
奈斯?。。。。。。?!
另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)cdcxhl.cn,海內(nèi)外云服務(wù)器15元起步,三天無(wú)理由+7*72小時(shí)售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國(guó)服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡(jiǎn)單易用、服務(wù)可用性高、性價(jià)比高”等特點(diǎn)與優(yōu)勢(shì),專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場(chǎng)景需求。
標(biāo)題名稱:爬蟲(chóng)簡(jiǎn)單總結(jié)!-創(chuàng)新互聯(lián)
分享網(wǎng)址:http://muchs.cn/article22/ceejjc.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供域名注冊(cè)、標(biāo)簽優(yōu)化、網(wǎng)站內(nèi)鏈、云服務(wù)器、面包屑導(dǎo)航、網(wǎng)站營(yíng)銷
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容