python數(shù)據(jù)爬蟲有什么用-創(chuàng)新互聯(lián)

這篇文章主要介紹python數(shù)據(jù)爬蟲有什么用，文中介紹的非常詳細(xì)，具有一定的參考價(jià)值，感興趣的小伙伴們一定要看完！

專注于為中小企業(yè)提供網(wǎng)站制作、做網(wǎng)站服務(wù),電腦端+手機(jī)端+微信端的三站合一,更高效的管理,為中小企業(yè)光澤免費(fèi)做網(wǎng)站提供優(yōu)質(zhì)的服務(wù)。我們立足成都，凝聚了一批互聯(lián)網(wǎng)行業(yè)人才，有力地推動(dòng)了成百上千家企業(yè)的穩(wěn)健成長(zhǎng)，幫助中小企業(yè)通過網(wǎng)站建設(shè)實(shí)現(xiàn)規(guī)模擴(kuò)充和轉(zhuǎn)變。

一、爬蟲工作原理

獲取網(wǎng)頁——分析網(wǎng)頁源代碼——提取信息，便是爬蟲工作的三部曲。

二、爬蟲的基本流程：

用戶獲取網(wǎng)絡(luò)數(shù)據(jù)的方式：

方式1：瀏覽器提交請(qǐng)求--->下載網(wǎng)頁代碼--->解析成頁面。

方式2：模擬瀏覽器發(fā)送請(qǐng)求(獲取網(wǎng)頁代碼)->提取有用的數(shù)據(jù)->存放于數(shù)據(jù)庫或文件中。

包括以下內(nèi)容：

1、發(fā)起請(qǐng)求

2、獲取響應(yīng)內(nèi)容

3、解析內(nèi)容

4、保存數(shù)據(jù)

應(yīng)用場(chǎng)景

1、互聯(lián)網(wǎng)平臺(tái)，偏向銷售公司，客戶信息的爬取

2、資訊爬取并應(yīng)用到平臺(tái)業(yè)務(wù)中

3、競(jìng)品公司重要數(shù)據(jù)挖掘分析與應(yīng)用

實(shí)戰(zhàn)例子

項(xiàng)目原理：打開網(wǎng)址-獲取源碼-找到圖片-匹配下載

 
#coding=utf-8
 
'''
 
Created on 2017年1月28日
 
@author: gaojs
 
'''
 
import urllib,re,os
 
def getHtml():
 
page=urllib.urlopen('').read()#打開網(wǎng)址并且讀取
 
return page
 
x=0
 
def getimg(page):
 
imgre=re.compile(r' src="(.*?)" class=')
 
imglist=re.findall(imgre,page)
 
for imgurl in imglist:
 
# print imgurl
 
global x
 
if not os.path.exists('/Users/gaojs/Desktop/pic'):
 
print os.mkdir('/Users/gaojs/Desktop/pic/')
 
else:
 
urllib.urlretrieve(imgurl,'/Users/gaojs/Desktop/pic/'+'%s.jpg'%x)#下載圖片到指定位置
 
x+=1
 
print u'正在下載第%s張'%x
 
l=getHtml()
 
getimg(l)

以上是python數(shù)據(jù)爬蟲有什么用的所有內(nèi)容，感謝各位的閱讀！希望分享的內(nèi)容對(duì)大家有幫助，更多相關(guān)知識(shí)，歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道！

當(dāng)前文章：python數(shù)據(jù)爬蟲有什么用-創(chuàng)新互聯(lián)
網(wǎng)頁URL：http://www.muchs.cn/article2/sphic.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供網(wǎng)站排名、電子商務(wù)、企業(yè)網(wǎng)站制作、品牌網(wǎng)站設(shè)計(jì)、響應(yīng)式網(wǎng)站、服務(wù)器托管

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請(qǐng)盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如需處理請(qǐng)聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容