這篇文章主要介紹使用sleep間隔進(jìn)行python反爬蟲的方法,文中介紹的非常詳細(xì),具有一定的參考價值,感興趣的小伙伴們一定要看完!
創(chuàng)新互聯(lián)公司專注為客戶提供全方位的互聯(lián)網(wǎng)綜合服務(wù),包含不限于成都網(wǎng)站制作、網(wǎng)站建設(shè)、蘄春網(wǎng)絡(luò)推廣、小程序開發(fā)、蘄春網(wǎng)絡(luò)營銷、蘄春企業(yè)策劃、蘄春品牌公關(guān)、搜索引擎seo、人物專訪、企業(yè)宣傳片、企業(yè)代運營等,從售前售中售后,我們都將竭誠為您服務(wù),您的肯定,是我們最大的嘉獎;創(chuàng)新互聯(lián)公司為所有大學(xué)生創(chuàng)業(yè)者提供蘄春建站搭建服務(wù),24小時服務(wù)熱線:028-86922220,官方網(wǎng)址:muchs.cn
步驟
要利用headers拉動請求,模擬成瀏覽器去訪問網(wǎng)站,跳過最簡單的反爬蟲機(jī)制。
獲取網(wǎng)頁內(nèi)容,保存在一個字符串content中。
構(gòu)造正則表達(dá)式,從content中匹配關(guān)鍵詞pattern獲取下載鏈接。需要注意的是,網(wǎng)頁中的關(guān)鍵詞出現(xiàn)了兩遍(如下圖),所以我們要利用set()函數(shù)清除重復(fù)元素。
第三步是遍歷set之后的結(jié)果,下載鏈接。
設(shè)置time.sleep(t),無sleep間隔的話,網(wǎng)站認(rèn)定這種行為是攻擊,所以我們隔一段時間下載一個,反反爬蟲。
具體代碼
import urllib.request# url request import re # regular expression import os # dirs import time ''' url 下載網(wǎng)址 pattern 正則化的匹配關(guān)鍵詞 Directory 下載目錄 ''' def BatchDownload(url,pattern,Directory): # 拉動請求,模擬成瀏覽器去訪問網(wǎng)站->跳過反爬蟲機(jī)制 headers = {'User-Agent', 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36'} opener = urllib.request.build_opener() opener.addheaders = [headers] # 獲取網(wǎng)頁內(nèi)容 content = opener.open(url).read().decode('utf8') # 構(gòu)造正則表達(dá)式,從content中匹配關(guān)鍵詞pattern raw_hrefs = re.findall(pattern, content, 0) # set函數(shù)消除重復(fù)元素 hset = set(raw_hrefs) # 下載鏈接 for href in hset: # 之所以if else 是為了區(qū)別只有一個鏈接的特別情況 if(len(hset)>1): link = url + href[0] filename = os.path.join(Directory, href[0]) print("正在下載",filename) urllib.request.urlretrieve(link, filename) print("成功下載!") else: link = url +href filename = os.path.join(Directory, href) print("正在下載",filename) urllib.request.urlretrieve(link, filename) print("成功下載!") # 無sleep間隔,網(wǎng)站認(rèn)定這種行為是攻擊,反反爬蟲 time.sleep(1) #BatchDownload('https://www1.ncdc.noaa.gov/pub/data/swdi/stormevents/csvfiles/', # '(Storm-Data-Export-Format.docx)', # 'E:\stormevents\csvfiles') #BatchDownload('https://www1.ncdc.noaa.gov/pub/data/swdi/stormevents/csvfiles/', # '(Storm-Data-Export-Format.pdf)', # 'E:\stormevents\csvfiles') #BatchDownload('https://www1.ncdc.noaa.gov/pub/data/swdi/stormevents/csvfiles/', # '(StormEvents_details-ftp_v1.0_d(\d*)_c(\d*).csv.gz)', # 'E:\stormevents\csvfiles') #BatchDownload('https://www1.ncdc.noaa.gov/pub/data/swdi/stormevents/csvfiles/', # '(StormEvents_fatalities-ftp_v1.0_d(\d*)_c(\d*).csv.gz)', # 'E:\stormevents\csvfiles') #BatchDownload('https://www1.ncdc.noaa.gov/pub/data/swdi/stormevents/csvfiles/', # '(StormEvents_locations-ftp_v1.0_d(\d*)_c(\d*).csv.gz)', # 'E:\stormevents\csvfiles') #BatchDownload('https://www1.ncdc.noaa.gov/pub/data/swdi/stormevents/csvfiles/legacy/', # '(ugc_areas.csv)', # 'E:\stormevents\csvfiles\legacy') #BatchDownload('https://www1.ncdc.noaa.gov/pub/data/swdi/stormevents/csvfiles/', # '(ugc_areas.csv)', # 'E:\stormevents\csvfiles')
結(jié)果展示
以上是“使用sleep間隔進(jìn)行python反爬蟲的方法”這篇文章的所有內(nèi)容,感謝各位的閱讀!希望分享的內(nèi)容對大家有幫助,更多相關(guān)知識,歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道!
當(dāng)前題目:使用sleep間隔進(jìn)行python反爬蟲的方法
路徑分享:http://muchs.cn/article26/ghpdcg.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供動態(tài)網(wǎng)站、網(wǎng)站內(nèi)鏈、面包屑導(dǎo)航、服務(wù)器托管、建站公司、ChatGPT
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)