爬蟲如何部署代理ip

這篇文章主要為大家展示了“爬蟲如何部署代理ip”,內(nèi)容簡而易懂,條理清晰,希望能夠幫助大家解決疑惑,下面讓小編帶領大家一起研究并學習一下“爬蟲如何部署代理ip”這篇文章吧。

創(chuàng)新互聯(lián)致力于互聯(lián)網(wǎng)品牌建設與網(wǎng)絡營銷,包括網(wǎng)站設計、成都網(wǎng)站制作、SEO優(yōu)化、網(wǎng)絡推廣、整站優(yōu)化營銷策劃推廣、電子商務、移動互聯(lián)網(wǎng)營銷等。創(chuàng)新互聯(lián)為不同類型的客戶提供良好的互聯(lián)網(wǎng)應用定制及解決方案,創(chuàng)新互聯(lián)核心團隊十多年專注互聯(lián)網(wǎng)開發(fā),積累了豐富的網(wǎng)站經(jīng)驗,為廣大企業(yè)客戶提供一站式企業(yè)網(wǎng)站建設服務,在網(wǎng)站建設行業(yè)內(nèi)樹立了良好口碑。

爬蟲部署代理ip的方法:

1、利用IP代理池技術(shù),每次從IP代理池中隨機選擇一個IP代理來爬取數(shù)據(jù)。

import urllib.request
import random
#構(gòu)建IP代理池
ip_pool = [
    '58.221.55.58:808',
    '120.198.248.26:8088',
    '221.229.166.55:8080',
    '139.196.214.67:8080'
]
 
def ip(ip_pool, url):
    #從IP代理池中隨機選一個IP代理
    ip = random.choice(ip_pool)
    print(ip)
    #格式化IP代理格
    proxy = urllib.request.ProxyHandler({'http': ip})
    #裝入IP代理
    opener = urllib.request.build_opener(proxy, urllib.request.HTTPHandler)
    return urllib.request.urlopen(url).read().decode('utf-8', 'ignore')
    
data = ip(ip_pool, 'https://www.baidu.com/?tn=98010089_dg&ch=15')
print(data)

2、使用IP代理池和用戶代理的組合來增加訪問量,更安全。利用ip代理的動態(tài)ip構(gòu)建自己的代理ip池,可以保證ip的質(zhì)量。

因為ip代理的ip資源是獨立有效的。

import urllib.request
import random
import urllib.error
#自定義UA_IP類,用來隨機得到
def UA_IP(thisUrl):
    #構(gòu)建用戶代理池
    ua_pool = [
        'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.89 Safari/537.36',
        'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/13.0.782.41 Safari/535.1 QQBrowser/6.9.11079.201',
        'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.3; .NET4.0C; .NET4.0E)',
        'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:6.0) Gecko/20100101 Firefox/6.0'
 
    ]
 
    #構(gòu)建ip代理池
    ip_pool = [
        '139.196.196.74',
        '112.124.47.21',
        '61.129.70.109',
        '221.229.166.55'
    ]
 
    thisUA = random.choice(ua_pool) #從用戶代理池中隨機選擇一個用戶代理
    thisIP = random.choice(ip_pool) #從IP代理池中隨機選擇一個IP代理
    headers = ('User-Agent', thisUA)    #構(gòu)造報頭
    #將IP格式化
    proxy = urllib.request.ProxyHandler({'http': thisIP})
    #裝入IP代理
    opener = urllib.request.build_opener(proxy, urllib.request.HTTPHandler)
    #裝入代理
    opener.addheaders = [headers]
    #將opener設置為全局
    urllib.request.install_opener(opener)
    #從網(wǎng)頁爬取信息
    data = urllib.request.urlopen(thisUrl).read().decode('utf-8', 'gnore')
    return data
 
#網(wǎng)頁池,后面從網(wǎng)頁池中選擇一個進行該網(wǎng)頁信息的爬取
urls = [
    'https://mp.csdn.net/mdeditor/88323361#',
    'https://mp.csdn.net/mdeditor/88144295#',
    'https://mp.csdn.net/mdeditor/88144295#',
    'https://mp.csdn.net/mdeditor/88081609#'
]
 
#爬取1000次
for i in range(0, 1000):
    try:
        thisUrl = random.choice(urls)
        data = UA_IP(thisUrl)
        print(len(data))
    except urllib.error.HTTPError as e:
        if hasattr(e, 'code'):
            print(e.code)
        if hasattr(e, 'reason'):
            print(e.reason)

以上是“爬蟲如何部署代理ip”這篇文章的所有內(nèi)容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內(nèi)容對大家有所幫助,如果還想學習更多知識,歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道!

網(wǎng)頁標題:爬蟲如何部署代理ip
分享網(wǎng)址:http://muchs.cn/article2/geddic.html

成都網(wǎng)站建設公司_創(chuàng)新互聯(lián),為您提供App設計定制開發(fā)、網(wǎng)站改版、用戶體驗、軟件開發(fā)外貿(mào)網(wǎng)站建設

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

營銷型網(wǎng)站建設