Python爬蟲(chóng)入門【9】:圖蟲(chóng)網(wǎng)多線程爬取-創(chuàng)新互聯(lián)

圖蟲(chóng)網(wǎng)-寫(xiě)在前面

經(jīng)歷了一頓噼里啪啦的操作之后,終于我把博客寫(xiě)到了第10篇,后面,慢慢的會(huì)涉及到更多的爬蟲(chóng)模塊,有人問(wèn)scrapy 啥時(shí)候開(kāi)始用,這個(gè)我預(yù)計(jì)要在30篇以后了吧,后面的套路依舊慢節(jié)奏的,所以莫著急了,100篇呢,預(yù)計(jì)4~5個(gè)月寫(xiě)完,常見(jiàn)的反反爬后面也會(huì)寫(xiě)的,還有fuck login類的內(nèi)容。

成都創(chuàng)新互聯(lián)自2013年創(chuàng)立以來(lái),先為鹿邑等服務(wù)建站,鹿邑等地企業(yè),進(jìn)行企業(yè)商務(wù)咨詢服務(wù)。為鹿邑企業(yè)網(wǎng)站制作PC+手機(jī)+微官網(wǎng)三網(wǎng)同步一站式服務(wù)解決您的所有建站問(wèn)題。

Python爬蟲(chóng)入門【9】:圖蟲(chóng)網(wǎng)多線程爬取

圖蟲(chóng)網(wǎng)-爬取圖蟲(chóng)網(wǎng)

為什么要爬取這個(gè)網(wǎng)站,不知道哎~ 莫名奇妙的收到了,感覺(jué)圖片質(zhì)量不錯(cuò),不是那些妖艷賤貨 可以比的,所以就開(kāi)始爬了,搜了一下網(wǎng)上有人也在爬,但是基本都是py2,py3的還沒(méi)有人寫(xiě),所以順手寫(xiě)一篇吧。

起始頁(yè)面

https://tuchong.com/explore/
這個(gè)頁(yè)面中有很多的標(biāo)簽,每個(gè)標(biāo)簽下面都有很多圖片,為了和諧,我選擇了一個(gè)非常好的標(biāo)簽花卉 你可以選擇其他的,甚至,你可以把所有的都爬取下來(lái)。

https://tuchong.com/tags/%E8%8A%B1%E5%8D%89/  # 花卉編碼成了  %E8%8A%B1%E5%8D%89  這個(gè)無(wú)所謂

我們這次也玩點(diǎn)以前沒(méi)寫(xiě)過(guò)的,使用python中的queue,也就是隊(duì)列

下面是我從別人那順來(lái)的一些解釋,基本爬蟲(chóng)初期也就用到這么多

1. 初始化: class Queue.Queue(maxsize) FIFO 先進(jìn)先出

2\. 包中的常用方法:

    - queue.qsize() 返回隊(duì)列的大小
    - queue.empty() 如果隊(duì)列為空,返回True,反之False
    - queue.full() 如果隊(duì)列滿了,返回True,反之False
    - queue.full 與 maxsize 大小對(duì)應(yīng)
    - queue.get([block[, timeout]])獲取隊(duì)列,timeout等待時(shí)間

3. 創(chuàng)建一個(gè)“隊(duì)列”對(duì)象
    import queue
    myqueue = queue.Queue(maxsize = 10)

4. 將一個(gè)值放入隊(duì)列中
    myqueue.put(10)

5. 將一個(gè)值從隊(duì)列中取出
    myqueue.get()

開(kāi)始編碼

首先我們先實(shí)現(xiàn)主要方法的框架,我依舊是把一些核心的點(diǎn),都寫(xiě)在注釋上面

def main():
    # 聲明一個(gè)隊(duì)列,使用循環(huán)在里面存入100個(gè)頁(yè)碼
    page_queue  = Queue(100)
    for i in range(1,101):
        page_queue.put(i)

    # 采集結(jié)果(等待下載的圖片地址)
    data_queue = Queue()

    # 記錄線程的列表
    thread_crawl = []
    # 每次開(kāi)啟4個(gè)線程
    craw_list = ['采集線程1號(hào)','采集線程2號(hào)','采集線程3號(hào)','采集線程4號(hào)']
    for thread_name in craw_list:
        c_thread = ThreadCrawl(thread_name, page_queue, data_queue)
        c_thread.start()
        thread_crawl.append(c_thread)

    # 等待page_queue隊(duì)列為空,也就是等待之前的操作執(zhí)行完畢
    while not page_queue.empty():
        pass

if __name__ == '__main__':
    main()
Python資源分享qun 784758214 ,內(nèi)有安裝包,PDF,學(xué)習(xí)視頻,這里是Python學(xué)習(xí)者的聚集地,零基礎(chǔ),進(jìn)階,都?xì)g迎

代碼運(yùn)行之后,成功啟動(dòng)了4個(gè)線程,然后等待線程結(jié)束,這個(gè)地方注意,你需要把 ThreadCrawl 類補(bǔ)充完整

class ThreadCrawl(threading.Thread):

    def __init__(self, thread_name, page_queue, data_queue):
        # threading.Thread.__init__(self)
        # 調(diào)用父類初始化方法
        super(ThreadCrawl, self).__init__()
        self.threadName = thread_name
        self.page_queue = page_queue
        self.data_queue = data_queue

    def run(self):
        print(self.threadName + ' 啟動(dòng)************')

運(yùn)行結(jié)果

Python爬蟲(chóng)入門【9】:圖蟲(chóng)網(wǎng)多線程爬取

線程已經(jīng)開(kāi)啟,在run方法中,補(bǔ)充爬取數(shù)據(jù)的代碼就好了,這個(gè)地方引入一個(gè)全局變量,用來(lái)標(biāo)識(shí)爬取狀態(tài)
CRAWL_EXIT = False

先在main方法中加入如下代碼

CRAWL_EXIT = False  # 這個(gè)變量聲明在這個(gè)位置
class ThreadCrawl(threading.Thread):

    def __init__(self, thread_name, page_queue, data_queue):
        # threading.Thread.__init__(self)
        # 調(diào)用父類初始化方法
        super(ThreadCrawl, self).__init__()
        self.threadName = thread_name
        self.page_queue = page_queue
        self.data_queue = data_queue

    def run(self):
        print(self.threadName + ' 啟動(dòng)************')
        while not CRAWL_EXIT:
            try:
                global tag, url, headers,img_format  # 把全局的值拿過(guò)來(lái)
                # 隊(duì)列為空 產(chǎn)生異常
                page = self.page_queue.get(block=False)   # 從里面獲取值
                spider_url = url_format.format(tag,page,100)   # 拼接要爬取的URL
                print(spider_url)
            except:
                break

            timeout = 4   # 合格地方是嘗試獲取3次,3次都失敗,就跳出
            while timeout > 0:
                timeout -= 1
                try:
                    with requests.Session() as s:
                        response = s.get(spider_url, headers=headers, timeout=3)
                        json_data = response.json()
                        if json_data is not None:
                            imgs = json_data["postList"]
                            for i in imgs:
                                imgs = i["images"]
                                for img in imgs:
                                    img = img_format.format(img["user_id"],img["img_id"])
                                    self.data_queue.put(img)  # 捕獲到圖片鏈接,之后,存入一個(gè)新的隊(duì)列里面,等待下一步的操作

                    break

                except Exception as e:
                    print(e)

            if timeout <= 0:
                print('time out!')
def main():
    # 代碼在上面

    # 等待page_queue隊(duì)列為空,也就是等待之前的操作執(zhí)行完畢
    while not page_queue.empty():
        pass

    # 如果page_queue為空,采集線程退出循環(huán)
    global CRAWL_EXIT
    CRAWL_EXIT = True

    # 測(cè)試一下隊(duì)列里面是否有值
    print(data_queue)

經(jīng)過(guò)測(cè)試,data_queue 里面有數(shù)據(jù)啦??!,哈哈,下面在使用相同的操作,去下載圖片就好嘍

Python爬蟲(chóng)入門【9】:圖蟲(chóng)網(wǎng)多線程爬取

完善main方法

def main():
    # 代碼在上面

    for thread in thread_crawl:
        thread.join()
        print("抓取線程結(jié)束")

    thread_image = []
    image_list = ['下載線程1號(hào)', '下載線程2號(hào)', '下載線程3號(hào)', '下載線程4號(hào)']
    for thread_name in image_list:
        Ithread = ThreadDown(thread_name, data_queue)
        Ithread.start()
        thread_image.append(Ithread)

    while not data_queue.empty():
        pass

    global DOWN_EXIT
    DOWN_EXIT = True

    for thread in thread_image:
        thread.join()
        print("下載線程結(jié)束")

還是補(bǔ)充一個(gè) ThreadDown 類,這個(gè)類就是用來(lái)下載圖片的。


class ThreadDown(threading.Thread):
    def __init__(self, thread_name, data_queue):
        super(ThreadDown, self).__init__()
        self.thread_name = thread_name
        self.data_queue = data_queue

    def run(self):
        print(self.thread_name + ' 啟動(dòng)************')
        while not DOWN_EXIT:
            try:
                img_link = self.data_queue.get(block=False)
                self.write_image(img_link)
            except Exception as e:
                pass

    def write_image(self, url):

        with requests.Session() as s:
            response = s.get(url, timeout=3)
            img = response.content   # 獲取二進(jìn)制流

        try:
            file = open('image/' + str(time.time())+'.jpg', 'wb')
            file.write(img)
            file.close()
            print('image/' + str(time.time())+'.jpg 圖片下載完畢')

        except Exception as e:
            print(e)
            return
Python資源分享qun 784758214 ,內(nèi)有安裝包,PDF,學(xué)習(xí)視頻,這里是Python學(xué)習(xí)者的聚集地,零基礎(chǔ),進(jìn)階,都?xì)g迎

運(yùn)行之后,等待圖片下載就可以啦~~

Python爬蟲(chóng)入門【9】:圖蟲(chóng)網(wǎng)多線程爬取

關(guān)鍵注釋已經(jīng)添加到代碼里面了,收?qǐng)D吧 (????),這次代碼回頭在上傳到github上 因?yàn)楸容^簡(jiǎn)單

Python爬蟲(chóng)入門【9】:圖蟲(chóng)網(wǎng)多線程爬取

當(dāng)你把上面的花卉修改成比如xx啥的<sub>,就是天外飛仙了</sub>

另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)cdcxhl.cn,海內(nèi)外云服務(wù)器15元起步,三天無(wú)理由+7*72小時(shí)售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國(guó)服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡(jiǎn)單易用、服務(wù)可用性高、性價(jià)比高”等特點(diǎn)與優(yōu)勢(shì),專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場(chǎng)景需求。

文章名稱:Python爬蟲(chóng)入門【9】:圖蟲(chóng)網(wǎng)多線程爬取-創(chuàng)新互聯(lián)
轉(zhuǎn)載來(lái)源:http://www.muchs.cn/article2/hgdoc.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供自適應(yīng)網(wǎng)站做網(wǎng)站、全網(wǎng)營(yíng)銷推廣外貿(mào)網(wǎng)站建設(shè)、網(wǎng)站改版、用戶體驗(yàn)

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

綿陽(yáng)服務(wù)器托管