java多線(xiàn)程爬蟲(chóng)爬取百度圖片的方法

小編給大家分享一下java多線(xiàn)程爬蟲(chóng)爬取百度圖片的方法,相信大部分人都還不怎么了解,因此分享這篇文章給大家參考一下,希望大家閱讀完這篇文章后大有收獲,下面讓我們一起去了解一下吧!

創(chuàng)新互聯(lián)建站是專(zhuān)業(yè)的象山網(wǎng)站建設(shè)公司,象山接單;提供網(wǎng)站設(shè)計(jì)、成都做網(wǎng)站,網(wǎng)頁(yè)設(shè)計(jì),網(wǎng)站設(shè)計(jì),建網(wǎng)站,PHP網(wǎng)站建設(shè)等專(zhuān)業(yè)做網(wǎng)站服務(wù);采用PHP框架,可快速的進(jìn)行象山網(wǎng)站開(kāi)發(fā)網(wǎng)頁(yè)制作和功能擴(kuò)展;專(zhuān)業(yè)做搜索引擎喜愛(ài)的網(wǎng)站,專(zhuān)業(yè)的做網(wǎng)站團(tuán)隊(duì),希望更多企業(yè)前來(lái)合作!

Java的特點(diǎn)有哪些

Java的特點(diǎn)有哪些 1.Java語(yǔ)言作為靜態(tài)面向?qū)ο缶幊陶Z(yǔ)言的代表,實(shí)現(xiàn)了面向?qū)ο罄碚?,允許程序員以?xún)?yōu)雅的思維方式進(jìn)行復(fù)雜的編程。 2.Java具有簡(jiǎn)單性、面向?qū)ο蟆⒎植际?、安全性、平臺(tái)獨(dú)立與可移植性、動(dòng)態(tài)性等特點(diǎn)。 3.使用Java可以編寫(xiě)桌面應(yīng)用程序、Web應(yīng)用程序、分布式系統(tǒng)和嵌入式系統(tǒng)應(yīng)用程序等。

在網(wǎng)絡(luò)爬蟲(chóng)中,python爬蟲(chóng)和java爬蟲(chóng)都有多線(xiàn)程,python雖然代碼簡(jiǎn)單易操作,但是在多線(xiàn)程操作中,python 不及java。如果想要加快爬蟲(chóng)速度,可以采用java多線(xiàn)程網(wǎng)絡(luò)爬蟲(chóng)的方法。本文介紹java爬蟲(chóng)使用多線(xiàn)程的方法爬取百度圖片。

一、java多線(xiàn)程

線(xiàn)程是指一個(gè)任務(wù)從頭至尾的執(zhí)行流。

線(xiàn)程提供了運(yùn)行一個(gè)任務(wù)的機(jī)制。

對(duì)于Java而言,可以在一個(gè)程序中并發(fā)地啟動(dòng)多個(gè)線(xiàn)程。這些線(xiàn)程可以在多處理器系統(tǒng)上同時(shí)運(yùn)行。

二、使用java多線(xiàn)程網(wǎng)絡(luò)爬蟲(chóng):設(shè)計(jì)構(gòu)造器。

1、獲取想要的頁(yè)面

public class major {
public static void main(String[] args) {
int sum = 0;
List<String> urlMains = new ArrayList<>();
List<String> imageUrls = new ArrayList<>();
//首先得到10個(gè)頁(yè)面
urlMains = CreateUrl.CreateMainUrl();
out.println(urlMains.size());
for(String urlMain : urlMains) {
out.println(urlMain);
}

2、使用Jsoup和FastJson解析出所有的圖片源鏈接

imageUrls = CreateUrl.CreateImageUrl(urlMains);
for(String imageUrl : imageUrls) {
out.println(imageUrl);
}

3、創(chuàng)建出每個(gè)圖片所屬的文件夾,并對(duì)圖片源鏈接進(jìn)行下載(使用多線(xiàn)程進(jìn)行下載)創(chuàng)建進(jìn)程

ImageFile.createDir();
int average = imageUrls.size()/10;

for(int i = 0; i < 10; i++){
int begin = sum;
sum += average;
int last = sum;
Thread image = null;
if(i < 9) {
image = new Thread(new ImageFile(begin, last,
(ArrayList<String>) imageUrls));
} else {
image = new Thread(new ImageFile(begin, imageUrls.size(),
(ArrayList<String>) imageUrls));
}
image.start();
}
}
}

以上是“java多線(xiàn)程爬蟲(chóng)爬取百度圖片的方法”這篇文章的所有內(nèi)容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內(nèi)容對(duì)大家有所幫助,如果還想學(xué)習(xí)更多知識(shí),歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道!

名稱(chēng)欄目:java多線(xiàn)程爬蟲(chóng)爬取百度圖片的方法
文章分享:http://muchs.cn/article36/jsogpg.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供面包屑導(dǎo)航、標(biāo)簽優(yōu)化、商城網(wǎng)站、云服務(wù)器、Google、外貿(mào)建站

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶(hù)投稿、用戶(hù)轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話(huà):028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

外貿(mào)網(wǎng)站建設(shè)