java代碼抓數(shù)據(jù) 基于java的網(wǎng)絡(luò)抓包方法

怎樣用Java代碼抓取網(wǎng)頁中iframe中的數(shù)據(jù)

你是要抓網(wǎng)頁源代碼,還是瀏覽器渲染后的body;

創(chuàng)新互聯(lián)建站專注于良慶網(wǎng)站建設(shè)服務(wù)及定制,我們擁有豐富的企業(yè)做網(wǎng)站經(jīng)驗(yàn)。 熱誠為您提供良慶營銷型網(wǎng)站建設(shè),良慶網(wǎng)站制作、良慶網(wǎng)頁設(shè)計(jì)、良慶網(wǎng)站官網(wǎng)定制、微信小程序開發(fā)服務(wù),打造良慶網(wǎng)絡(luò)公司原創(chuàng)品牌,更為您提供良慶網(wǎng)站排名全網(wǎng)營銷落地服務(wù)。

如果是網(wǎng)頁源代碼,很簡單,用java自帶的http就好了;

如果是渲染后的body(包括js和ajax執(zhí)行后的頁面),需要調(diào)用無界面瀏覽器,然后通過api獲得返回的數(shù)據(jù)

用Java來實(shí)現(xiàn)抓取數(shù)據(jù)的問題

你可以利用jsoup來抓取HTML頁面的信息

Document doc = Jsoup.parse(input,"UTF-8","");

Elements links = doc.select("a[href]"); // 具有 href 屬性的鏈接

Elements pngs = doc.select("img[src$=.png]");// 所有引用 png 圖片的元素

Element masthead = doc.select("div.masthead").first();

// 找出定義了 class=masthead 的元素

Elements resultLinks = doc.select("h3.r a"); // direct a after h3

如何通過Java代碼實(shí)現(xiàn)對網(wǎng)頁數(shù)據(jù)進(jìn)行指定抓取

通過Java代碼實(shí)現(xiàn)對網(wǎng)頁數(shù)據(jù)進(jìn)行指定抓取方法思路如下:

在工程中導(dǎo)入Jsoup.jar包

獲取網(wǎng)址url指定HTML或者文檔指定的body

獲取網(wǎng)頁中超鏈接的標(biāo)題和鏈接

獲取指定博客文章的內(nèi)容

獲取網(wǎng)頁中超鏈接的標(biāo)題和鏈接的結(jié)果

java爬蟲抓取指定數(shù)據(jù)

根據(jù)java網(wǎng)絡(luò)編程相關(guān)的內(nèi)容,使用jdk提供的相關(guān)類可以得到url對應(yīng)網(wǎng)頁的html頁面代碼。

針對得到的html代碼,通過使用正則表達(dá)式即可得到我們想要的內(nèi)容。

比如,我們?nèi)绻氲玫揭粋€(gè)網(wǎng)頁上所有包括“java”關(guān)鍵字的文本內(nèi)容,就可以逐行對網(wǎng)頁代碼進(jìn)行正則表達(dá)式的匹配。最后達(dá)到去除html標(biāo)簽和不相關(guān)的內(nèi)容,只得到包括“java”這個(gè)關(guān)鍵字的內(nèi)容的效果。

從網(wǎng)頁上爬取圖片的流程和爬取內(nèi)容的流程基本相同,但是爬取圖片的步驟會(huì)多一步。

需要先用img標(biāo)簽的正則表達(dá)式匹配獲取到img標(biāo)簽,再用src屬性的正則表達(dá)式獲取這個(gè)img標(biāo)簽中的src屬性的圖片url,然后再通過緩沖輸入流對象讀取到這個(gè)圖片url的圖片信息,配合文件輸出流將讀到的圖片信息寫入到本地即可。

網(wǎng)站欄目:java代碼抓數(shù)據(jù) 基于java的網(wǎng)絡(luò)抓包方法
當(dāng)前地址:http://muchs.cn/article8/doeciip.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站維護(hù)營銷型網(wǎng)站建設(shè)、微信公眾號、網(wǎng)站設(shè)計(jì)公司、定制網(wǎng)站、動(dòng)態(tài)網(wǎng)站

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)

成都app開發(fā)公司