網(wǎng)絡(luò)爬蟲工作原理

2016-10-30 分類：網(wǎng)站建設(shè)

1、聚焦爬蟲工作原理及關(guān)鍵技術(shù)概述

網(wǎng)絡(luò)爬蟲是一個(gè)自動提取網(wǎng)頁的程序，它為搜索引擎從Internet網(wǎng)上下載網(wǎng)頁，是搜索引擎的重要組成。傳統(tǒng)爬蟲從一個(gè)或若干初始網(wǎng)頁的URL開始，獲得初始網(wǎng)頁上的URL，在抓取網(wǎng)頁的過程中，不斷從當(dāng)前頁面上抽取新的URL放入隊(duì)列，直到滿足系統(tǒng)的一定停止條件。聚焦爬蟲的工作流程較為復(fù)雜，需要根據(jù)一定的網(wǎng)頁分析算法過濾與主題無關(guān)的鏈接，保留有用的鏈接并將其放入等待抓取的URL隊(duì)列。然后，它將根據(jù)一定的搜索策略從隊(duì)列中選擇下一步要抓取的網(wǎng)頁URL，并重復(fù)上述過程，直到達(dá)到系統(tǒng)的某一條件時(shí)停止，另外，所有被爬蟲抓取的網(wǎng)頁將會被系統(tǒng)存貯，進(jìn)行一定的分析、過濾，并建立索引，以便之后的查詢和檢索；對于聚焦爬蟲來說，這一過程所得到的分析結(jié)果還可能對以后的抓取過程給出反饋和指導(dǎo)。

相對于通用網(wǎng)絡(luò)爬蟲，聚焦爬蟲還需要解決三個(gè)主要問題：

對抓取目標(biāo)的描述或定義；

對網(wǎng)頁或數(shù)據(jù)的分析與過濾；

對URL的搜索策略。

抓取目標(biāo)的描述和定義是決定網(wǎng)頁分析算法與URL搜索策略如何制訂的基礎(chǔ)。而網(wǎng)頁分析算法和候選URL排序算法是決定搜索引擎所提供的服務(wù)形式和爬蟲網(wǎng)頁抓取行為的關(guān)鍵所在。這兩個(gè)部分的算法又是緊密相關(guān)的。

網(wǎng)頁名稱：網(wǎng)絡(luò)爬蟲工作原理
網(wǎng)頁地址：http://www.muchs.cn/news/57128.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供Google、網(wǎng)站策劃、動態(tài)網(wǎng)站、手機(jī)網(wǎng)站建設(shè)、定制開發(fā)、軟件開發(fā)

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請盡快告知，我們將會在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

刷百度指數(shù)原理 2016-10-30
seo優(yōu)化要注意的幾點(diǎn)事項(xiàng) 2016-11-01
seo優(yōu)化之文章內(nèi)容怎樣提升 2016-11-01
如何更新網(wǎng)站內(nèi)容，讓網(wǎng)站充分發(fā)揮更大使用價(jià)值 2016-10-30
網(wǎng)站流量減少的原因 2016-10-30
web標(biāo)準(zhǔn)做出來的網(wǎng)頁有哪些好處? 2016-10-30
優(yōu)秀網(wǎng)站的建設(shè)標(biāo)準(zhǔn)有哪些? 2016-10-30