詳解百度排名過(guò)程中搜索引擎對(duì)頁(yè)面的預(yù)處理過(guò)程

2014-01-16    分類: 網(wǎng)站建設(shè)

搜索引擎蜘蛛抓取的原始頁(yè)面,并不能直接用于查詢排名處理。搜索引擎數(shù)據(jù)庫(kù)中的頁(yè)面數(shù)量都在萬(wàn)億級(jí),用戶輸入搜索詞后,如果靠排名程序?qū)崟r(shí)對(duì)這些頁(yè)面進(jìn)行相關(guān)性分析,則計(jì)算量太大,不可能在一兩秒內(nèi)返回排名結(jié)果。因此,必須對(duì)抓取的頁(yè)面進(jìn)行預(yù)處理,也稱為“索引”。下面,小編將詳細(xì)為大家介紹百度排名中這些預(yù)處理都有哪些步驟:

百度排名過(guò)程

A.提取文字

現(xiàn)在的搜索引擎還是以文字內(nèi)容為基礎(chǔ)。在蜘蛛程序抓取的頁(yè)面HTML代碼中,除了用戶在瀏覽器上可以看到的文字外,還包含大量的HTML格式標(biāo)簽、JavaScript程序等無(wú)法用于排名的內(nèi)容。搜索引擎預(yù)處理首先要做的就是從HTML文件中去除標(biāo)簽、程序,提取可以用于排名處理的網(wǎng)頁(yè)文字內(nèi)容。

B.中文分詞

中文分詞是中文搜索引擎特有的步驟。在中文語(yǔ)句中,詞與詞之間沒(méi)有任何分隔符,一個(gè)句子中的所有字和詞都是連在一起的,所以搜索引擎首先必須分辨是哪幾個(gè)字組成了一個(gè)詞,以及哪些字本身就是一個(gè)詞。中文分詞方法有兩種,一種是基于詞典匹配,另一種是基于統(tǒng)計(jì)。

基于詞典匹配的方法是指將待分析的一段中文與一個(gè)事先準(zhǔn)備好的詞典中的詞條進(jìn)行匹配,在待分析中文字串中掃描到詞典中已有的詞條則匹配成功,或者說(shuō)切分出一個(gè)單詞?;诮y(tǒng)計(jì)的分詞方法是指分析大量文字樣本,統(tǒng)計(jì)出字與字相鄰的情況出現(xiàn)的概率,幾個(gè)字相鄰的情況出現(xiàn)得越多,它們就越可能是一個(gè)詞,基于統(tǒng)計(jì)的方法的優(yōu)勢(shì)是對(duì)新出現(xiàn)的詞反應(yīng)更快,也有利于消除歧義。在實(shí)際使用中,分詞系統(tǒng)是混合使用兩種方法的。搜索引擎對(duì)頁(yè)面的分詞取決于詞庫(kù)的規(guī)模、準(zhǔn)確性和分詞算法的好壞,而不取決于頁(yè)面本身,所以SEOer對(duì)分詞能做的工作很少。 SEOer唯一能做的是在頁(yè)面上用某種形式提示搜索引擎,某幾個(gè)字應(yīng)該被當(dāng)成一個(gè)詞處理,尤其是可能產(chǎn)生歧義的時(shí)候,如在頁(yè)面標(biāo)題、H標(biāo)簽及黑體中出現(xiàn)的關(guān)鍵詞。

C.去除停止詞

無(wú)論是英文還是中文,頁(yè)面內(nèi)容中都會(huì)有一些出現(xiàn)頻率很高卻對(duì)內(nèi)容沒(méi)有任何影響的詞。例如,“的”、“地”、“得”之類的助詞,“啊”、“哈”、“呀”之類的感嘆詞,“從而”、“以”、“卻”之類的副詞或介詞。英文中的常見停止詞有the、a、an、to、of等。這些詞被稱為停止詞,因?yàn)樗鼈儗?duì)頁(yè)面的主要意思沒(méi)有影響。搜索引擎在索引頁(yè)面之前會(huì)去掉這些停止詞,使索引數(shù)據(jù)的主題更為突出,減少無(wú)謂的計(jì)算量。

D.消除噪聲

噪聲并不是指網(wǎng)頁(yè)中嘈雜的聲音,而是指頁(yè)面上對(duì)頁(yè)面主題沒(méi)有貢獻(xiàn)的內(nèi)容,如版權(quán)聲明文字、導(dǎo)航條、廣告等,這些內(nèi)容對(duì)頁(yè)面主題只會(huì)起到分散作用。因此搜索引擎需要識(shí)別并消除這些噪聲,在計(jì)算排名時(shí)避免使用噪聲內(nèi)容。消除噪聲的基本方法是根據(jù)HTML標(biāo)簽對(duì)頁(yè)面分塊,區(qū)分頁(yè)頭、導(dǎo)航條、正文、頁(yè)腳、廣告等區(qū)域。在網(wǎng)站中多次重復(fù)出現(xiàn)的區(qū)塊往往屬于噪聲。消除頁(yè)面噪聲后,剩下的才是頁(yè)面主體內(nèi)容。

E.去除重復(fù)內(nèi)容

同一篇文章經(jīng)常會(huì)重復(fù)出現(xiàn)在不同網(wǎng)站及同一網(wǎng)站的不同網(wǎng)址,搜索引擎并不喜歡這種重復(fù)的內(nèi)容。用戶搜索時(shí),如果在前兩頁(yè)看到的都是來(lái)自不同網(wǎng)站的同一篇文章,體驗(yàn)就比較差了。搜索引擎希望只返回相同文章中的一篇,所以在進(jìn)行索引前還需要識(shí)別和刪除重復(fù)內(nèi)容,這個(gè)過(guò)程就稱為“去重”。

了解了搜索引擎的去重算法之后, SEOer就應(yīng)該知道,簡(jiǎn)單地增加“的”、“地”、“得”或者調(diào)換段落順序這種所謂“偽原創(chuàng)”行為逃不過(guò)搜索引擎的去重算法,因?yàn)檫@樣的操作無(wú)法改變文章的特征關(guān)鍵詞,而且搜索引擎的去重算法很可能不止用在頁(yè)面級(jí)別,而是進(jìn)行到段落級(jí)別,所以混合不同文章的內(nèi)容、交叉調(diào)換段落順序也不能使轉(zhuǎn)載和抄襲變成原創(chuàng)。

F.正向索引

經(jīng)過(guò)文字提取、分詞、消噪、去重后,搜索引擎得到的就是獨(dú)特的、能反映頁(yè)面主體內(nèi)容的、以詞為單位的內(nèi)容。接下來(lái)搜索引擎索引程序就可以提取關(guān)鍵詞,按照分詞程序劃分好的詞把頁(yè)面轉(zhuǎn)換為由關(guān)鍵詞組成的集合,同時(shí)記錄每一個(gè)關(guān)鍵詞在頁(yè)面上的出現(xiàn)頻率、出現(xiàn)次數(shù)、格式(如標(biāo)題標(biāo)簽、黑體、H標(biāo)簽、錨文字等)、位置(如頁(yè)面第1段文字等)。這樣,每一個(gè)頁(yè)面都可以記錄為一串關(guān)鍵詞的集合,其中每個(gè)關(guān)鍵詞的詞頻、格式、位置等權(quán)重信息也都記錄在案。

G.倒排索引

正向索引還不能直接用于排名。假設(shè)用戶搜索關(guān)鍵詞“2”,如果只存在正向索引,那么排名程序需要掃描所有索引庫(kù)中的文件,找出包含關(guān)鍵詞“2”的文件,再進(jìn)行相關(guān)性計(jì)算。這樣的計(jì)算量無(wú)法滿足實(shí)時(shí)返回排名結(jié)果的要求,因此需要搜索引擎將正向索引數(shù)據(jù)庫(kù)重新構(gòu)造成倒排索引,把文件到關(guān)鍵詞的映射轉(zhuǎn)換為關(guān)鍵詞到文件的映射。

H.鏈接關(guān)系計(jì)算

現(xiàn)在所有的主流搜索引擎排名因素中都包含網(wǎng)頁(yè)之間的鏈接流動(dòng)信息。搜索引擎在抓取頁(yè)面內(nèi)容后,必須事前計(jì)算頁(yè)面上有哪些鏈接指向哪些其他頁(yè)面,每個(gè)頁(yè)面有哪些導(dǎo)入鏈接,鏈接使用了哪些錨文字。這些復(fù)雜的鏈接指向關(guān)系形成了網(wǎng)站和頁(yè)面的鏈接權(quán)重。由于頁(yè)面和鏈接數(shù)量巨大,網(wǎng)上的鏈接關(guān)系又在隨時(shí)更新,因此鏈接關(guān)系及PR的計(jì)算要耗費(fèi)很長(zhǎng)時(shí)間。

I.特殊文件處理

除了HTML文件外,搜索引擎通常還能抓取和索引以文字為基礎(chǔ)的多種文件類型,如PDF、Word、WPS、XLS、PPT、TXT等。我們?cè)谒阉鹘Y(jié)果中也經(jīng)常會(huì)看到這些文件類型。但是,目前的搜索引擎還不能處理圖片、視頻、 Flash這類非文字內(nèi)容,也不能執(zhí)行腳本和程序。雖然搜索引擎在識(shí)別圖片及從Flash中提取文字內(nèi)容方面有些進(jìn)步,但距離直接讀取圖片、視頻、Flash內(nèi)容返回結(jié)果的目標(biāo)還差得很遠(yuǎn)。目前,搜索引擎對(duì)圖片、視頻內(nèi)容的排名還依據(jù)與之相關(guān)的文字內(nèi)容。

以上九點(diǎn)就是百度排名時(shí)搜索引擎蜘蛛抓取頁(yè)面后的預(yù)處理過(guò)程,本文主要內(nèi)容來(lái)源于網(wǎng)絡(luò),由小編整理發(fā)布,如有侵權(quán)請(qǐng)聯(lián)系本網(wǎng)站刪除,謝謝!

本文題目:詳解百度排名過(guò)程中搜索引擎對(duì)頁(yè)面的預(yù)處理過(guò)程
文章出自:http://www.muchs.cn/news/5553.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供虛擬主機(jī)網(wǎng)站導(dǎo)航、微信公眾號(hào)電子商務(wù)、網(wǎng)頁(yè)設(shè)計(jì)公司、外貿(mào)網(wǎng)站建設(shè)

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

h5響應(yīng)式網(wǎng)站建設(shè)