淺析搜索引擎的工作原理

2022-11-05 分類：網(wǎng)站建設(shè)

網(wǎng)站建設(shè)- 建站教程 - 網(wǎng)站優(yōu)化 - 淺析搜索引擎的工作原理

你對于搜素引擎到底了解了多少。對于本身搜索引擎排名的基本原理應(yīng)該清楚。地瓜也覺得現(xiàn)在做SEO的大蝦們越來越多，什么感想，什么方討論都是近乎雷同，很多時候我們自認(rèn)為自己是SEO，其實我們只是知道些簡單的方法與技巧，真正的原理，真正的是什么并沒有搞明白。因此，地瓜覺得自己也有必要多多學(xué)習(xí)與感悟SEO中基本其實也是核心的東西。
搜索引擎工作過程非常復(fù)雜，地瓜簡單分享搜索引擎是怎樣實現(xiàn)網(wǎng)頁排名的。正如ZAC書中所說的“這里介紹的內(nèi)容相對于真正的搜索引擎技術(shù)來說只是皮毛，不過對SEO人員已經(jīng)足夠用了?！彼阉饕娴墓ぷ鬟^程大體上可以分成三個階段。(1)爬行和抓取：搜索引擎蜘蛛通過跟蹤鏈接訪問網(wǎng)頁，獲得頁面HTML代碼存入數(shù)據(jù)庫。(2)預(yù)處理：索引程序?qū)ψト淼捻撁鏀?shù)據(jù)進(jìn)行文字提取、中文分詞、索引等處理，以備排名程序調(diào)用。(3)排名：用戶輸入關(guān)鍵詞后，排名程序調(diào)用索引庫數(shù)據(jù)，計算相關(guān)性，然后按一定格式生成搜索結(jié)果頁面。
而本文，地瓜分享的是搜索引擎工作原理的第三個步驟：步驟，方法，排名:經(jīng)過搜索引擎蜘蛛抓取頁面，索引程序計算得到倒排索引后，搜索引擎就準(zhǔn)備好可以隨時處理用戶搜索了。用戶在搜索框填入關(guān)鍵詞后，排名程序調(diào)用索引庫數(shù)據(jù)，計算排名顯示給用戶，排名過程是與用戶直接互動的。
1.搜索詞處理
搜索引擎接收到用戶輸入的搜索詞后，需要對搜索詞做一些處理，才能進(jìn)入排名過程。搜索詞處理包括如下幾方面。
(1)中文分詞。與頁面索引時一樣，搜索詞也必須進(jìn)行中文分詞，將查詢字符串轉(zhuǎn)換為以詞為基礎(chǔ)的關(guān)鍵詞組合。分詞原理與頁面分詞相.
(2)去停止詞。和索引時一樣，搜索引擎也需要把搜索詞中的停止詞去掉，大限度地提高排名相關(guān)性及效率。
(3)指令處理。查詢詞完成分詞后，搜索引擎的默認(rèn)處理方式是在關(guān)鍵詞雙頭螺柱聯(lián)合之間使用“與”邏輯。也就是說用戶搜索“*方法”時，程序分詞為“*”和“方法”兩個詞，搜索引擎排序時默認(rèn)認(rèn)為，用戶尋找的是既包含“*”，也包含“方法”的頁面。只包含“*”不包含“方法”，或者只包含“方法”不包含“*”的頁面，被認(rèn)為是不符合搜索條件的。當(dāng)然，這只是極為簡化的為了說明原理的說法，實際上我們還是會看到只包含一部分關(guān)鍵詞的搜索結(jié)果。另外用戶輸入的查詢詞還可能包含一些高級搜索指令，如加號、減號等，搜索引擎都需要做出識別和相應(yīng)處理。有關(guān)高級搜索指令，后面還有詳細(xì)說明。
(4)拼寫錯誤矯正。用戶如果輸入了明顯錯誤的字或英文單詞拼錯，搜索引擎會提示用戶正確的用字或拼法。
(5)整合搜索觸發(fā)。某些搜索詞會觸發(fā)整合搜索，比如明星姓名就經(jīng)常觸發(fā)圖片和視頻內(nèi)容，當(dāng)前的熱門話題又容易觸發(fā)資訊內(nèi)容。哪些詞觸發(fā)哪些整合搜索，也需要在搜索詞處理階段計算。
2.文件匹配
搜索詞經(jīng)過處理后，搜索引擎得到的是以詞為基礎(chǔ)的關(guān)鍵詞*。文件匹配階段就是找出含有所有關(guān)鍵詞的文件。在索引部分提到的倒排索引使得文件匹配能夠快速完成。
假設(shè)用戶搜索“關(guān)鍵詞2
關(guān)鍵詞7”，排名程序只要在倒排索引中找到“關(guān)鍵詞2”和“關(guān)鍵詞7”這兩個詞，就能找到分別含有這兩個詞的所有頁面。經(jīng)過簡單計算就能找出既包含“關(guān)鍵詞2”，也包含“關(guān)鍵詞7”的所有頁面：文件1和文件6。
3.初始子集的選擇
找到包含所有關(guān)鍵詞的匹配文件后，還不能進(jìn)行相關(guān)性計算，因為找到的文件經(jīng)常會有幾十萬幾百萬，甚至上千萬個。要對這么多文件實時進(jìn)行相關(guān)性計算，需要的時間還是比較長的。
實際上用戶并不需要知道所有匹配的幾十萬、幾百萬個頁面，絕大部分用戶只會查看前兩頁，也就是前20個結(jié)果。搜索引擎也并不需要計算這么多頁面的相關(guān)性，而只要計算重要的一部分頁面就可以了。常用搜索引擎的人都會注意到，搜索結(jié)果頁面通常多顯示100個。用戶點擊搜索結(jié)果頁面底部的“下一頁”鏈接，多也只能看到第100頁，也就是1000個搜索結(jié)果。搜索引擎只需要計算前1000個結(jié)果的相關(guān)性，就能滿足要求。
但問題在于，還沒有計算相關(guān)性時，搜索引擎又怎么知道哪一千個文件是相關(guān)的?所以用于后相關(guān)性計算的初始頁面子集的選擇，必須依靠其他特征而不是相關(guān)性，其中主要的就是頁面權(quán)重。由于所有匹配文件都已經(jīng)具備了基本的相關(guān)性(這些文件都包含所有查詢關(guān)鍵詞)，搜索引擎通常會用非相關(guān)性的頁面特征選出一個初始子集。初始子集的數(shù)目是多少?幾萬個?或許更多，外人并不知道。不過可以肯定的是，當(dāng)匹配頁面數(shù)目巨大時，搜索引擎不會對這么多頁面進(jìn)行計算，而必須選出頁面權(quán)重較高的一個子集，再對子集中的頁面進(jìn)行相關(guān)性計算。
4.相關(guān)性計算
選出初始子集后，對子集中的頁面計算關(guān)鍵詞相關(guān)性。計算相關(guān)性是排名過程中重要的一步。相關(guān)性計算是搜索引擎算法中令SEO感興趣的部分。
影響相關(guān)性的主要因素包括如下幾方面。
(1)關(guān)鍵詞常用程度。經(jīng)過分詞后的多個關(guān)鍵詞，對整個搜索字符串的意義貢獻(xiàn)并不相同。越常用的詞對搜索詞的意義貢獻(xiàn)越小，越不常用的詞對搜索詞的意義貢獻(xiàn)越大。舉個例子，假設(shè)用戶輸入的搜索詞是“我們冥王星”?！拔覀儭边@個詞常用程度非常高，在很多頁面上會出現(xiàn)，它對“我們冥王星”這個搜索詞的辨識程度和意義相關(guān)度貢獻(xiàn)就很小。找出那些包含“我們”這個詞的頁面，對搜索排名相關(guān)性幾乎沒有什么影響，有太多頁面包含“我們”這個詞。未來幾年，都不會有實質(zhì)性的改變。好了，以上是我的一些觀點，歡迎大家指正。

文章標(biāo)題：淺析搜索引擎的工作原理
網(wǎng)頁路徑：http://www.muchs.cn/news46/210846.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供網(wǎng)站設(shè)計、App設(shè)計、定制開發(fā)、動態(tài)網(wǎng)站、企業(yè)建站、搜索引擎優(yōu)化

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

如何用百度站長工具分析各種頁面收錄狀態(tài)？ 2022-11-05
網(wǎng)絡(luò)營銷方式有哪些？帶你速看五種網(wǎng)絡(luò)營銷方式 2022-11-05
H5制作哪家強？四大H5制作網(wǎng)站大PK 2022-11-05
影響網(wǎng)站創(chuàng)建質(zhì)量的因素有哪些 2022-11-05
網(wǎng)站優(yōu)化真正對象應(yīng)是網(wǎng)站而非搜索引擎 2022-11-05
網(wǎng)站的規(guī)劃與定位 2022-11-05
網(wǎng)絡(luò)推廣公司 2022-11-05