搜索引擎工作原理

2023-01-22 分類：網(wǎng)站建設(shè)

企業(yè)在實(shí)施搜索引擎策略過程中，需要依據(jù)搜索引擎的檢索原理與排名規(guī)則，有針對(duì)性地做一下SEO網(wǎng)站優(yōu)化，最終實(shí)現(xiàn)檢索結(jié)果排位靠前、吸引用戶點(diǎn)擊網(wǎng)站等各項(xiàng)任務(wù)目標(biāo)。因此，了解目前主流搜索引擎的工作原理，是企業(yè)開展改進(jìn)搜索引擎策略的重要基礎(chǔ)，具有極其重要的實(shí)踐指導(dǎo)意義。
什么是搜索引擎
搜索引擎(Search Engines)是一個(gè)對(duì)互聯(lián)網(wǎng)上的信息資源進(jìn)行搜集整理，然后供用戶查詢的系統(tǒng)，它包括信息搜集、信息整理和用戶查詢3部分。搜索引擎的主要任務(wù)是搜索其他網(wǎng)站上的信息，并將這些信息進(jìn)行分類并建立索引，然后把索引的內(nèi)容放到數(shù)據(jù)庫(kù)中，當(dāng)用戶向搜索引擎提交搜索請(qǐng)求的時(shí)候，搜索引擎會(huì)從數(shù)據(jù)庫(kù)中找出匹配的資料反饋給用戶，用戶再根據(jù)這些信息訪問相應(yīng)的網(wǎng)站，從而找到自己需要的資料。
搜索引擎分類
按照數(shù)據(jù)收集方式的不同，搜索引擎主要分為3類:分別是目錄索引搜索引擎、全文檢索搜索引擎與元搜索引擎。
1.目錄索引搜索引擎
目錄索引搜索引擎(Search Index/ Directory)中的數(shù)據(jù)是各個(gè)網(wǎng)站自己提交的，它就像一個(gè)電話號(hào)碼簿一樣，按照各個(gè)網(wǎng)站的性質(zhì)，把其網(wǎng)址分門別類排在一起，大類下面套著小類，一直到各個(gè)網(wǎng)站的詳細(xì)地址，一般還會(huì)提供各個(gè)網(wǎng)站的內(nèi)容簡(jiǎn)介。用戶不使用關(guān)鍵字也可進(jìn)行查詢，只要找到相關(guān)目錄，就完全可以找到相關(guān)的網(wǎng)站(注意:是相關(guān)的網(wǎng)站，而不是這個(gè)網(wǎng)站上某個(gè)網(wǎng)頁(yè)的內(nèi)容)。這類搜索引擎往往也提供關(guān)鍵字查詢功能，但在查詢時(shí)，它只能夠按照網(wǎng)站的名稱、網(wǎng)址、簡(jiǎn)介等內(nèi)容進(jìn)行查詢，所以它的查詢結(jié)果也只是網(wǎng)站的URL地址，不能查到具體的頁(yè)面。由于這類搜索引擎的數(shù)據(jù)一般由網(wǎng)站提供，因此它的搜索結(jié)果并不完全準(zhǔn)確，并不是嚴(yán)格意義上的搜索引擎。
2.全文檢索搜索引擎
全文檢索搜索引擎(Full Text Search Engine)這類搜索引擎通過一種稱為“蜘蛛”的程序自動(dòng)在網(wǎng)絡(luò)上提取各個(gè)網(wǎng)站的信息來建立自己的數(shù)據(jù)庫(kù)，并向用戶提供查詢服務(wù)，是一種真正意義上的搜索引擎。如AlaVista, Google, Excite, Hothot, Lycos等。
全文檢索搜索引擎數(shù)據(jù)庫(kù)中的數(shù)據(jù)來源分兩種:一是定期搜索，也就是每隔一段時(shí)間搜索引擎就主動(dòng)派出“蜘蛛”程序，對(duì)一定IP地址范圍內(nèi)的互聯(lián)網(wǎng)站進(jìn)行檢索，一旦發(fā)現(xiàn)新的網(wǎng)站，就會(huì)自動(dòng)提取網(wǎng)站的信息和網(wǎng)址加入自己的數(shù)據(jù)庫(kù)。二是網(wǎng)站提交的信息，即網(wǎng)站所有者主動(dòng)向搜索引擎提交地址，搜索引擎會(huì)在一定時(shí)間內(nèi)派出“蜘蛛”程序搜索所提交的網(wǎng)站的相關(guān)信息，并存人自己的數(shù)據(jù)庫(kù)中?？偟恼f來，這些數(shù)據(jù)都是“蜘蛛”程序搜索到的網(wǎng)頁(yè)上的具體內(nèi)容，其搜索結(jié)果也能精確到具體網(wǎng)頁(yè)。
其實(shí)，如今的搜索引擎和目錄索引已經(jīng)開始相互融合，全文檢索搜索引擎也提供目錄索引服務(wù)。比如Yahoo這樣的目錄索引已經(jīng)在20世紀(jì)90年代后期開始與Google等搜索引擎合作，提供全文搜索服務(wù)。
3.元搜索引擎
元搜索引擎(META Search Engine)在接受用戶查詢請(qǐng)求時(shí)，同時(shí)在其他多個(gè)引擎上進(jìn)行搜索，并將結(jié)果返回給用戶。著名的元搜索引擎有InfoSpace, Dogpile, Vivisimo等(元搜索引擎列表)，中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索結(jié)果排列方面，有的直接按來源引擎排列搜索結(jié)果，如Dogpile，有的則按自定的規(guī)則將結(jié)果重新排列組合，如Vivisimo。
搜索引擎工作原理
從工作原理角度解釋，目前已有的全部搜索引擎并不是真正搜索互聯(lián)網(wǎng)，它們的搜索范圍實(shí)際上僅限于預(yù)先整理好的網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)。有資料顯示，即便是排名全球搜索引擎第一的Google可以檢索的網(wǎng)頁(yè)數(shù)量，也不超過全球互聯(lián)網(wǎng)上網(wǎng)頁(yè)總數(shù)的4喇。由此，可以提醒用戶在使用搜索引擎過程中注意兩個(gè)問題:第一。檢索的網(wǎng)頁(yè)范圍有限，通過搜索引擎沒有找到，并不代表互聯(lián)網(wǎng)上真的沒有;第二，企業(yè)網(wǎng)站制作并不必然會(huì)被搜索引擎收錄檢索。
1.全文檢索搜索引擎
真正意義上的搜索引擎，通常指的是收集了互聯(lián)網(wǎng)上幾千萬個(gè)到幾十億個(gè)網(wǎng)頁(yè)并對(duì)網(wǎng)頁(yè)中的每一個(gè)詞(即關(guān)鍵詞)進(jìn)行索引，建立索引數(shù)據(jù)庫(kù)的全文搜索引擎。當(dāng)用戶查找某個(gè)關(guān)鍵詞的時(shí)候，所有在頁(yè)面內(nèi)容中包含了該關(guān)鍵詞的網(wǎng)頁(yè)都將作為搜索結(jié)果被搜出來。在經(jīng)過復(fù)雜的算法進(jìn)行排序后，這些結(jié)果將按照與搜索關(guān)鍵同的相關(guān)度高低，依次排列。
現(xiàn)在的搜索引擎已普遍使用超鏈分析技術(shù)，除了分析索引網(wǎng)頁(yè)本身的內(nèi)容，還分析索引所有指向該網(wǎng)頁(yè)的鏈接的URL, AnchorText，甚至鏈接周圍的文字。所以，有時(shí)候，即使某個(gè)網(wǎng)頁(yè)A中并沒有某個(gè)同，如“網(wǎng)絡(luò)營(yíng)銷”，但如果有別的網(wǎng)頁(yè)B用鏈接“網(wǎng)絡(luò)營(yíng)銷”指向這個(gè)網(wǎng)頁(yè)A，那么用戶搜索“網(wǎng)絡(luò)營(yíng)銷”時(shí)也能找到網(wǎng)頁(yè)A。而且，如果有更多網(wǎng)頁(yè)(C,D,E,F……)用名為“網(wǎng)絡(luò)營(yíng)銷”的鏈接指向這個(gè)網(wǎng)頁(yè)A，或者給出這個(gè)鏈接的源網(wǎng)頁(yè)(B,C,D,E,F……)越優(yōu)秀，那么網(wǎng)頁(yè)A在用戶搜索“網(wǎng)絡(luò)營(yíng)銷”時(shí)也會(huì)被認(rèn)為更相關(guān)，排序也會(huì)越靠前。
全文檢索搜索引擎的工作原理分為3步:從互聯(lián)網(wǎng)上抓取網(wǎng)頁(yè);建立索引數(shù)據(jù)庫(kù);在索引數(shù)據(jù)庫(kù)中搜索排序。
(1)從互聯(lián)網(wǎng)上抓取網(wǎng)頁(yè)
利用能夠從互聯(lián)網(wǎng)上自動(dòng)收集網(wǎng)頁(yè)的Spider系統(tǒng)程序，自動(dòng)訪問互聯(lián)網(wǎng)，程序可以沿著任何網(wǎng)頁(yè)中的所有超鏈接爬到其他網(wǎng)頁(yè)并重復(fù)這過程，最終把爬過的所有網(wǎng)頁(yè)收集回來。
(2)建立索引數(shù)據(jù)庫(kù)
由分析索引系統(tǒng)程序?qū)κ占貋淼木W(wǎng)頁(yè)進(jìn)行分析，提取相關(guān)網(wǎng)頁(yè)信息(包括網(wǎng)頁(yè)所在URL、編碼類型、頁(yè)面內(nèi)容包含的關(guān)鍵詞、關(guān)鍵詞位置、生成時(shí)間、大小、與其他網(wǎng)頁(yè)的鏈接關(guān)系等)，根據(jù)一定的相關(guān)度算法進(jìn)行大量復(fù)雜計(jì)算，得到每一個(gè)網(wǎng)頁(yè)針對(duì)頁(yè)面內(nèi)容中及超鏈接中每一個(gè)關(guān)鍵同的相關(guān)度(或重要性)，然后用這些相關(guān)信息建立網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)。
(3)在索引數(shù)據(jù)庫(kù)中搜索排序
當(dāng)用戶輸人關(guān)鍵詞搜索后，由搜索系統(tǒng)程序從網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁(yè)。因?yàn)樗邢嚓P(guān)網(wǎng)頁(yè)針對(duì)該關(guān)鍵同的相關(guān)度早已算好，所以只需按照現(xiàn)成的相關(guān)度數(shù)值排序，相關(guān)度越高，排名越靠前。最后，由頁(yè)面生成系統(tǒng)將搜索結(jié)果的鏈接地址和頁(yè)面內(nèi)容摘要等內(nèi)容組織起來返回給用戶。
搜索引擎的Spider一般要定期重新訪問所有網(wǎng)頁(yè)(各搜索引擎的周期不同，可能是幾天、幾周或幾個(gè)月，也可能對(duì)不同重要性的網(wǎng)頁(yè)有不同的更新頻率)，更新網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)，以反映出網(wǎng)頁(yè)內(nèi)容的更新情況，增加新的網(wǎng)頁(yè)信息，去除死鏈接，并根據(jù)網(wǎng)頁(yè)內(nèi)容和鏈接關(guān)系的變化重新排序。這樣，網(wǎng)頁(yè)的具體內(nèi)容和變化情況就會(huì)反映到用戶查詢的結(jié)果中。
互聯(lián)網(wǎng)雖然只有一個(gè)，但各搜索引擎的能力和偏好不同，所以抓取的網(wǎng)頁(yè)各不相同，排序算法也各不相同。大型搜索引擎的數(shù)據(jù)庫(kù)存儲(chǔ)了互聯(lián)網(wǎng)上幾億個(gè)至幾十億個(gè)的網(wǎng)頁(yè)索引，數(shù)據(jù)量達(dá)到幾千兆甚至幾萬兆。但即使大的搜索引擎建立超過20億個(gè)網(wǎng)頁(yè)的索引數(shù)據(jù)庫(kù)，也只能占到互聯(lián)網(wǎng)上普通網(wǎng)頁(yè)的40%不到，不同搜索引擎之間的網(wǎng)頁(yè)數(shù)據(jù)重疊率一般在70%以下。使用不同搜索引擎的重要原因，就是因?yàn)樗鼈兡芊謩e搜索到不同的內(nèi)容。而互聯(lián)網(wǎng)上有更大量的內(nèi)容，是搜索引擎無法抓取索引的，也是無法用搜索引擎搜索到的。
2.目錄索引搜索引擎
目錄索引，顧名思義就是將網(wǎng)站分門別類地存放在相應(yīng)的目錄中，因此用戶在查詢信息時(shí)，可選擇關(guān)鍵詞搜索，也可按目錄索引逐層查找。如以關(guān)鍵詞搜索，返回的結(jié)果跟搜索引擎一樣，也是根據(jù)信息關(guān)聯(lián)程度排列網(wǎng)站，只不過其中人為因素要多一些。如果按分層目錄查找，某一目錄中網(wǎng)站的排名則是由標(biāo)題字母的先后順序決定(也有例外)。
與全文搜索引擎相比，目錄索引搜索引擎的工作原理有以下不同之處:
首先，搜索引擎屬于自動(dòng)網(wǎng)站檢索，而目錄索引則完全依賴手工操作。用戶提交網(wǎng)站后，目錄編輯人員會(huì)親自瀏覽你的網(wǎng)站，然后根據(jù)一套自定的評(píng)判標(biāo)準(zhǔn)甚至編輯人員的主觀印象，決定是否接納你的網(wǎng)站。
其次，搜索引擎收錄網(wǎng)站時(shí)，只要網(wǎng)站本身沒有違反有關(guān)的規(guī)則，一般都能登錄成功。而目錄索引對(duì)網(wǎng)站的要求則高得多，有時(shí)即使登錄多次也不一定成功。尤其像Yahoo這樣的超級(jí)索引，登錄更是困難。
再次，在登錄搜索引擎時(shí)，一般不用考慮網(wǎng)站的分類問題，而登錄目錄索引時(shí)則必須將網(wǎng)站放在一個(gè)最合適的目錄(Directory)。
最后，搜索引擎中各網(wǎng)站的有關(guān)信息都是從用戶網(wǎng)頁(yè)中自動(dòng)提取的，所以從用戶的角度看，擁有更多的自主權(quán);而目錄索引則要求必須手工另外填寫網(wǎng)站信息，而且還有各種各樣的限制。更有甚者，如果工作人員認(rèn)為你提交網(wǎng)站的目錄、網(wǎng)站信息不合適，他可以隨時(shí)對(duì)其進(jìn)行調(diào)整，當(dāng)然事先是不會(huì)和你商量的。
目前，搜索引擎與目錄索引有相互融合滲透的趨勢(shì)。原來一些純粹的全文搜索引擎現(xiàn)在也提供目錄搜索，如Google就借用Open Directory目錄提供分類查詢。而像Yahoo這些老牌目錄索引則通過與Google等搜索引擎合作擴(kuò)大搜索范圍。在默認(rèn)搜索模式下，一些目錄類搜索引擎首先返回的是自己目錄中匹配的網(wǎng)站，如國(guó)內(nèi)搜狐、新浪、網(wǎng)易等;而另外一些則默認(rèn)的是網(wǎng)頁(yè)搜索，如Yahoo。
本發(fā)布于UEO營(yíng)銷型網(wǎng)站建設(shè)公司創(chuàng)新互聯(lián)http://www.muchs.cn/

網(wǎng)站題目：搜索引擎工作原理
文章URL：http://www.muchs.cn/news33/231533.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供靜態(tài)網(wǎng)站、商城網(wǎng)站、App設(shè)計(jì)、網(wǎng)站設(shè)計(jì)公司、App開發(fā)、全網(wǎng)營(yíng)銷推廣

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請(qǐng)盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如需處理請(qǐng)聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容