簡(jiǎn)述搜索引擎的工作原理

2022-06-08    分類: 網(wǎng)站建設(shè)

搜索引擎的基本工作原理包括如下三個(gè)過程:首先在互聯(lián)網(wǎng)中發(fā)現(xiàn)、搜集網(wǎng)頁信息;同時(shí)對(duì)信息進(jìn)行提取和組織建立索引庫(kù);再由檢索器根據(jù)用戶輸入的查詢關(guān)鍵字,在索引庫(kù)中快速檢出文檔,進(jìn)行文檔與查詢的相關(guān)度評(píng)價(jià),對(duì)將要輸出的結(jié)果進(jìn)行排序,并將查詢結(jié)果返回給用戶。 搜索引擎蜘蛛程序,其實(shí)就是搜索引擎的一個(gè)自動(dòng)應(yīng)用程序,它的作用是什么呢?其實(shí)很簡(jiǎn)單,就是在互聯(lián)網(wǎng)中瀏覽信息,然后把這些信息都抓取到搜索引擎的服務(wù)器上,然后建立索引庫(kù)等等,我們可以把搜索引擎蜘蛛當(dāng)做一個(gè)用戶,然后這個(gè)用戶來訪問我們的網(wǎng)站,然后在把我們網(wǎng)站的內(nèi)容保存到自己的電腦上!比較好理解。

1. 搜集信息:搜索引擎的信息搜集基本都是自動(dòng)的。搜索引擎利用稱為網(wǎng)絡(luò)蜘蛛的自動(dòng)搜索機(jī)器人程序來連上每一個(gè)網(wǎng)頁上的超連結(jié)。理論上,若網(wǎng)頁上有適當(dāng)?shù)某溄Y(jié),機(jī)器人便可以遍歷絕大部分網(wǎng)頁。

2. 整理信息:搜索引擎整理信息的過程稱為“建立索引”。搜索引擎不僅要保存搜集起來的信息,還要將它們按照一定的規(guī)則進(jìn)行編排。那么它每次找資料都得把整個(gè)資料庫(kù)完全翻查一遍,如此一來再快的計(jì)算機(jī)系統(tǒng)也沒有用。

3. 接受查詢:用戶向搜索引擎發(fā)出查詢,搜索引擎接受查詢并向用戶返回資料。搜索引擎每時(shí)每刻都要接到來自大量用戶的幾乎是同時(shí)發(fā)出的查詢,用戶便能到達(dá)含有自己所需資料的網(wǎng)頁。通常搜索引擎會(huì)在這些鏈接下提供一小段來自這些網(wǎng)頁的摘要信息以幫助用戶判斷此網(wǎng)頁是否含有自己需要的內(nèi)容。

通過指向該網(wǎng)頁的外鏈錨文本所傳遞的權(quán)重?cái)?shù)值,來為此網(wǎng)頁確定一個(gè)權(quán)重?cái)?shù)值,同時(shí)結(jié)合上述的“重要信息分析”,從而確立此網(wǎng)頁的關(guān)鍵詞集合p中每一個(gè)關(guān)鍵詞所具備的排名系數(shù)。

搜索引擎的工作分為四個(gè)步驟:
1. 爬行和抓取
搜索引擎派出一個(gè)能夠在網(wǎng)上發(fā)現(xiàn)新網(wǎng)頁并抓文件的程序,這個(gè)程序通常稱之為蜘蛛。搜索引擎從已知的數(shù)據(jù)庫(kù)出發(fā),這些新的網(wǎng)址會(huì)被存入數(shù)據(jù)庫(kù)等待抓取。所以跟蹤網(wǎng)頁鏈接是搜索引擎蜘蛛發(fā)現(xiàn)新網(wǎng)址的最基本的方法,所以反向鏈接成為搜索引擎優(yōu)化的最基本因素之一。搜索引擎抓取的頁面文件與用戶瀏覽器得到的完全一樣,抓取的文件存入數(shù)據(jù)庫(kù)。

2.索引
蜘蛛抓取的頁面文件分解、分析,并以巨大表格的形式存入數(shù)據(jù)庫(kù),這個(gè)過程即是索引(index).在索引數(shù)據(jù)庫(kù)中,網(wǎng)頁文字內(nèi)容,關(guān)鍵詞出現(xiàn)的位置、字體、顏色、加粗、斜體等相關(guān)信息都有相應(yīng)記錄。

3.搜索詞處理
用戶在搜索引擎界面輸入關(guān)鍵詞,單擊“搜索”按鈕后,搜索引擎程序即對(duì)搜索詞進(jìn)行處理,如中文特有的分詞處理,去除停止詞,判斷是否需要啟動(dòng)整合搜索,判斷是否有拼寫錯(cuò)誤或錯(cuò)別字等情況。搜索詞的處理必須十分快速。搜索引擎蜘蛛幾乎是24小時(shí)不休息的(在此為它感到悲劇,沒有假期。哈哈。)那么蜘蛛下載回來的網(wǎng)頁怎么辦呢?這就需要到了第二個(gè)系統(tǒng),也就是搜索引擎的分析系統(tǒng)。

4.排序
對(duì)搜索詞處理后,搜索引擎程序便開始工作,從索引數(shù)據(jù)庫(kù)中找出所有包含搜索詞的網(wǎng)頁,再好的搜索引擎也無法與人相比,這就是為什么網(wǎng)站要進(jìn)行搜索引擎優(yōu)化。沒有SEO的幫助,搜索引擎常常并不能正確的返回最相關(guān)、最權(quán)威、最有用的信息。

正如上文所說,用戶在查詢時(shí)所得到的查詢結(jié)果并非是及時(shí)的,而是在搜索引擎的緩存區(qū)已經(jīng)大體排好的,當(dāng)然搜索引擎不會(huì)未卜先知,那么這樣下來,搜索引擎就可以在用戶產(chǎn)生查詢行為之前,將詞庫(kù)中的每一個(gè)關(guān)鍵詞其對(duì)應(yīng)的URL排名先行計(jì)算好,這樣就大大節(jié)省了處理查詢的時(shí)間了。

搜索引擎直至現(xiàn)在,都是在不斷完善用戶體驗(yàn),爭(zhēng)取在用戶搜索查詢時(shí)輸出最匹配的結(jié)果,從而讓用戶依賴上搜索引擎,才能賺取更多的廣告費(fèi)用(例如百度推廣),舉個(gè)例子:CCTV頻道的用戶很多,但是從不跟看CCTV的用戶收錢,但能賺到很多的廣告費(fèi);在這里指的匹配不光是字符上的匹配,我們可以去百度搜索“PC”會(huì)看到“電腦”也是飄紅的。

分享文章:簡(jiǎn)述搜索引擎的工作原理
網(wǎng)頁網(wǎng)址:http://muchs.cn/news/165161.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供Google、自適應(yīng)網(wǎng)站、服務(wù)器托管ChatGPT、營(yíng)銷型網(wǎng)站建設(shè)、做網(wǎng)站

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)

網(wǎng)站優(yōu)化排名