學(xué)seo從了解搜索引擎工作方式開始

2023-04-04    分類: 網(wǎng)站建設(shè)

一個(gè)好的seoer,那必需得清楚的知道搜索引擎是如何工作的?用戶在搜索一個(gè)關(guān)鍵詞的時(shí)候,搜索引擎都做了哪些工作?本文就此展開。

濟(jì)南網(wǎng)絡(luò)優(yōu)化公司本文將講解以下三個(gè)方面的內(nèi)容,帶你了解搜索引擎的工作方式:

抓取

索引

查詢

抓取

下面的這張圖,應(yīng)該用過搜索引擎的人都非常的熟悉。

我們重點(diǎn)關(guān)注的是紅框里面的玩意,我們可以看到,搜索“seo”的時(shí)候,百度為我們找到了四千多萬的結(jié)果。那么這些結(jié)果是怎么來的呢?

在您搜索之前,搜索引擎的抓取工具會(huì)從數(shù)千億個(gè)網(wǎng)頁中收集信息,然后在搜索索引中進(jìn)行整理,最后展現(xiàn)給用戶。

一般的,搜索引擎在你搜索某個(gè)關(guān)鍵詞之前啊,都會(huì)先派一批小弟在互聯(lián)網(wǎng)中到處的抓取各種類型的網(wǎng)頁,只要能抓到都抓了。那抓取的流程是怎么樣的呢?

抓取流程是從以往所抓取內(nèi)容的網(wǎng)址列表和由網(wǎng)站所有者提供的站點(diǎn)地圖開始的。在訪問這些網(wǎng)站時(shí),我們的抓取工具會(huì)使用網(wǎng)站上的鏈接來探索其他網(wǎng)頁。該軟件會(huì)特別關(guān)注新網(wǎng)站、對(duì)現(xiàn)有網(wǎng)站進(jìn)行的更改以及無效鏈接。計(jì)算機(jī)程序會(huì)確定要抓取的網(wǎng)站、抓取頻率以及要從每個(gè)網(wǎng)站中抓取的網(wǎng)頁數(shù)量。

谷歌的抓取流程百度的也差不多。

那么抓到的網(wǎng)頁放在哪里呢?

肯定的是放在搜索引擎的服務(wù)器上面了。一般的只會(huì)存放網(wǎng)頁的文字信息,至于其它的資源,比如圖片、音視頻、js、css這些是不做存儲(chǔ)的。只會(huì)記錄相關(guān)的信息。

注:更詳細(xì)的內(nèi)容,將會(huì)在后續(xù)的重學(xué)seo系列課程中詳細(xì)介紹

那么抓取到內(nèi)容只會(huì)該怎么處理呢?

索引

當(dāng)抓取工具找到一個(gè)網(wǎng)頁時(shí),我們的系統(tǒng)就會(huì)像瀏覽器一樣呈現(xiàn)該網(wǎng)頁的內(nèi)容。我們會(huì)記下關(guān)鍵信號(hào)(從關(guān)鍵字到網(wǎng)站新鮮度),然后會(huì)在 搜索引擎搜索索引中跟蹤所有這些內(nèi)容。

搜索索引中包含數(shù)千億個(gè)網(wǎng)頁,其大小遠(yuǎn)遠(yuǎn)超過 1 億千兆字節(jié)。它就像圖書后部的索引一樣 - 編入索引的每個(gè)網(wǎng)頁上出現(xiàn)的每個(gè)字詞都對(duì)應(yīng)著一個(gè)條目。在將某個(gè)網(wǎng)頁編入索引時(shí),系統(tǒng)會(huì)將該網(wǎng)頁分別添加到其包含的所有字詞的對(duì)應(yīng)條目中。

借助知識(shí)圖譜,我們將繼續(xù)超越關(guān)鍵字匹配,以更好地了解您關(guān)注的人、地點(diǎn)和事物。為此,我們不僅要整理有關(guān)網(wǎng)頁的信息,還要整理其他類型的信息。如今, 搜索引擎不僅可幫助您搜索大型圖書館內(nèi)數(shù)百萬冊(cè)圖書中的內(nèi)容,查找當(dāng)?shù)毓还镜木€路和車次安排,還可幫助您瀏覽世界銀行等公開來源的數(shù)據(jù)。

注:其實(shí)在索引之前還是一個(gè)分析的步驟,還有做各種其他很多的工作,比如去重,提取正文,鏈接分析等等。搜索引擎用到的索引技術(shù)主要就是倒排索引技術(shù)。更詳細(xì)的內(nèi)容,且看后面的系列課程。

接下來,當(dāng)我們搜索一個(gè)關(guān)鍵詞的時(shí)候,搜索引擎都干了些什么?

查詢

第一步:分析你的關(guān)鍵詞

理解搜索字詞的含義對(duì)于返回優(yōu)質(zhì)結(jié)果至關(guān)重要。因此,為了找到包含相關(guān)信息的頁面,搜索引擎的第一步就是分析您的搜索查詢中的字詞的含義。搜索引擎創(chuàng)建了語言模型,試圖了解應(yīng)該使用關(guān)鍵詞的哪些部分在索引中進(jìn)行查詢。

這會(huì)涉及到看起來如同解析拼寫錯(cuò)誤一樣簡(jiǎn)單的步驟,并會(huì)擴(kuò)展到通過將自然語言理解方面的部分最新研究成果付諸應(yīng)用來嘗試?yán)斫饽斎氲牟樵兊念愋汀?/p>

(錯(cuò)別字糾正)

第二步:與搜索內(nèi)容相符

接下來,搜索引擎會(huì)尋找包含與相應(yīng)查詢匹配的信息的網(wǎng)頁。當(dāng)您搜索時(shí),在最基本的層面上,搜索算法會(huì)在索引中查詢您的搜索關(guān)鍵詞以找到適當(dāng)?shù)木W(wǎng)頁。這些算法會(huì)分析相關(guān)關(guān)鍵字在某個(gè)網(wǎng)頁上(不論是在標(biāo)題中還是在正文中)的出現(xiàn)頻率和顯示位置。

當(dāng)某個(gè)網(wǎng)頁中包含與您的搜索查詢內(nèi)容相同的關(guān)鍵字時(shí),這是表示搜索到的信息可能與您要查找的內(nèi)容相關(guān)的最基本信號(hào)。如果網(wǎng)頁或者文本的標(biāo)題或正文中出現(xiàn)這些關(guān)鍵字,則表示該信息與您要查找的內(nèi)容相關(guān)的可能性更大了。除了簡(jiǎn)單的關(guān)鍵字匹配之外,搜索引擎還使用經(jīng)過匯總和匿名化處理的互動(dòng)數(shù)據(jù)來評(píng)估搜索結(jié)果是否與查詢內(nèi)容相關(guān)。搜索引擎會(huì)將這些數(shù)據(jù)轉(zhuǎn)換為信號(hào),以協(xié)助機(jī)器學(xué)習(xí)系統(tǒng)更好地評(píng)估相關(guān)性。

除了匹配關(guān)鍵字,搜索引擎的算法還會(huì)尋找線索來衡量潛在搜索結(jié)果能從多大程度上滿足用戶的搜索需求。當(dāng)您搜索“狗”時(shí),您想看到的應(yīng)該不是含有數(shù)百個(gè)“狗”字的網(wǎng)頁。搜索引擎會(huì)盡力確定網(wǎng)頁是否包含與您的查詢對(duì)應(yīng)的答案(而非只是重復(fù)您的查詢)。因此,搜索算法會(huì)分析網(wǎng)頁是否包含相關(guān)內(nèi)容,例如狗的圖片、視頻,甚至是品種列表。最后,搜索引擎會(huì)檢查網(wǎng)頁所用的語言是否與您的查詢所用的語言相同,以便優(yōu)先顯示采用您的選語言的網(wǎng)頁。

需要說明的是,盡管搜索引擎的系統(tǒng)確實(shí)會(huì)通過尋找這類可量化的信號(hào)來評(píng)估相關(guān)性,但并不會(huì)因此用于分析主觀觀念,例如分析網(wǎng)頁內(nèi)容的觀點(diǎn)或政治傾向。

第三步:為實(shí)用(有價(jià)值)網(wǎng)頁排名

對(duì)于一項(xiàng)典型的查詢,含有可能相關(guān)的信息的網(wǎng)頁會(huì)多達(dá)數(shù)千個(gè)甚至數(shù)百萬個(gè)。因此,為了幫助將最符合需求的網(wǎng)頁排在靠前的位置,搜索引擎編寫了算法來評(píng)估這些網(wǎng)頁的實(shí)用性。

這些算法會(huì)分析數(shù)百種不同的因素 - 從內(nèi)容的新鮮度,到您的搜索關(guān)鍵詞的出現(xiàn)次數(shù)以及網(wǎng)頁能否提供出色的用戶體驗(yàn) - 以盡力呈現(xiàn)網(wǎng)絡(luò)所能提供的最有用的信息。為了評(píng)估內(nèi)容在相關(guān)主題方面的可信度和權(quán)威性,同時(shí)會(huì)尋找那些看起來在類似查詢中受到大量用戶青睞的網(wǎng)站。如果與該主題相關(guān)的其他知名網(wǎng)站鏈接到了相應(yīng)頁面,則可充分說明此頁面上的信息具有較高的品質(zhì)。

網(wǎng)絡(luò)中有很多垃圾網(wǎng)站會(huì)試圖通過再三重復(fù)關(guān)鍵字或購買可提升 PageRank 的鏈接等各種不當(dāng)手段,蒙混到搜索結(jié)果中靠前的位置。這些網(wǎng)站提供的用戶體驗(yàn)非常糟糕,甚至可能會(huì)傷害或誤導(dǎo)搜索用戶。因此,搜索引擎編寫了算法來識(shí)別網(wǎng)絡(luò)垃圾并將那些違反搜索引擎算法的作弊網(wǎng)站從結(jié)果中移除。

第四步:返回好結(jié)果

在為您提供濟(jì)南網(wǎng)站優(yōu)化結(jié)果之前,搜索引擎會(huì)評(píng)估所有相關(guān)信息的綜合效果:這些搜索結(jié)果是只有一個(gè)主題,還是有很多主題?是否有過多的頁面在著重探討一條狹義的詮釋?會(huì)根據(jù)您的搜索類型以最有用的格式提供一系列多樣的信息。此外,隨著網(wǎng)絡(luò)不斷發(fā)展,搜索引擎會(huì)不斷優(yōu)化排名系統(tǒng),以便為更多查詢提供更優(yōu)質(zhì)的結(jié)果。

這些算法會(huì)通過分析相關(guān)信號(hào)來評(píng)估是否所有用戶都能查看搜索結(jié)果。例如:網(wǎng)站是否能在不同的瀏覽器中正常顯示;網(wǎng)站是否適合各種類型和尺寸的設(shè)備(包括桌面設(shè)備、平板電腦和智能手機(jī));以及網(wǎng)頁加載時(shí)間對(duì)于互聯(lián)網(wǎng)連接速度較慢的用戶而言是否合適。

鑒于網(wǎng)站所有者可以提高其網(wǎng)站的易用性,搜索引擎會(huì)在對(duì)搜索算法做出重大更改時(shí)盡量提前通知網(wǎng)站所有者以便其可以做出應(yīng)對(duì)。例如,百度的各種算法,冰桶算法、颶風(fēng)算法……以及最近的信風(fēng)算法等等。

第五步:考慮具體位置

比如我們搜索“天氣”的時(shí)候,都會(huì)直接返回所在地的天氣信息。

當(dāng)然了,其實(shí)搜索結(jié)果中還有很多更加實(shí)用的功能和結(jié)果。

比如:

天氣直接返回、搜索公交路線直接顯示、百度的專業(yè)問答結(jié)果、知識(shí)圖譜等等。都是為了方便用戶直接獲取到答案,而不用再進(jìn)行二次點(diǎn)擊進(jìn)入網(wǎng)站查看。

最后,本文其實(shí)是將谷歌搜索的工作方式給拿下來修改了一點(diǎn)點(diǎn)。具體的大家可以直接看谷歌官方原文:https://www.google.com/search/howsearchworks/

了解了一個(gè)其實(shí)其它大部分的商業(yè)化搜索引擎都差不多,也可以從中知道一些seo應(yīng)該關(guān)注什么東西。當(dāng)然了,這里并沒有給出更多具體的東西。那么具體的一個(gè)搜索引擎原理將會(huì)在后續(xù)的系列課程中給大家一一講解哈。

比如搜索引擎一般有4大系統(tǒng),兩大系統(tǒng)分類:

離線系統(tǒng)

抓取系統(tǒng)

分析系統(tǒng)

索引系統(tǒng)

在線系統(tǒng)

查詢系統(tǒng)

文章名稱:學(xué)seo從了解搜索引擎工作方式開始
標(biāo)題鏈接:http://www.muchs.cn/news7/250557.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站排名、電子商務(wù)、企業(yè)建站、品牌網(wǎng)站設(shè)計(jì)、定制開發(fā)動(dòng)態(tài)網(wǎng)站

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)

網(wǎng)站建設(shè)網(wǎng)站維護(hù)公司