網(wǎng)站優(yōu)化之Google搜索引擎原理

2016-03-04    分類: Google

1緒論
Web給信息檢索帶來了新的挑戰(zhàn)。Web上的信息量快速增長,同時不斷有毫無經(jīng)驗的新用戶來體驗Web這門藝術(shù)。人們喜歡用超級鏈接來網(wǎng)上沖浪,通常都以象Yahoo這樣重要的網(wǎng)頁或搜索引擎開始。大家認(rèn)為List(目錄)有效地包含了大家感興趣的主題,但是它具有主觀性,建立和維護(hù)的代價高,升級慢,不能包括所有深奧的主題。基于關(guān)鍵詞的自動搜索引擎通常返回太多的低質(zhì)量的匹配。使問題更遭的是,一些廣告為了贏得人們的關(guān)注想方設(shè)法誤導(dǎo)自動搜索引擎。我們建立了一個大型搜索引擎解決了現(xiàn)有系統(tǒng)中的很多問題。應(yīng)用超文本結(jié)構(gòu),大大提高了查詢質(zhì)量。我們的系統(tǒng)命名為google,取名自googol的通俗拼法,即10的100次方,這和我們的目標(biāo)建立一個大型搜索引擎不謀而合。
1.1網(wǎng)絡(luò)搜索引擎—升級換代(scalingup):
1994-2000搜索引擎技術(shù)不得不快速升級(scaledramatically)跟上成倍增長的web數(shù)量。1994年,第一個Web搜索引擎,WorldWideWebWorm(WWWW)可以檢索到110,000個網(wǎng)頁和Web的文件。到1994年11月,頂級的搜索引擎聲稱可以檢索到2‘000′000(WebCrawler)至100‘000′000個網(wǎng)絡(luò)文件(來自SearchEngineWatch)??梢灶A(yù)見到2000年,可檢索到的網(wǎng)頁將超過1‘000′000‘000。同時,搜索引擎的訪問量也會以驚人的速度增長。在1997年的三四月份,WorldWideWebWorm平均每天收到1500個查詢。在1997年11月,Altavista聲稱它每天要處理大約20′000′000個查詢。隨著網(wǎng)絡(luò)用戶的增長.到2000年,自動搜索引擎每天將處理上億個查詢。我們系統(tǒng)的設(shè)計目標(biāo)要解決許多問題,包括質(zhì)量和可升級性,引入升級搜索引擎技術(shù)(scalingsearchenginetechnology),把它升級到如此大量的數(shù)據(jù)上。
1.2Google:
跟上Web的步伐(ScalingwiththeWeb)建立一個能夠和當(dāng)今web規(guī)模相適應(yīng)的搜索引擎會面臨許多挑戰(zhàn)。抓網(wǎng)頁技術(shù)必須足夠快,才能跟上網(wǎng)頁變化的速度(keepthemuptodate)。存儲索引和文檔的空間必須足夠大。索引系統(tǒng)必須能夠有效地處理上千億的數(shù)據(jù)。處理查詢必須快,達(dá)到每秒能處理成百上千個查詢(hundredstothousandspersecond.)。隨著Web的不斷增長,這些任務(wù)變得越來越艱巨。然而硬件的執(zhí)行效率和成本也在快速增長,可以部分抵消這些困難。還有幾個值得注意的因素,如磁盤的尋道時間(diskseektime),操作系統(tǒng)的效率(operatingsystemrobustness)。在設(shè)計Google的過程中,我們既考慮了Web的增長速度,又考慮了技術(shù)的更新。Google的設(shè)計能夠很好的升級處理海量數(shù)據(jù)集。它能夠有效地利用存儲空間來存儲索引。優(yōu)化的數(shù)據(jù)結(jié)構(gòu)能夠快速有效地存取(參考4.2節(jié))。進(jìn)一步,我們希望,相對于所抓取的文本文件和HTML網(wǎng)頁的數(shù)量而言,存儲和建立索引的代價盡可能的?。▍⒖几戒汢)。對于象Google這樣的集中式系統(tǒng),采取這些措施得到了令人滿意的系統(tǒng)可升級性(scalingproperties)。
1.3設(shè)計目標(biāo)
1.3.1提高搜索質(zhì)量我們的主要目標(biāo)是提高Web搜索引擎的質(zhì)量。1994年,有人認(rèn)為建立全搜索索引(acompletesearchindex)可以使查找任何數(shù)據(jù)都變得容易。根據(jù)BestoftheWeb1994—Navigators,“最好的導(dǎo)航服務(wù)可以使在Web上搜索任何信息都很容易(當(dāng)時所有的數(shù)據(jù)都可以被登錄)”。然而1997年的Web就迥然不同。近來搜索引擎的用戶已經(jīng)證實索引的完整性不是評價搜索質(zhì)量的唯一標(biāo)準(zhǔn)。用戶感興趣的搜索結(jié)果往往湮沒在“垃圾結(jié)果Junkresult”中。實際上,到1997年11月為止,四大商業(yè)搜索引擎中只有一個能夠找到它自己(搜索自己名字時返回的前十個結(jié)果中有它自己)。導(dǎo)致這一問題的主要原因是文檔的索引數(shù)目增加了好幾個數(shù)量級,但是用戶能夠看的文檔數(shù)卻沒有增加。用戶仍然只希望看前面幾十個搜索結(jié)果。因此,當(dāng)集合增大時,我們就需要工具使結(jié)果精確(在返回的前幾十個結(jié)果中,有關(guān)文檔的數(shù)量)。由于是從成千上萬個有點相關(guān)的文檔中選出幾十個,實際上,相關(guān)的概念就是指最好的文檔。高精確非常重要,甚至以響應(yīng)(系統(tǒng)能夠返回的有關(guān)文檔的總數(shù))為代價。令人高興的是利用超文本鏈接提供的信息有助于改進(jìn)搜索和其它應(yīng)用。尤其是鏈接結(jié)構(gòu)和鏈接文本,為相關(guān)性的判斷和高質(zhì)量的過濾提供了大量的信息。Google既利用了鏈接結(jié)構(gòu)又用到了anchor文本(見2.1和2.2節(jié))。

當(dāng)前名稱:網(wǎng)站優(yōu)化之Google搜索引擎原理
轉(zhuǎn)載注明:http://www.muchs.cn/news13/33663.html

網(wǎng)站建設(shè)、網(wǎng)絡(luò)推廣公司-創(chuàng)新互聯(lián),是專注品牌與效果的網(wǎng)站制作,網(wǎng)絡(luò)營銷seo公司;服務(wù)項目有Google

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

成都網(wǎng)站建設(shè)