go語言搜索引擎的方法 golang搜索引擎

搜索引擎如何搜索到信息?

隨著互聯(lián)網(wǎng)的迅猛發(fā)展、WEB信息的增加,用戶要在信息海洋里查找自己所需的信息,就象大海撈針一樣,搜索引擎技術(shù)恰好解決了這一難題(它可以為用戶提供信息檢索服務(wù))。搜索引擎是指互聯(lián)網(wǎng)上專門提供檢索服務(wù)的一類網(wǎng)站,這些站點(diǎn)的服務(wù)器通過網(wǎng)絡(luò)搜索軟件(例如網(wǎng)絡(luò)搜索機(jī)器人)或網(wǎng)絡(luò)登錄等方式,將Intemet上大量網(wǎng)站的頁面信息收集到本地,經(jīng)過加工處理建立信息數(shù)據(jù)庫和索引數(shù)據(jù)庫,從而對用戶提出的各種檢索作出響應(yīng),提供用戶所需的信息或相關(guān)指針。用戶的檢索途徑主要包括自由詞全文檢索、關(guān)鍵詞檢索、分類檢索及其他特殊信息的檢索(如企業(yè)、人名、電話黃頁等)。下面以網(wǎng)絡(luò)搜索機(jī)器人為例來說明搜索引擎技術(shù)。

創(chuàng)新互聯(lián)是由多位在大型網(wǎng)絡(luò)公司、廣告設(shè)計公司的優(yōu)秀設(shè)計人員和策劃人員組成的一個具有豐富經(jīng)驗(yàn)的團(tuán)隊,其中包括網(wǎng)站策劃、網(wǎng)頁美工、網(wǎng)站程序員、網(wǎng)頁設(shè)計師、平面廣告設(shè)計師、網(wǎng)絡(luò)營銷人員及形象策劃。承接:成都網(wǎng)站設(shè)計、成都網(wǎng)站建設(shè)、網(wǎng)站改版、網(wǎng)頁設(shè)計制作、網(wǎng)站建設(shè)與維護(hù)、網(wǎng)絡(luò)推廣、數(shù)據(jù)庫開發(fā),以高性價比制作企業(yè)網(wǎng)站、行業(yè)門戶平臺等全方位的服務(wù)。

1.網(wǎng)絡(luò)機(jī)器人技術(shù)

網(wǎng)絡(luò)機(jī)器人(Robot)又被稱作Spider、Worm或Random,核心目的是為獲取Intemet上的信息。一般定義為“一個在網(wǎng)絡(luò)上檢索文件且自動跟蹤該文件的超文本結(jié)構(gòu)并循環(huán)檢索被參照的所有文件的軟件”。機(jī)器人利用主頁中的超文本鏈接遍歷WWW,通過U趾引用從一個HT2LIL文檔爬行到另一個HTML文檔。網(wǎng)上機(jī)器人收集到的信息可有多種用途,如建立索引、HIML文件合法性的驗(yàn)證、uRL鏈接點(diǎn)驗(yàn)證與確認(rèn)、監(jiān)控與獲取更新信息、站點(diǎn)鏡像等。

機(jī)器人安在網(wǎng)上爬行,因此需要建立一個URL列表來記錄訪問的軌跡。它使用超文本,指向其他文檔的URL是隱藏在文檔中,需要從中分析提取URL,機(jī)器人一般都用于生成索引數(shù)據(jù)庫。所有WWW的搜索程序都有如下的工作步驟:

(1)機(jī)器人從起始URL列表中取出URL并從網(wǎng)上讀取其指向的內(nèi)容;

(2)從每一個文檔中提取某些信息(如關(guān)鍵字)并放入索引數(shù)據(jù)庫中;

(3)從文檔中提取指向其他文檔的URL,并加入到URL列表中;

(4)重復(fù)上述3個步驟,直到再沒有新的URL出現(xiàn)或超出了某些限制(時間或磁盤空間);

(5)給索引數(shù)據(jù)庫加上檢索接口,向網(wǎng)上用戶發(fā)布或提供給用戶檢索。

搜索算法一般有深度優(yōu)先和廣度優(yōu)先兩種基本的搜索策略。機(jī)器人以URL列表存取的方式?jīng)Q定搜索策略:先進(jìn)先出,則形成廣度優(yōu)先搜索,當(dāng)起始列表包含有大量的WWW服務(wù)器地址時,廣度優(yōu)先搜索將產(chǎn)生一個很好的初始結(jié)果,但很難深入到服務(wù)器中去;先進(jìn)后出,則形成深度優(yōu)先搜索,這樣能產(chǎn)生較好的文檔分布,更容易發(fā)現(xiàn)文檔的結(jié)構(gòu),即找到最大數(shù)目的交叉引用。也可以采用遍歷搜索的方法,就是直接將32位的IP地址變化,逐個搜索整個Intemet。

搜索引擎是一個技術(shù)含量很高的網(wǎng)絡(luò)應(yīng)用系統(tǒng)。它包括網(wǎng)絡(luò)技術(shù)、數(shù)據(jù)庫技術(shù)動標(biāo)引技術(shù)、檢索技術(shù)、自動分類技術(shù),機(jī)器學(xué)習(xí)等人工智能技術(shù)。

2.索引技術(shù)

索引技術(shù)是搜索引擎的核心技術(shù)之一。搜索引擎要對所收集到的信息進(jìn)行整理、分類、索引以產(chǎn)生索引庫,而中文搜索引擎的核心是分詞技術(shù)。分詞技術(shù)是利用一定的規(guī)則和詞庫,切分出一個句子中的詞,為自動索引做好準(zhǔn)備。目前的索引多采用Non—clustered方法,該技術(shù)和語言文字的學(xué)問有很大的關(guān)系,具體有如下幾點(diǎn):

(1)存儲語法庫,和詞匯庫配合分出句子中的詞匯;

(2)存儲詞匯庫,要同時存儲詞匯的使用頻率和常見搭配方式;

(3)詞匯寬,應(yīng)可劃分為不同的專業(yè)庫,以便于處理專業(yè)文獻(xiàn);

(4)對無法分詞的句子,把每個字當(dāng)作詞來處理。

索引器生成從關(guān)鍵詞到URL的關(guān)系索引表。索引表一般使用某種形式的倒排表(1nversionUst),即由索引項(xiàng)查找相應(yīng)的URL。索引表也要記錄索引項(xiàng)在文檔中出現(xiàn)的位置,以便檢索器計算索引項(xiàng)之間的相鄰關(guān)系或接近關(guān)系,并以特定的數(shù)據(jù)結(jié)構(gòu)存儲在硬盤上。

不同的搜索引擎系統(tǒng)可能采用不盡相同的標(biāo)引方法。例如Webcrawler利用全文檢索技術(shù),對網(wǎng)頁中每一個單詞進(jìn)行索引;Lycos只對頁名、標(biāo)題以及最重要的100個注釋詞等選擇性詞語進(jìn)行索引;Infoseek則提供概念檢索和詞組檢索,支持and、or、near、not等布爾運(yùn)算。檢索引擎的索引方法大致可分為自動索引、手工索引和用戶登錄三類。

3.檢索器與結(jié)果處理技術(shù)

檢索器的主要功能是根據(jù)用戶輸入的關(guān)鍵詞在索引器形成的倒排表中進(jìn)行檢索,同時完成頁面與檢索之間的相關(guān)度評價,對將要輸出的結(jié)果進(jìn)行排序,并實(shí)現(xiàn)某種用戶相關(guān)性反饋機(jī)制。

通過搜索引擎獲得的檢索結(jié)果往往成百上千,為了得到有用的信息,常用的方法是按網(wǎng)頁的重要性或相關(guān)性給網(wǎng)頁評級,進(jìn)行相關(guān)性排序。這里的相關(guān)度是指搜索關(guān)鍵字在文檔中出現(xiàn)的額度。當(dāng)額度越高時,則認(rèn)為該文檔的相關(guān)程度越高。能見度也是常用的衡量標(biāo)準(zhǔn)之一。一個網(wǎng)頁的能見度是指該網(wǎng)頁入口超級鏈接的數(shù)目。能見度方法是基于這樣的觀點(diǎn):一個網(wǎng)頁被其他網(wǎng)頁引用得越多,則該網(wǎng)頁就越有價值。特別地,一個網(wǎng)頁被越重要的網(wǎng)頁所引用,則該網(wǎng)頁的重要程度也就越高。結(jié)果處理技術(shù)可歸納為:

(1)按頻次排定次序通常,如果一個頁面包含了越多的關(guān)鍵詞,其搜索目標(biāo)的相關(guān)性應(yīng)該越好,這是非常合平常理的解決方案。

(2)按頁面被訪問度排序在這種方法中,搜索引擎會記錄它所搜索到的頁面被訪問的頻率。人們訪問較多的頁面通常應(yīng)該包含比較多的信息,或者有其他吸引入的長處。這種解決方案適合一般的搜索用戶,而因?yàn)榇蟛糠值乃阉饕娑疾皇菍I(yè)性用戶,所以這種方案也比較適合一般搜索引擎使用。

(3)二次檢索進(jìn)一步凈化(比flne)結(jié)果,按照一定的條件對搜索結(jié)果進(jìn)行優(yōu)化,可以再選擇類別、相關(guān)詞進(jìn)行二次搜索等。

由于目前的搜索引擎還不具備智能,除非知道要查找的文檔的標(biāo)題,否則排列第一的結(jié)果未必是“最好”的結(jié)果。所以有些文檔盡管相關(guān)程度高,但并不一定是用戶最需要的文檔。

搜索引擎技術(shù)的行業(yè)應(yīng)用:

搜索引擎的行業(yè)應(yīng)用一般指類似于千瓦通信提供的多種搜索引擎行業(yè)與產(chǎn)品應(yīng)用模式,大體上分為如下幾種形式:

1、政府機(jī)關(guān)行業(yè)應(yīng)用

n實(shí)時跟蹤、采集與業(yè)務(wù)工作相關(guān)的信息來源。

n全面滿足內(nèi)部工作人員對互聯(lián)網(wǎng)信息的全局觀測需求。

n及時解決政務(wù)外網(wǎng)、政務(wù)內(nèi)網(wǎng)的信息源問題,實(shí)現(xiàn)動態(tài)發(fā)布。

n快速解決政府主網(wǎng)站對各地級子網(wǎng)站的信息獲取需求。

n全面整合信息,實(shí)現(xiàn)政府內(nèi)部跨地區(qū)、跨部門的信息資源共享與有效溝通。

n節(jié)約信息采集的人力、物力、時間,提高辦公效率。

2、企業(yè)行業(yè)應(yīng)用

n實(shí)時準(zhǔn)確地監(jiān)控、追蹤競爭對手動態(tài),是企業(yè)獲取競爭情報的利器。

n及時獲取競爭對手的公開信息以便研究同行業(yè)的發(fā)展與市場需求。

n為企業(yè)決策部門和管理層提供便捷、多途徑的企業(yè)戰(zhàn)略決策工具。

n大幅度地提高企業(yè)獲取、利用情報的效率,節(jié)省情報信息收集、存儲、挖掘的相關(guān)費(fèi)用,是提高企業(yè)核心競爭力的關(guān)鍵。

n提高企業(yè)整體分析研究能力、市場快速反應(yīng)能力,建立起以知識管理為核心的競爭情報數(shù)據(jù)倉庫,是提高企業(yè)核心競爭力的神經(jīng)中樞。

3、新聞媒體行業(yè)應(yīng)用

n快速準(zhǔn)確地自動跟蹤、采集數(shù)千家網(wǎng)絡(luò)媒體信息,擴(kuò)大新聞線索,提高采集速度。

n支持每天對數(shù)萬條新聞進(jìn)行有效抓取。監(jiān)控范圍的深度、廣度可以自行設(shè)定。

n支持對所需內(nèi)容智能提取、審核。

n實(shí)現(xiàn)互聯(lián)網(wǎng)信息內(nèi)容采集、瀏覽、編輯、管理、發(fā)布的一體化。

4、行業(yè)網(wǎng)站應(yīng)用

n實(shí)時跟蹤、采集與網(wǎng)站相關(guān)的信息來源。

n及時跟蹤行業(yè)的信息來源網(wǎng)站,自動,快速更新網(wǎng)站信息。動態(tài)更新信息。

n實(shí)現(xiàn)互聯(lián)網(wǎng)信息內(nèi)容采集、瀏覽、編輯、管理、發(fā)布的一體化。

n針對商務(wù)網(wǎng)站提出商務(wù)管理模式,大大提高行業(yè)網(wǎng)站的商務(wù)應(yīng)用需求。

n針對資訊網(wǎng)站分類目錄生成,提出用戶生成網(wǎng)站分類結(jié)構(gòu)。并可以實(shí)時增加與更新分類結(jié)構(gòu)。不受級數(shù)限制。從而大大利高行業(yè)的應(yīng)用性。

n提供搜索引擎SEO優(yōu)化專業(yè)服務(wù),快速提高行業(yè)網(wǎng)站的推廣。

n提供與CCDC呼叫搜索引擎的廣告合作。建立行業(yè)網(wǎng)站聯(lián)盟,提高行業(yè)網(wǎng)站知名度。

5)網(wǎng)絡(luò)信息監(jiān)察與監(jiān)控

n網(wǎng)絡(luò)輿情系統(tǒng)。如“千瓦通信-網(wǎng)絡(luò)輿情雷達(dá)監(jiān)測系統(tǒng)”

n網(wǎng)站信息與內(nèi)容監(jiān)察與監(jiān)控系統(tǒng),如“千瓦通信-網(wǎng)站信息與內(nèi)容監(jiān)測與監(jiān)察系統(tǒng)(站內(nèi)神探)”

隨著因特網(wǎng)的迅猛發(fā)展、WEB信息的增加,用戶要在信息海洋里查找信息,就象大海撈

針一樣,搜索引擎技術(shù)恰好解決了這一難題(它可以為用戶提供信息檢索服務(wù))。目前,

搜索引擎技術(shù)正成為計算機(jī)工業(yè)界和學(xué)術(shù)界爭相研究、開發(fā)的對象。

搜索引擎(SearchEngine)是隨著WEB信息的迅速增加,從1995年開始逐漸發(fā)展起來

的技術(shù)。據(jù)發(fā)表在《科學(xué)》雜志1999年7月的文章《WEB信息的可訪問性》估計,全球目前

的網(wǎng)頁超過8億,有效數(shù)據(jù)超過9T,并且仍以每4個月翻一番的速度增長。用戶要在如此浩

瀚的信息海洋里尋找信息,必然會"大海撈針"無功而返。搜索引擎正是為了解決這個"迷航

"問題而出現(xiàn)的技術(shù)。搜索引擎以一定的策略在互聯(lián)網(wǎng)中搜集、發(fā)現(xiàn)信息,對信息進(jìn)行理解

、提取、組織和處理,并為用戶提供檢索服務(wù),從而起到信息導(dǎo)航的目的。搜索引擎提供

的導(dǎo)航服務(wù)已經(jīng)成為互聯(lián)網(wǎng)上非常重要的網(wǎng)絡(luò)服務(wù),搜索引擎站點(diǎn)也被美譽(yù)為"網(wǎng)絡(luò)門戶"

。搜索引擎技術(shù)因而成為計算機(jī)工業(yè)界和學(xué)術(shù)界爭相研究、開發(fā)的對象。本文旨在對搜索

引擎的關(guān)鍵技術(shù)進(jìn)行簡單的介紹,以起到拋磚引玉的作用。

分類

按照信息搜集方法和服務(wù)提供方式的不同,搜索引擎系統(tǒng)可以分為三大類:

1.目錄式搜索引擎:以人工方式或半自動方式搜集信息,由編輯員查看信息之后,人

工形成信息摘要,并將信息置于事先確定的分類框架中。信息大多面向網(wǎng)站,提供目錄瀏

覽服務(wù)和直接檢索服務(wù)。該類搜索引擎因?yàn)榧尤肓巳说闹悄?,所以信息?zhǔn)確、導(dǎo)航質(zhì)量高

,缺點(diǎn)是需要人工介入、維護(hù)量大、信息量少、信息更新不及時。這類搜索引擎的代表是

:Yahoo、LookSmart、OpenDirectory、GoGuide等。

2.機(jī)器人搜索引擎:由一個稱為蜘蛛(Spider)的機(jī)器人程序以某種策略自動地在互

聯(lián)網(wǎng)中搜集和發(fā)現(xiàn)信息,由索引器為搜集到的信息建立索引,由檢索器根據(jù)用戶的查詢輸

入檢索索引庫,并將查詢結(jié)果返回給用戶。服務(wù)方式是面向網(wǎng)頁的全文檢索服務(wù)。該類搜

索引擎的優(yōu)點(diǎn)是信息量大、更新及時、毋需人工干預(yù),缺點(diǎn)是返回信息過多,有很多無關(guān)

信息,用戶必須從結(jié)果中進(jìn)行篩選。這類搜索引擎的代表是:AltaVista、NorthernLigh

t、Excite、Infoseek、Inktomi、FAST、Lycos、Google;國內(nèi)代表為:"天網(wǎng)"、悠游、O

penFind等。

3.元搜索引擎:這類搜索引擎沒有自己的數(shù)據(jù),而是將用戶的查詢請求同時向多個搜

索引擎遞交,將返回的結(jié)果進(jìn)行重復(fù)排除、重新排序等處理后,作為自己的結(jié)果返回給用

戶。服務(wù)方式為面向網(wǎng)頁的全文檢索。這類搜索引擎的優(yōu)點(diǎn)是返回結(jié)果的信息量更大、更

全,缺點(diǎn)是不能夠充分使用所使用搜索引擎的功能,用戶需要做更多的篩選。這類搜索引

擎的代表是WebCrawler、InfoMarket等。

性能指標(biāo)

我們可以將WEB信息的搜索看作一個信息檢索問題,即在由WEB網(wǎng)頁組成的文檔庫中檢索

出與用戶查詢相關(guān)的文檔。所以我們可以用衡量傳統(tǒng)信息檢索系統(tǒng)的性能參數(shù)-召回率(R

ecall)和精度(Pricision)衡量一個搜索引擎的性能。

召回率是檢索出的相關(guān)文檔數(shù)和文檔庫中所有的相關(guān)文檔數(shù)的比率,衡量的是檢索系

統(tǒng)(搜索引擎)的查全率;精度是檢索出的相關(guān)文檔數(shù)與檢索出的文檔總數(shù)的比率,衡量

的是檢索系統(tǒng)(搜索引擎)的查準(zhǔn)率。對于一個檢索系統(tǒng)來講,召回率和精度不可能兩全

其美:召回率高時,精度低,精度高時,召回率低。所以常常用11種召回率下11種精度的

平均值(即11點(diǎn)平均精度)來衡量一個檢索系統(tǒng)的精度。對于搜索引擎系統(tǒng)來講,因?yàn)闆]

有一個搜索引擎系統(tǒng)能夠搜集到所有的WEB網(wǎng)頁,所以召回率很難計算。目前的搜索引擎系

統(tǒng)都非常關(guān)心精度。

影響一個搜索引擎系統(tǒng)的性能有很多因素,最主要的是信息檢索模型,包括文檔和查詢

的表示方法、評價文檔和用戶查詢相關(guān)性的匹配策略、查詢結(jié)果的排序方法和用戶進(jìn)行相

關(guān)度反饋的機(jī)制。

主要技術(shù)

一個搜索引擎由搜索器、索引器、檢索器和用戶接口等四個部分組成。

1.搜索器

搜索器的功能是在互聯(lián)網(wǎng)中漫游,發(fā)現(xiàn)和搜集信息。它常常是一個計算機(jī)程序,日夜

不停地運(yùn)行。它要盡可能多、盡可能快地搜集各種類型的新信息,同時因?yàn)榛ヂ?lián)網(wǎng)上的信

息更新很快,所以還要定期更新已經(jīng)搜集過的舊信息,以避免死連接和無效連接。目前有

兩種搜集信息的策略:

●從一個起始URL集合開始,順著這些URL中的超鏈(Hyperlink),以寬度優(yōu)先、深

度優(yōu)先或啟發(fā)式方式循環(huán)地在互聯(lián)網(wǎng)中發(fā)現(xiàn)信息。這些起始URL可以是任意的URL,但常常

是一些非常流行、包含很多鏈接的站點(diǎn)(如Yahoo!)。

●將Web空間按照域名、IP地址或國家域名劃分,每個搜索器負(fù)責(zé)一個子空間的窮盡

搜索。搜索器搜集的信息類型多種多樣,包括HTML、XML、Newsgroup文章、FTP文件、

字處理文檔、多媒體信息。搜索器的實(shí)現(xiàn)常常用分布式、并行計算技術(shù),以提高信息

發(fā)現(xiàn)和更新的速度。商業(yè)搜索引擎的信息發(fā)現(xiàn)可以達(dá)到每天幾百萬網(wǎng)頁。

2.索引器

索引器的功能是理解搜索器所搜索的信息,從中抽取出索引項(xiàng),用于表示文檔以及生

成文檔庫的索引表。

索引項(xiàng)有客觀索引項(xiàng)和內(nèi)容索引項(xiàng)兩種:客觀項(xiàng)與文檔的語意內(nèi)容無關(guān),如作者名、

URL、更新時間、編碼、長度、鏈接流行度(LinkPopularity)等等;內(nèi)容索引項(xiàng)是用來

反映文檔內(nèi)容的,如關(guān)鍵詞及其權(quán)重、短語、單字等等。內(nèi)容索引項(xiàng)可以分為單索引項(xiàng)和

多索引項(xiàng)(或稱短語索引項(xiàng))兩種。單索引項(xiàng)對于英文來講是英語單詞,比較容易提取,

因?yàn)閱卧~之間有天然的分隔符(空格);對于中文等連續(xù)書寫的語言,必須進(jìn)行詞語的切

分。在搜索引擎中,一般要給單索引項(xiàng)賦與一個權(quán)值,以表示該索引項(xiàng)對文檔的區(qū)分

度,同時用來計算查詢結(jié)果的相關(guān)度。使用的方法一般有統(tǒng)計法、信息論法和概率法。短

語索引項(xiàng)的提取方法有統(tǒng)計法、概率法和語言學(xué)法。

索引表一般使用某種形式的倒排表(InversionList),即由索引項(xiàng)查找相應(yīng)的文檔

。索引表也可能要記錄索引項(xiàng)在文檔中出現(xiàn)的位置,以便檢索器計算索引項(xiàng)之間的相鄰或

接近關(guān)系(proximity)。

索引器可以使用集中式索引算法或分布式索引算法。當(dāng)數(shù)據(jù)量很大時,必須實(shí)現(xiàn)即時

索引(InstantIndexing),否則不能夠跟上信息量急劇增加的速度。索引算法對索引器

的性能(如大規(guī)模峰值查詢時的響應(yīng)速度)有很大的影響。一個搜索引擎的有效性在很大

程度上取決于索引的質(zhì)量。

3.檢索器檢索器的功能是根據(jù)用戶的查詢在索引庫中快速檢出文檔,進(jìn)行文檔與

查詢的相關(guān)度評價,對將要輸出的結(jié)果進(jìn)行排序,并實(shí)現(xiàn)某種用戶相關(guān)性反饋機(jī)制。

檢索器常用的信息檢索模型有集合理論模型、代數(shù)模型、概率模型和混合模型四種。

4.用戶接口

用戶接口的作用是輸入用戶查詢、顯示查詢結(jié)果、提供用戶相關(guān)性反饋機(jī)制。主要的

目的是方便用戶使用搜索引擎,高效率、多方式地從搜索引擎中得到有效、及時的信息。

用戶接口的設(shè)計和實(shí)現(xiàn)使用人機(jī)交互的理論和方法,以充分適應(yīng)人類的思維習(xí)慣。

用戶輸入接口可以分為簡單接口和復(fù)雜接口兩種。

簡單接口只提供用戶輸入查詢串的文本框;復(fù)雜接口可以讓用戶對查詢進(jìn)行限制,如

邏輯運(yùn)算(與、或、非;+、-)、相近關(guān)系(相鄰、NEAR)、域名范圍(如.edu、.com)

、出現(xiàn)位置(如標(biāo)題、內(nèi)容)、信息時間、長度等等。目前一些公司和機(jī)構(gòu)正在考慮制定

查詢選項(xiàng)的標(biāo)準(zhǔn)。

未來動向

搜索引擎已成為一個新的研究、開發(fā)領(lǐng)域。因?yàn)樗玫叫畔z索、人工智能、計算

機(jī)網(wǎng)絡(luò)、分布式處理、數(shù)據(jù)庫、數(shù)據(jù)挖掘、數(shù)字圖書館、自然語言處理等多領(lǐng)域的理論和

技術(shù),所以具有綜合性和挑戰(zhàn)性。又由于搜索引擎有大量的用戶,有很好的經(jīng)濟(jì)價值,所

以引起了世界各國計算機(jī)科學(xué)界和信息產(chǎn)業(yè)界的高度關(guān)注,目前的研究、開發(fā)十分活躍,

并出現(xiàn)了很多值得注意的動向。

1.十分注意提高信息查詢結(jié)果的精度,提高檢索的有效性用戶在搜索引擎上進(jìn)行

信息查詢時,并不十分關(guān)注返回結(jié)果的多少,而是看結(jié)果是否和自己的需求吻合。對于一

個查詢,傳統(tǒng)的搜索引擎動輒返回幾十萬、幾百萬篇文檔,用戶不得不在結(jié)果中篩選。解

決查詢結(jié)果過多的現(xiàn)象目前出現(xiàn)了幾種方法:一是通過各種方法獲得用戶沒有在查詢語句

中表達(dá)出來的真正用途,包括使用智能代理跟蹤用戶檢索行為,分析用戶模型;使用相關(guān)

度反饋機(jī)制,使用戶告訴搜索引擎哪些文檔和自己的需求相關(guān)(及其相關(guān)的程度),哪些

不相關(guān),通過多次交互逐步求精。二是用正文分類(TextCategorization)技術(shù)將結(jié)果分

類,使用可視化技術(shù)顯示分類結(jié)構(gòu),用戶可以只瀏覽自己感興趣的類別。三是進(jìn)行站點(diǎn)類

聚或內(nèi)容類聚,減少信息的總量。

2.基于智能代理的信息過濾和個性化服務(wù)

信息智能代理是另外一種利用互聯(lián)網(wǎng)信息的機(jī)制。它使用自動獲得的領(lǐng)域模型(如We

b知識、信息處理、與用戶興趣相關(guān)的信息資源、領(lǐng)域組織結(jié)構(gòu))、用戶模型(如用戶背景

、興趣、行為、風(fēng)格)知識進(jìn)行信息搜集、索引、過濾(包括興趣過濾和不良信息過濾)

,并自動地將用戶感興趣的、對用戶有用的信息提交給用戶。智能代理具有不斷學(xué)習(xí)、適

應(yīng)信息和用戶興趣動態(tài)變化的能力,從而提供個性化的服務(wù)。智能代理可以在用戶端進(jìn)行

,也可以在服務(wù)器端運(yùn)行。

3.采用分布式體系結(jié)構(gòu)提高系統(tǒng)規(guī)模和性能

搜索引擎的實(shí)現(xiàn)可以采用集中式體系結(jié)構(gòu)和分布式體系結(jié)構(gòu),兩種方法各有千秋。但

當(dāng)系統(tǒng)規(guī)模到達(dá)一定程度(如網(wǎng)頁數(shù)達(dá)到億級)時,必然要采用某種分布式方法,以提高

系統(tǒng)性能。搜索引擎的各個組成部分,除了用戶接口之外,都可以進(jìn)行分布:搜索器可以

在多臺機(jī)器上相互合作、相互分工進(jìn)行信息發(fā)現(xiàn),以提高信息發(fā)現(xiàn)和更新速度;索引器可

以將索引分布在不同的機(jī)器上,以減小索引對機(jī)器的要求;檢索器可以在不同的機(jī)器上.

伊藤愛等于多少

伊藤愛等于多少伊藤愛子(AikoItoh)1980年10月24日出生于神奈川縣橫浜市,日本女演員。主要作品有《GO!GO!HEAVEN!》。2010年12月2日宣布退出演藝圈,希望建立幸福的家庭,主要作品有《爆龍戰(zhàn)隊暴連者》。

中文名

伊藤愛子

外文名

AikoItoh

別名

いとうあいこ

國籍

日本

民族

大和

相關(guān)星圖

電影《夢比優(yōu)斯奧特曼與奧特兄弟》主要演員

共12個詞條

2511閱讀

五十嵐隼士

飾 日比野未來

黑部進(jìn)

飾 早田進(jìn)

森次晃嗣

飾 諸星團(tuán)

查看更多

《爆龍戰(zhàn)隊暴連者》中的暴連者演員

共5個詞條

7210閱讀

西興一郎

飾演角色:伯亞凌駕

富田翔

飾演角色:三條幸人

伊藤愛子

飾演角色:樹蘭琉

查看更多

電影《愉快的飛行》主要演員

共30個詞條

943閱讀

田邊誠一

田邊誠一,1969年4月3日出生于日本東京都世田谷區(qū),日本演員、導(dǎo)演。曾獲得日本電影專業(yè)大獎新人獎。主要作品有作品《一直都愛你》、《車站的故事》、《LAST HOPE》、《椿之庭》。

時任三郎

時任三郎(Saburo Tokito)男,1958年2月4日生于日本東京都世田谷,是一名藝人及歌手。時任三郎身高188cm。時任三郎代表作品有《海猿4:勇敢的心》、DOG POLICE、《海猿3:最后的訊息》等。

綾瀨遙

綾瀨遙(綾瀬はるか、Ayase Haruka),1985年3月24日出生于日本廣島縣廣島市安佐南區(qū),日本女演員、歌手。2000年,參加第25屆HORIPRO TALENT SCOUT CARAVAN獲得審查員特別獎出道。2001年,在懸疑推理劇《金田一少年之事件簿III》中作為女演員初次亮相。2003年7月2日,主演的愛情劇《幸福的王子》播出。2004年,出演了愛情劇《在世界中心呼喚愛》,憑借該劇獲得了第42屆日劇學(xué)院賞最佳女配角獎。2006年1月12日,主演的懸疑愛情劇《白夜行》首播;3月24日,推出首張單曲《Period》。2008年,憑借電影《我的機(jī)器人女友》、《女座頭市》,獲得第21回日刊體育電影大獎最佳女主角獎。2009年,主演青春喜劇片《巨乳排球》,憑借該片獲得了第52屆日本電影藍(lán)絲帶獎最佳女演員獎;10月11日,出演的古裝醫(yī)學(xué)穿越劇《仁醫(yī)》播出,該劇最高收視率達(dá)25.3%。2010年7月7日,主演的愛情喜劇《螢之光2》開播。2011年,憑借古裝醫(yī)學(xué)穿越劇《仁醫(yī)2》,獲得了第69屆日劇學(xué)院賞最佳女配角獎。2012年12月9日,發(fā)行寫真集《原色綾瀨遙》。2013年,主演了大河劇《八重之櫻》。2014年,主演愛情劇《今天不上班》。2015年,因主演劇情片《海街日記》而獲得了第7屆TAMA電影節(jié)最佳女主角獎。2016年,主演玄幻劇《精靈守護(hù)者第一季》。2017年1月14日,主演的喜劇穿越電影《本能寺酒店》上映。2018年,主演愛情電影《今夜,在浪漫劇場》。

查看更多

演藝經(jīng)歷主要作品TA說參考資料

演藝經(jīng)歷

1999年,以大冢制藥Fibemini的廣告出道。

2000年,雜志《CanCam》9月號以插畫模特初登場。

2002年,和朝比奈惠里,大澤舞子,肘井美佳,福岡沙也加等組成視覺系組合「Chao」活動。

同年,朝比奈惠里,西角茉美,肘井美佳,福岡沙也加,宮崎瑠依等組成偶像組合「D★shues」發(fā)行CD。

2003年,飾演『爆竜戦隊アバレンジャー』(朝日電臺系)的アバレイエロー?樹らんる時,人氣大漲。

2005年,3個月topic英語會話節(jié)目中飾演『用心感受的英語語法』(NHK教育)學(xué)生,次年的『-會話編』飾演同樣的角色。

2006年,在『精神戀愛 狂惑的恐懼「最棒的彼氏」』劇場版電影中初主演。

同年,愛的劇場『スイーツドリーム』(TBS系)主演?佐野史織。

2007年開始正是出入舞臺劇,作為話題的中心開始演藝工作。

2008年,飾演富士電臺系晨間連續(xù)劇『愛讐のロメラ』(東海TV制作)的主演?七瀬珠希。

2009年,富士電臺的『真正可怕的故事』的「附身男」中,與偶像組合「羞恥心」成員,演員歌手上地雄輔兩次2度目共演。2008年秋時播出的,同系列『セレブと貧乏太郎』是他們倆約8個月以來再一次合作。而且和上地在老家是鄰居的關(guān)系。

2010年3月17日在主頁中公布,已于2月10日與比自己年長一歲的建設(shè)公司職員入籍結(jié)婚 。交際期間僅僅只有四個月的閃電式結(jié)婚。

主要作品

參演電視劇

特攝劇 爆龍戰(zhàn)隊暴連者(2003年2月 - 2004年2月,朝日電視臺) - 樹らんる/アバレイエロー(聲) 飾演

GO!GO!HEAVEN!(2005年1月-3月,東京電視臺) - アヤ(澤村文) 飾演

「1242kHz 這里是日本放送」(2005年6月 - 7月,富士電視臺) - 相田今日子 飾演

貞操問答(2005年10月 - 12月,TBS) - 前川路子 飾演

甜蜜夢想 (2006年9月 - 10月,TBS) - 主演?佐野史織 飾演

愛與仇恨的ロメラ(2008年9月 - 12月,東海電視臺) - 主演?七瀬珠希 飾演

セレブと貧乏太郎(2008年10月 - 12月,富士電視臺) - 佐藤優(yōu)希 飾演

借王〈シャッキング〉-錢の達(dá)人-(2009年10月-11月,WOWOW) 単発?嘉賓出演 大好き!五つ子3 第24話(2001年8月23日,TBS)

樋口一葉物語(2004年11月1日,TBS)

劇団演技者 第10作(2005年5月 - 6月,富士電視臺) - ユキ子 飾演

30minutes鬼 #7「特別篇嘉賓」(2005年8月19日,東京電視臺) - 作家いとうあいこ 飾演

名探偵赤冨士鷹 第一夜「ABC殺人事件」(2005年12月29日,NHK総合) - 真鍋百合子 飾演

A story with MURANO story-2 「IMAJINE」(2006年2月11日,BSフジ) - 紬 飾演

特命!刑事どん亀 第9話(2006年6月5日,TBS) - 水原あみ 飾演

戀愛的騷動電視劇特別篇III 「元ヤンの女」(2006年9月26日,日本電視臺) - 派遣社員?池田 飾演

gRPC服務(wù)開發(fā)和接口測試初探「Go」

之前寫過了Grpc服務(wù)開發(fā)和接口測試初探【Java】,中間耽擱了一些時間,Go版本的gRPC測試開發(fā)實(shí)踐才有時間學(xué)習(xí)使用。其中也是由于自己Go語言不夠熟悉導(dǎo)致的。之前有段時間想暫時放棄Go語言的學(xué)習(xí),導(dǎo)致了Go的生疏,原因是從Groovy到Java性能。

回歸正題,Go語言版本的gRPC實(shí)踐相對Java來說是比較簡單的,但是總體的工具鏈?zhǔn)潜容^復(fù)雜的,可能是因?yàn)镚o生態(tài)目前相比Java還是比較匱乏吧。下面我先簡述一下大致的步驟:

以上步驟親自操作可能會遇到一些小問題,我本人搜到的教程什么的也是亂七八糟,踩了一些坑。我沒有整理出一個親自實(shí)踐之后的可行的教程,原因有二:

Go語言的gRPC的 proto 編寫跟Java大致一致,只有一個報名的參數(shù)不太一樣。下面是我的 Hello.proto 內(nèi)容:

這里主要 go_package 網(wǎng)上搜到的配置方式有些不一樣,我沒有全都嘗試,大家在搜索的資料時候,盡量先看看 syntax 這個參數(shù)的值,以及文章教程寫作的時間,如果距離現(xiàn)在太久了,我建議直接關(guān)掉。搜索引擎有過濾功能,可以過濾掉過時的教程。

這里Go語言gRPC的一點(diǎn)優(yōu)勢,就是在一個項(xiàng)目中即可實(shí)現(xiàn),Java需要先弄一個SDK這樣。Go語言的gRPC的代碼可以通過生成代碼命令中的參數(shù)實(shí)現(xiàn)指定路徑。我是放在了和 proto 文件的同級目錄。

服務(wù)端代碼也是比較格式化的內(nèi)容,如下:

其中 pb.RegisterHelloServiceServer(s, Ser{}) 如果報錯,請檢查自己安裝的工具 protoc-gen-go 或者 protoc-gen-gofast 版本,一般提取報錯 message 搜索也能得到解決辦法。

下面是客戶端的代碼,由于學(xué)藝不精,其中大部分參數(shù)的含義目前我也不是很清楚,特別是基于 stream 的請求響應(yīng)的方式使用。后面我先把Java的學(xué)完,再回過頭來看Go的,按照這個順序?qū)W習(xí)和分享。

服務(wù)端輸出:

忘記打日志了。沒有輸出

客戶端輸出:

Go語言的gRPC測試開發(fā)實(shí)踐已經(jīng)完事兒,大概率上我不會在工作中使用Go作為主力gRPC測試語言,后面測試實(shí)踐內(nèi)容還是會以Java為主。

分享題目:go語言搜索引擎的方法 golang搜索引擎
當(dāng)前鏈接:http://muchs.cn/article38/dospspp.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供定制開發(fā)、定制網(wǎng)站網(wǎng)站維護(hù)、微信小程序、域名注冊、外貿(mào)建站

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

外貿(mào)網(wǎng)站建設(shè)