了解搜索引擎的發(fā)展過程

2021-05-16    分類: 網(wǎng)站建設(shè)

1990年,加拿大麥吉爾大學(xué)(University of McGill)計(jì)算機(jī)學(xué)院的師生開發(fā)出Archie。當(dāng)時(shí),萬維網(wǎng)(World Wide Web)還沒有出現(xiàn),人們通過FTP來共享交流資源。Archie能定期搜集并分析FTP服務(wù)器上的文件名信息,提供查找分別在各個(gè)FTP主機(jī)中的文件。用戶必須輸入精確的文件名進(jìn)行搜索,Archie告訴用戶哪個(gè)FTP服務(wù)器能下載該文件。雖然Archie搜集的信息資源不是網(wǎng)頁(HTML文件),但和搜索引擎的基本工作方式是一樣的:自動搜集信息資源、建立索引、提供檢索服務(wù)。所以,Archie被公認(rèn)為現(xiàn)代搜索引擎的鼻祖。
搜索引擎的起源:

所有搜索引擎的祖先,是1990年由Montreal的McGill University三名學(xué)生(Alan Emtage、Peter Deutsch、Bill Wheelan)發(fā)明的Archie(Archie FAQ)。Alan Emtage等想到了開發(fā)一個(gè)可以用文件名查找文件的系統(tǒng),于是便有了Archie。Archie是第一個(gè)自動索引互聯(lián)網(wǎng)上匿名FTP網(wǎng)站文件的程序,但它還不是真正的搜索引擎。Archie是一個(gè)可搜索的FTP文件名列表,用戶必須輸入精確的文件名搜索,然后Archie會告訴用戶哪一個(gè)FTP地址可以下載該文件。由于Archie深受歡迎,受其啟發(fā),Nevada System Computing Services大學(xué)于1993年開發(fā)了一個(gè)Gopher(Gopher FAQ)搜索工具Veronica(Veronica FAQ)。Jughead是后來另一個(gè)Gopher搜索工具。
發(fā)展(1):
世界上第一個(gè)Spider程序,是MIT Matthew Gray的World wide Web Wanderer,用于追蹤互聯(lián)網(wǎng)發(fā)展規(guī)模。剛開始它只用來統(tǒng)計(jì)互聯(lián)網(wǎng)上的服務(wù)器數(shù)量,后來則發(fā)展為也能夠捕獲網(wǎng)址(URL)。
搜索引擎一般由以下三部分組成:
爬行器(機(jī)器人、蜘蛛)
索引生成器
查詢檢索器
發(fā)展(2):
Excite 的歷史可以上溯到1993年2月,6個(gè)Stanford University(斯坦福大學(xué))大學(xué)生的想法是分析字詞關(guān)系,以對互聯(lián)網(wǎng)上的大量信息作更有效的檢索。到1993年中,這已是一個(gè)完全投資項(xiàng)目,他們還發(fā)布了一個(gè)供webmasters在自己網(wǎng)站上使用的搜索軟件版本,后來被叫做Excite for Web Servers。
注:Excite后來曾以概念搜索聞名,2002年5月,被Infospace收購的Excite停止自己的搜索引擎,改用元搜索引擎 Dogpile
發(fā)展(3):
1994年4月,斯坦福大學(xué)的兩名博士生,美籍華人楊致遠(yuǎn)和David Filo共同創(chuàng)辦了Yahoo!。隨著訪問量和收錄鏈接數(shù)的增長,Yahoo目錄開始支持簡單的數(shù)據(jù)庫搜索。因?yàn)閅ahoo!的數(shù)據(jù)是手工輸入的,所以不能真正被歸為搜索引擎,事實(shí)上只是一個(gè)可搜索的目錄。Yahoo!中收錄的網(wǎng)站,因?yàn)槎几接泻喗樾畔?,所以搜索效率明顯提高。
注:Yahoo以后陸續(xù)有 Altavista、Inktomi、Google提供搜索引擎服務(wù)
Yahoo!--幾乎成為20世紀(jì)90年代的因特網(wǎng)的代名詞。
發(fā)展(4):
1995年,一種新的搜索引擎形式出現(xiàn)了——元搜索引擎(Meta Search Engine)。用戶只需提交一次搜索請求,由元搜索引擎負(fù)責(zé)轉(zhuǎn)換處理后提交給多個(gè)預(yù)先選定的獨(dú)立搜索引擎,并將從各獨(dú)立搜索引擎返回的所有查詢結(jié)果,集中起來處理后再返回給用戶。
第一個(gè)元搜索引擎,是Washington大學(xué)碩士生 Eric Selberg 和 Oren Etzioni 的 Metacrawler。元搜索引擎概念上好聽,但搜索效果始終不理想,所以沒有哪個(gè)元搜索引擎有過強(qiáng)勢地位。
發(fā)展(5):
智能檢索的產(chǎn)生:它利用分詞詞典、同義詞典,同音詞典改善檢索效果,進(jìn)一步還可在知識層面或者說概念層面上輔助查詢,通過主題詞典、上下位詞典、相關(guān)同級詞典檢索處理形成一個(gè)知識體系或概念網(wǎng)絡(luò),給予用戶智能知識提示,最終幫助用戶獲得比較好的檢索效果。
例:
(1)查詢“計(jì)算機(jī)”,與“電腦”相關(guān)的信息也能檢索出來;
(2)可以進(jìn)一步縮小查詢范圍至“微機(jī)”、“服務(wù)器”或擴(kuò)大查詢至“信息技術(shù)”或查詢相關(guān)的“電子技術(shù)”、“軟件”、“計(jì)算機(jī)應(yīng)用”等范疇;
(3)還包括歧義信息和檢索處理,如“蘋果”,究竟是指水果還是電腦品牌,“華人”與“中華人民共和國”的區(qū)分,將通過歧義知識描述庫、全文索引、用戶檢索上下文分析以及用戶相關(guān)性反饋等技術(shù)結(jié)合處理,高效、準(zhǔn)確地反饋給用戶最需要的信息。
發(fā)展(6):
個(gè)性化趨勢是搜索引擎的一個(gè)未來發(fā)展的重要特征和必然趨勢之一。一種方式通過搜索引擎的社區(qū)化產(chǎn)品(即對注冊用戶提供服務(wù))的方式來組織個(gè)人信息,然后在搜索引擎基礎(chǔ)信息庫的檢索中引入個(gè)人因素進(jìn)行分析,獲得針對個(gè)人不同的搜索結(jié)果。自2004年10月yahoo推出myweb測試版,到11月a9推出個(gè)性化功能,到2005年Googlesearchhistory基本上都沿著一條路子走,分析特定用戶的搜索需求限定的范圍,然后按照用戶需求范圍擴(kuò)展到互聯(lián)網(wǎng)上其他的同類網(wǎng)站給出最相關(guān)的結(jié)果。另外一種是針對大眾化的,Google個(gè)性化搜索引擎,或者yahooMindSet,或者我們都知道的前臺聚類的vivisimo。但是無論其中的哪一種實(shí)現(xiàn)方式,即Google的主動選擇搜索范圍,還是yahoo(http://my.yahoo.com),vivisimo的在結(jié)果中重新組織自己需要的信息,都是一種實(shí)驗(yàn)或者創(chuàng)想,短期內(nèi)無法成為主流的搜索引擎應(yīng)用產(chǎn)品。
發(fā)展(7):
網(wǎng)格技術(shù)(great global grid):由于沒有統(tǒng)一的信息組織標(biāo)準(zhǔn)對網(wǎng)絡(luò)信息資源進(jìn)行加工處理,難以對無序的網(wǎng)絡(luò)信息資源進(jìn)行檢索、交接和共享乃至深層次的開發(fā)利用,形成信息孤島。網(wǎng)格技術(shù)就是要消除信息孤島實(shí)現(xiàn)互聯(lián)網(wǎng)上所有資源的全面連通。
美國全球信息網(wǎng)格(Global Information Grid)
Robot(機(jī)器人)一詞對編程者有特殊的意義。Computer Robot是指某個(gè)能以人類無法達(dá)到的速度不斷重復(fù)執(zhí)行某項(xiàng)任務(wù)的自動程序。由于專門用于檢索信息的Robot程序像蜘蛛(spider)一樣在網(wǎng)絡(luò)間爬來爬去,因此,搜索引擎的Robot程序被稱為spider程序。
1993年Matthew Gray開發(fā)了 World Wide Web Wanderer,這是第一個(gè)利用HTML網(wǎng)頁之間的鏈接關(guān)系來檢測萬維網(wǎng)規(guī)模的“機(jī)器人(Robot)”程序。開始,它僅僅用來統(tǒng)計(jì)互聯(lián)網(wǎng)上的服務(wù)器數(shù)量,后來也能夠捕獲網(wǎng)址(URL)。
1994年4月,斯坦福大學(xué)(Stanford University)的兩名博士生,美籍華人Jerry Yang(楊致遠(yuǎn))和David Filo共同創(chuàng)辦了Yahoo。隨著訪問量和收錄鏈接數(shù)的增長,Yahoo目錄開始支持簡單的數(shù)據(jù)庫搜索。因?yàn)閅ahoo!的數(shù)據(jù)是手工輸入的,所以不能真正被歸為搜索引擎,事實(shí)上只是一個(gè)可搜索的目錄。雅虎于2002年12月23日收購inktomi,2003年7月14日收購包括Fast和Altavista在內(nèi)的Overture,2003年11月,Yahoo全資收購3721公司。
   1994年初,華盛頓大學(xué)(University of Washington )的學(xué)生Brian Pinkerton開始了他的小項(xiàng)目WebCrawler。1994年4月20日,WebCrawler正式亮相時(shí)僅包含來自6000個(gè)服務(wù)器的內(nèi)容。WebCrawler是互聯(lián)網(wǎng)上第一個(gè)支持搜索文件全部文字的全文搜索引擎,在它之前,用戶只能通過URL和摘要搜索,摘要一般來自人工評論或程序自動取正文的前100個(gè)字。
1994年7月,卡內(nèi)基·梅隆大學(xué)(Carnegie Mellon University)的Michael Mauldin將John Leavitt的spider程序接入到其索引程序中,創(chuàng)建了Lycos。除了相關(guān)性排序外,Lycos還提供了前綴匹配和字符相近限制,Lycos第一個(gè)在搜索結(jié)果中使用了網(wǎng)頁自動摘要,而比較大的優(yōu)勢還是它遠(yuǎn)勝過其它搜索引擎的數(shù)據(jù)量。
1994年底,Infoseek正式亮相。其友善的界面,大量的附加功能,使之和Lycos一樣成為搜索引擎的重要代表。
1995年,一種新的搜索引擎形式出現(xiàn)了——元搜索引擎(A Meta Search Engine Roundup)。用戶只需提交一次搜索請求,由元搜索引擎負(fù)責(zé)轉(zhuǎn)換處理,提交給多個(gè)預(yù)先選定的獨(dú)立搜索引擎,并將從各獨(dú)立搜索引擎返回的所有查詢結(jié)果,集中起來處理后再返回給用戶。第一個(gè)元搜索引擎是Washington大學(xué)碩士生 Eric Selberg 和 Oren Etzioni 的 Metacrawler。
1995年12月,DEC的正式發(fā)布AltaVista。AltaVista是第一個(gè)支持自然語言搜索的搜索引擎,第一個(gè)實(shí)現(xiàn)高級搜索語法的搜索引擎(如AND、 OR、 NOT等)。用戶可以用AltaVista搜索新聞組(Newsgroups)的內(nèi)容并從互聯(lián)網(wǎng)上獲得文章,還可以搜索圖片名稱中的文字、搜索Titles、搜索Java applets、搜索ActiveX objects。AltaVista也聲稱是第一個(gè)支持用戶自己向網(wǎng)頁索引庫提交或刪除URL的搜索引擎,并能在24小時(shí)內(nèi)上線。AltaVista很有趣的新功能之一,是搜索有鏈接指向某個(gè)URL的所有網(wǎng)站。在面向用戶的界面上,AltaVista也作了大量革新。它在搜索框區(qū)域下放了“tips”以幫助用戶更好的表達(dá)搜索式,這些小tip經(jīng)常更新,這樣,在搜索過幾次以后,用戶會看到很多他們可能從來不知道的的有趣功能。這系列功能,逐漸被其它搜索引擎廣泛采用。1997年,AltaVista發(fā)布了一個(gè)圖形演示系統(tǒng)LiveTopics,幫助用戶從成千上萬的搜索結(jié)果中找到想要的。
1995年9月26日,加州伯克利分校助教Eric Brewer、博士生Paul Gauthier創(chuàng)立了Inktomi,1996年5月20日,Inktomi公司成立,強(qiáng)大的HotBot出現(xiàn)在世人面前。聲稱每天能抓取索引1千萬頁以上,所以有遠(yuǎn)超過其它搜索引擎的新內(nèi)容。HotBot也大量運(yùn)用cookie儲存用戶的個(gè)人搜索喜好設(shè)置。
1997年8月,Northernlight搜索引擎正式現(xiàn)身。它曾是擁有比較大數(shù)據(jù)庫的搜索引擎之一,它沒有Stop Words,它有出色的Current News、7100多出版物組成的Special Collection、良好的高級搜索語法,第一個(gè)支持對搜索結(jié)果進(jìn)行簡單的自動分類。
1998年10月之前,Google只是斯坦福大學(xué)(Stanford University)的一個(gè)小項(xiàng)目BackRub。1995年博士生Larry Page開始學(xué)習(xí)搜索引擎設(shè)計(jì),于1997年9月15日注冊了google.com的域名,1997年底,在Sergey Brin和Scott Hassan、Alan Steremberg的共同參與下,BachRub開始提供Demo。1999年2月,Google完成了從Alpha版到Beta版的蛻變。Google公司則把1998年9月27日認(rèn)作自己的生日。Google以網(wǎng)頁級別(Pagerank)為基礎(chǔ),判斷網(wǎng)頁的重要性,使得搜索結(jié)果的相關(guān)性大大增強(qiáng)。Google公司的奇客(Geek)文化氛圍、不作惡(Don’t be evil)的理念,為Google贏得了極高的口碑和品牌美譽(yù)。2006年4月,Google宣布其中文名稱“谷歌”,這是Google第一個(gè)在非英語國家起的名字。
Fast(Alltheweb)公司創(chuàng)立于1997年,是挪威科技大學(xué)(NTNU)學(xué)術(shù)研究的副產(chǎn)品。1999年5月,發(fā)布了自己的搜索引擎AllTheWeb。Fast創(chuàng)立的目標(biāo)是做世界上比較大和最快的搜索引擎,幾年來庶幾近之。Fast(Alltheweb)的網(wǎng)頁搜索可利用ODP自動分類,支持Flash和pdf搜索,支持多語言搜索,還提供新聞搜索、圖像搜索、視頻、MP3、和FTP搜索,擁有極其強(qiáng)大的高級搜索功能。(2003年2月25日,F(xiàn)ast的互聯(lián)網(wǎng)搜索部門被Overture收購)。
1996年8月,sohu公司成立,制作中文網(wǎng)站分類目錄,曾有“出門找地圖,上網(wǎng)找搜狐”的美譽(yù)。隨著互聯(lián)網(wǎng)網(wǎng)站的急劇增加,這種人工編輯的分類目錄已經(jīng)不適應(yīng)。sohu于2004年8月獨(dú)立域名的搜索網(wǎng)站“搜狗”,自稱“第三代搜索引擎”。
Openfind 創(chuàng)立于1998年1月,其技術(shù)源自臺灣中正大學(xué)吳升教授所領(lǐng)導(dǎo)的GAIS實(shí)驗(yàn)室。Openfind起先只做中文搜索引擎,鼎盛時(shí)期同時(shí)為三大著名門戶新浪、奇摩、雅虎提供中文搜索引擎,但2000年后市場逐漸被Baidu和Google瓜分。2002年6月,Openfind重新發(fā)布基于GAIS30 Project的Openfind搜索引擎Beta版,推出多元排序(PolyRankTM),宣布累計(jì)抓取網(wǎng)頁35億,開始進(jìn)入英文搜索領(lǐng)域。
2000年1月,兩位北大校友,超鏈分析發(fā)明人、前Infoseek資深工程師李彥宏與好友徐勇(加州伯克利分校博士后)在北京中關(guān)村創(chuàng)立了百度(Baidu)公司。2001年8月發(fā)布Baidu.com搜索引擎Beta版(此前Baidu只為其它門戶網(wǎng)站搜狐新浪Tom等提供搜索引擎),2001年10月22日正式發(fā)布Baidu搜索引擎,專注于中文搜索。Baidu搜索引擎的其它特色包括:百度快照、網(wǎng)頁預(yù)覽/預(yù)覽全部網(wǎng)頁、相關(guān)搜索詞、錯(cuò)別字糾正提示、mp3搜索、Flash搜索。2002年3月閃電計(jì)劃(Blitzen Project)開始后,技術(shù)升級明顯加快。后推出貼吧、知道、地圖、國學(xué)、百科、文檔、視頻、博客等一系列產(chǎn)品,深受網(wǎng)民歡迎。2005年8月5日在納斯達(dá)克上市,發(fā)行價(jià)為USD 27.00,代號為BIDU。開盤價(jià)USD 66.00,以USD 122.54收盤,漲幅353.85%,創(chuàng)下了5年以來美國股市上市新股當(dāng)日漲幅高紀(jì)錄。
2003年12月23日,原慧聰搜索正式獨(dú)立運(yùn)做,成立了中國搜索。2004年2月,中國搜索發(fā)布桌面搜索引擎網(wǎng)絡(luò)豬1.0,2006年3月中搜將網(wǎng)絡(luò)豬更名為IG(Internet Gateway)。
2005年6月,新浪正式推出自主研發(fā)的搜索引擎“愛問”。2007年起,新浪愛問使用google搜索引擎。
2007年7月1日全面采用網(wǎng)易自主研發(fā)的有道搜索技術(shù),并且合并了原來的綜合搜索和網(wǎng)頁搜索。有道網(wǎng)頁搜索、圖片搜索和博客搜索為網(wǎng)易搜索提供服務(wù)。其中網(wǎng)頁搜索使用了其自主研發(fā)的自然語言處理、分布式存儲及計(jì)算技術(shù);圖片搜索首創(chuàng)根據(jù)拍攝相機(jī)品牌、型號,甚至季節(jié)等高級搜索功能;博客搜索相比同類產(chǎn)品具有抓取全面、更新及時(shí)的優(yōu)勢,提供“文章預(yù)覽”,“博客檔案”等創(chuàng)新功能。
===■★★★★===南充網(wǎng)站建設(shè),先建設(shè)網(wǎng)站后付款===★★★★■

分享題目:了解搜索引擎的發(fā)展過程
文章來源:http://www.muchs.cn/news0/113900.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供ChatGPT面包屑導(dǎo)航、移動網(wǎng)站建設(shè)、響應(yīng)式網(wǎng)站、服務(wù)器托管、電子商務(wù)

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)

成都app開發(fā)公司