Hbase的網(wǎng)絡(luò)爬蟲及搜索引擎有什么優(yōu)點

本篇內(nèi)容介紹了“Hbase的網(wǎng)絡(luò)爬蟲及搜索引擎有什么優(yōu)點”的有關(guān)知識,在實際案例的操作過程中,不少人都會遇到這樣的困境,接下來就讓小編帶領(lǐng)大家學(xué)習(xí)一下如何處理這些情況吧!希望大家仔細(xì)閱讀,能夠?qū)W有所成!

公司主營業(yè)務(wù):網(wǎng)站設(shè)計、做網(wǎng)站、移動網(wǎng)站開發(fā)等業(yè)務(wù)。幫助企業(yè)客戶真正實現(xiàn)互聯(lián)網(wǎng)宣傳,提高企業(yè)的競爭能力。創(chuàng)新互聯(lián)是一支青春激揚、勤奮敬業(yè)、活力青春激揚、勤奮敬業(yè)、活力澎湃、和諧高效的團(tuán)隊。公司秉承以“開放、自由、嚴(yán)謹(jǐn)、自律”為核心的企業(yè)文化,感謝他們對我們的高要求,感謝他們從不同領(lǐng)域給我們帶來的挑戰(zhàn),讓我們激情的團(tuán)隊有機(jī)會用頭腦與智慧不斷的給客戶帶來驚喜。創(chuàng)新互聯(lián)推出潯陽免費做網(wǎng)站回饋大家。

網(wǎng)絡(luò)爬蟲架構(gòu)在Nutch+Hadoop之上,是一個典型的分布式離線批量處理架構(gòu),有非常優(yōu)異的吞吐量和抓取性能并提供了大量的配置定制選項。由于網(wǎng)絡(luò)爬蟲只負(fù)責(zé)網(wǎng)絡(luò)資源的抓取,所以,需要一個分布式搜索引擎,用來對網(wǎng)絡(luò)爬蟲抓取到的網(wǎng)絡(luò)資源進(jìn)行實時的索引和搜索。

搜 索引擎架構(gòu)在ElasticSearch之上,是一個典型的分布式在線實時交互查詢架構(gòu),無單點故障,高伸縮、高可用。對大量信息的索引與搜索都可以在近 乎實時的情況下完成,能夠快速實時搜索數(shù)十億的文件以及PB級的數(shù)據(jù),同時提供了全方面的選項,可以對該引擎的幾乎每個方面進(jìn)行定制。支持RESTful 的API,可以使用JSON通過HTTP調(diào)用它的各種功能,包括搜索、分析與監(jiān)控。此外,還為Java、PHP、Perl、Python以及Ruby等各 種語言提供了原生的客戶端類庫。

網(wǎng)絡(luò)爬蟲通過將抓取到的數(shù)據(jù)進(jìn)行結(jié)構(gòu)化提取之后提交給搜索引擎進(jìn)行索引,以供查詢分析使用。由于搜索引擎的設(shè)計目標(biāo)在于近乎實時的復(fù)雜的交互式查詢,所以搜索引擎并不保存索引網(wǎng)頁的原始內(nèi)容,因此,需要一個近乎實時的分布式數(shù)據(jù)庫來存儲網(wǎng)頁的原始內(nèi)容。

分布式數(shù)據(jù)庫架構(gòu)在Hbase+Hadoop之上,是一個典型的分布式在線實時隨機(jī)讀寫架構(gòu)。極強(qiáng)的水平伸縮性,支持?jǐn)?shù)十億的行和數(shù)百萬的列,能夠?qū)W(wǎng)絡(luò)爬蟲提交的數(shù)據(jù)進(jìn)行實時寫入,并能配合搜索引擎,根據(jù)搜索結(jié)果實時獲取數(shù)據(jù)。

網(wǎng) 絡(luò)爬蟲、分布式數(shù)據(jù)庫、搜索引擎均運行在普通商業(yè)硬件構(gòu)成的集群上。集群采用分布式架構(gòu),能擴(kuò)展到成千上萬臺機(jī)器,具有容錯機(jī)制,部分機(jī)器節(jié)點發(fā)生故障不 會造成數(shù)據(jù)丟失也不會導(dǎo)致計算任務(wù)失敗。不但高可用,當(dāng)節(jié)點發(fā)生故障時能迅速進(jìn)行故障轉(zhuǎn)移,而且高伸縮,只需要簡單地增加機(jī)器就能水平線性伸縮、提升數(shù)據(jù) 存儲容量和計算速度。

網(wǎng)絡(luò)爬蟲、分布式數(shù)據(jù)庫、搜索引擎之間的關(guān)系:

1、網(wǎng)絡(luò)爬蟲將抓取到的HTML頁面解析完成之后,把解析出的數(shù)據(jù)加入緩沖區(qū)隊列,由其他兩個線程負(fù)責(zé)處理數(shù)據(jù),一個線程負(fù)責(zé)將數(shù)據(jù)保存到分布式數(shù)據(jù)庫,一個線程負(fù)責(zé)將數(shù)據(jù)提交到搜索引擎進(jìn)行索引。

2、搜索引擎處理用戶的搜索條件,并將搜索結(jié)果返回給用戶,如果用戶查看網(wǎng)頁快照,則從分布式數(shù)據(jù)庫中獲取網(wǎng)頁的原始內(nèi)容。

整體架構(gòu)如下圖所示:

Hbase的網(wǎng)絡(luò)爬蟲及搜索引擎有什么優(yōu)點
 

爬蟲集群、分布式數(shù)據(jù)庫集群、搜索引擎集群在物理部署上,可以部署到同一個硬件集群上,也可以分開部署,形成1-3個硬件集群。

網(wǎng)絡(luò)爬蟲集群有一個專門的網(wǎng)絡(luò)爬蟲配置管理系統(tǒng)來負(fù)責(zé)爬蟲的配置和管理,如下圖所示:

 
Hbase的網(wǎng)絡(luò)爬蟲及搜索引擎有什么優(yōu)點
 

搜 索引擎通過分片(shard)和副本(replica)實現(xiàn)了高性能、高伸縮和高可用。分片技術(shù)為大規(guī)模并行索引和搜索提供了支持,極大地提高了索引和搜 索的性能,極大地提高了水平擴(kuò)展能力;副本技術(shù)為數(shù)據(jù)提供冗余,部分機(jī)器故障不影響系統(tǒng)的正常使用,保證了系統(tǒng)的持續(xù)高可用。

有2個分片和3份副本的索引結(jié)構(gòu)如下所示:

 
Hbase的網(wǎng)絡(luò)爬蟲及搜索引擎有什么優(yōu)點
 

一個完整的索引被切分為0和1兩個獨立部分,每一部分都有2個副本,即下面的灰色部分。

在 生產(chǎn)環(huán)境中,隨著數(shù)據(jù)規(guī)模的增大,只需簡單地增加硬件機(jī)器節(jié)點即可,搜索引擎會自動地調(diào)整分片數(shù)以適應(yīng)硬件的增加,當(dāng)部分節(jié)點退役的時候,搜索引擎也會自 動調(diào)整分片數(shù)以適應(yīng)硬件的減少,同時可以根據(jù)硬件的可靠性水平及存儲容量的變化隨時更改副本數(shù),這一切都是動態(tài)的,不需要重啟集群,這也是高可用的重要保 障。

“Hbase的網(wǎng)絡(luò)爬蟲及搜索引擎有什么優(yōu)點”的內(nèi)容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識可以關(guān)注創(chuàng)新互聯(lián)網(wǎng)站,小編將為大家輸出更多高質(zhì)量的實用文章!

網(wǎng)站題目:Hbase的網(wǎng)絡(luò)爬蟲及搜索引擎有什么優(yōu)點
當(dāng)前地址:http://muchs.cn/article48/pishhp.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供域名注冊、電子商務(wù)、網(wǎng)站導(dǎo)航、動態(tài)網(wǎng)站網(wǎng)站維護(hù)、企業(yè)網(wǎng)站制作

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

營銷型網(wǎng)站建設(shè)