大數(shù)據(jù)技術(shù)眾多的今天,不要忘記搜索!

盡管Hadoop、Spark和NoSQL數(shù)據(jù)庫現(xiàn)在正發(fā)展的如火如荼,但請不要忘記搜索是最原始,最有用的大數(shù)據(jù)技術(shù)之一。隨著很多非常棒的開源工具比如Solr,Lucidworks以及Elasticsearch的出現(xiàn),你可以使用非常強大的方法優(yōu)化I/O以及個性化用戶體驗,它會比以錯誤結(jié)束的紛繁復(fù)雜的新工具要好得多。

成都創(chuàng)新互聯(lián)自2013年創(chuàng)立以來,先為南宮等服務(wù)建站,南宮等地企業(yè),進行企業(yè)商務(wù)咨詢服務(wù)。為南宮企業(yè)網(wǎng)站制作PC+手機+微官網(wǎng)三網(wǎng)同步一站式服務(wù)解決您的所有建站問題。

Spark缺陷

不久前,一個客戶問我,如何使用spark查遍所有涌入NoSQL數(shù)據(jù)庫的大批量數(shù)據(jù)。問題在于,他們的搜索模式是單一的字符串搜索和向下查詢,這已經(jīng)超出了數(shù)據(jù)庫的有效能力范圍。他們從存儲中拉取數(shù)據(jù)并在內(nèi)存中解析。即便AWS上有DAG,但還是很慢,更不用提昂貴的價格了。

當你在內(nèi)存中處理意義明確的數(shù)據(jù)集時,Spark還是很有幫助的,不僅在于其強大的吸收能力,更是因為其在內(nèi)存中的分析能力和轉(zhuǎn)移到內(nèi)存中的能力一樣強大。我們?nèi)匀恍枰紤]存儲并且要知道如何做才能達到我們想要的快速簡潔的效果。對于某些客戶來說,數(shù)據(jù)進來之后可能會拉取出某個集合用于機器學習,把搜索工作留給搜索引擎完成。

搜索與機器學習

其實,在搜索,機器學習和其他相關(guān)技術(shù)之間,不存在明顯的界限。顯然,文本或語言信息往往可以很強烈的反映出搜索問題,不管是數(shù)值型還是二進制,非文本或語言都可以很自然的表明問題所在。在這方面,這些技術(shù)是重疊的。在某些方面,這些技術(shù)的處理方式甚至很類似,比如異常檢測,任何一個技術(shù)都可以有效地解決該問題。

關(guān)鍵的問題在于當你把部分內(nèi)存作為標準進行檢索時,能否挑選出正確的數(shù)據(jù),而不必瀏覽所有數(shù)據(jù)。對文本或定義明確的數(shù)值型數(shù)據(jù)來說是比較簡單的。其次,異常檢測機制可能也會自己進行搜索,當然這種方法也有其局限性,如果你不知道你需要什么,或不能明確定義規(guī)則,搜索顯然就不是合適的工具了。

搜索加大數(shù)據(jù)

在許多情況中,使用Spark加搜索或者機器學習的方法都不錯,之前也有講過在Hadoop中添加搜索的方法,但其實這也同樣適用于Spark或機器學習。

當Spark趨于穩(wěn)定之后,用戶忽然意識到Spark并沒有那么神奇,實際在內(nèi)存中運行時也存在很多問題,數(shù)據(jù)可以進行搜索,拉取工作集分析的速度遠比使用笨重的I/O去內(nèi)存中尋找想要的數(shù)據(jù)要快得多。

搜索和上下文

搜索并不僅僅是解決工作集,內(nèi)存或I/O問題,大多數(shù)大數(shù)據(jù)項目的弱點之一是缺少上下文環(huán)境,關(guān)于安全問題已經(jīng)講過了,那用戶體驗如何呢?盡管你可以發(fā)現(xiàn)很多用戶數(shù)據(jù),但你如何個性化用戶體驗?zāi)?使用你所知道的一切用戶信息,可以提高呈現(xiàn)在用戶面前的數(shù)據(jù)質(zhì)量,這可能意味著當你向用戶呈現(xiàn)個性化頁面時,前端的用戶交互和后端的搜索需要使用流分析搞定。搜索解決方案作為數(shù)據(jù)架構(gòu)師,工程師,開發(fā)者或者是科學家,在搜索方案上,你至少需要一到兩個選擇。我最不喜歡的方法就是,內(nèi)存搞得特別大,然后希望每次分類都可以使用它,一些供應(yīng)商似乎非常喜歡這種方式。

使用索引和搜索技術(shù)可以構(gòu)建更好的工作空間,還可以避免機器學習或分析以及簡單的從存儲中通過某種標準選擇數(shù)據(jù)——甚至通過某些標志,基于數(shù)據(jù)流對用戶數(shù)據(jù)進行個性化。從中可以看出,搜索是非常不錯的選擇,值得一用!

分享標題:大數(shù)據(jù)技術(shù)眾多的今天,不要忘記搜索!
分享路徑:http://muchs.cn/article44/soieee.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供品牌網(wǎng)站設(shè)計、全網(wǎng)營銷推廣網(wǎng)站建設(shè)、營銷型網(wǎng)站建設(shè)網(wǎng)站營銷、自適應(yīng)網(wǎng)站

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

h5響應(yīng)式網(wǎng)站建設(shè)