大數(shù)據(jù)中五種開(kāi)源處理技術(shù)分別是什么

大數(shù)據(jù)中五種開(kāi)源處理技術(shù)分別是什么，相信很多沒(méi)有經(jīng)驗(yàn)的人對(duì)此束手無(wú)策，為此本文總結(jié)了問(wèn)題出現(xiàn)的原因和解決方法，通過(guò)這篇文章希望你能解決這個(gè)問(wèn)題。

創(chuàng)新互聯(lián)公司專業(yè)IDC數(shù)據(jù)服務(wù)器托管提供商，專業(yè)提供成都服務(wù)器托管，服務(wù)器租用，雅安服務(wù)器托管，雅安服務(wù)器托管，成都多線服務(wù)器托管等服務(wù)器托管服務(wù)。

你知道么，在現(xiàn)在的市場(chǎng)上超過(guò)25萬(wàn)個(gè)開(kāi)源技術(shù)出現(xiàn)了。圍繞在我們身邊，這些越來(lái)越復(fù)雜的系統(tǒng)，就像我們看到的這樣，看如下圖表：

在最少選擇的情況下我們還是有很多選擇的機(jī)會(huì)。哪些是你的目標(biāo)?哪些是2000家公司接下來(lái)的財(cái)富?哪些項(xiàng)目是可以在真正的產(chǎn)品階段使用的作為可靠的候選?哪些應(yīng)該受到特別關(guān)注呢?我們做了詳細(xì)的研究和測(cè)試，讓我們一起看下5種新的撼動(dòng)大數(shù)據(jù)的技術(shù)。這些是整理的幾組新的工具，讓我們一起來(lái)看看吧。

Storm 和 Kafka 是未來(lái)數(shù)據(jù)流處理的主要方式，它們已經(jīng)在一些大公司中使用率餓，包括 Groupon,阿里巴巴和The Weather Channel等。Storm,誕生于Twitter,是一個(gè)分布式實(shí)時(shí)計(jì)算系統(tǒng)。Storm 設(shè)計(jì)用于處理實(shí)時(shí)計(jì)算,hadoop主要用于處理批處理運(yùn)算。

kafka是由LinkedIn研發(fā)的一款消息系統(tǒng)作為一個(gè)數(shù)據(jù)處理的管道基礎(chǔ)部分存在于系統(tǒng)中。當(dāng)你一起使用它們，你就能實(shí)時(shí)地和線性遞增的獲取數(shù)據(jù)。

你為什么需要關(guān)心?

使用Storm和Kafka,使得數(shù)據(jù)流處理線性的，確保每條消息獲取都是實(shí)時(shí)的，可靠的。前后布置的Storm和Kafka能每秒流暢的處理10000條數(shù)據(jù)。

像Storm和Kafka這樣的數(shù)據(jù)流處理方案使得很多企業(yè)引起關(guān)注并想達(dá)到優(yōu)秀的ETL(抽取轉(zhuǎn)換裝載)的數(shù)據(jù)集成方案。Storm 和 Kafka 也很擅長(zhǎng)內(nèi)存分析和實(shí)時(shí)決策支持。企業(yè)使用批量處理的Hadoop方案無(wú)法也難怪對(duì)實(shí)時(shí)的業(yè)務(wù)需求。在企業(yè)的大數(shù)據(jù)解決方案中實(shí)時(shí)數(shù)據(jù)流處理是一個(gè)必要的模塊，因?yàn)樗軆?yōu)美的處理了“3v”–volume,velocity 和 variety (容量，速率和多樣性)。Storm和Kafka這2種技術(shù)是我們(infochimps)最推薦的技術(shù)，它們也將作為一個(gè)正式組成部分存在于我們的平臺(tái)中。Drill和Dremel 實(shí)現(xiàn)了快速低負(fù)載的大規(guī)模，即席查詢數(shù)據(jù)搜索。它們提供了秒級(jí)搜索P級(jí)別數(shù)據(jù)的可能，來(lái)應(yīng)對(duì)即席查詢和預(yù)測(cè)，及提供強(qiáng)大的虛擬化支持。

Drill和Dremel提供強(qiáng)大的業(yè)務(wù)處理能力，不僅僅只是為數(shù)據(jù)工程師提供。業(yè)務(wù)端的大家都將喜歡Drill和Dremel.Drill 是Google的Dremel的開(kāi)源版本。Dremel是Google提供的支持大數(shù)據(jù)查詢的技術(shù)。公司將用它來(lái)開(kāi)發(fā)自己的工具，這些是導(dǎo)致大家都密切的關(guān)注Drill的原因。雖然這些不是起步，但是開(kāi)源社區(qū)強(qiáng)烈的興趣使得它變得更成熟。

為什么你應(yīng)該關(guān)心?

Drill和Dremel相比Hadoop更好的分析即席查詢。Hadoop僅僅提供批量的數(shù)據(jù)處理工作流，這些也是缺點(diǎn)。

Hadoop生態(tài)圈使得MapReduce作為一個(gè)很親切有利的工具應(yīng)用于廣告分析。從Sawzall到Pig到Hive,很多接口層應(yīng)用的建立使得Hadoop更為友好，更接近業(yè)務(wù)，但是，像SQL體系，這些抽象層忽略一個(gè)重要的事實(shí)–MapReduce(或Hadoop)是為了系統(tǒng)化數(shù)據(jù)處理流程而存在的。如果你不擔(dān)心跑的哪些任務(wù)? 如果你不關(guān)心這些產(chǎn)生的問(wèn)題和去尋求答案，那就保持沉默,保持洞察力?！凹聪剿鳌?— 如果你已經(jīng)承擔(dān)數(shù)據(jù)處理，你這么優(yōu)化處理的速度?你不應(yīng)該運(yùn)行一個(gè)新的任務(wù)或者是等待，有時(shí)候考慮的時(shí)間還不如在問(wèn)個(gè)新的問(wèn)題。

在堆對(duì)比的工作流基礎(chǔ)的方法論中，很多業(yè)務(wù)驅(qū)動(dòng)的BI和分析查詢都是很基本的和臨時(shí)交互的，低延時(shí)分析。寫(xiě)Map/Reduce工作流在很多業(yè)務(wù)分析中是被禁止的。等待幾分鐘等Jobs啟動(dòng)，在等幾個(gè)小時(shí)等執(zhí)行完成這些無(wú)溢于數(shù)據(jù)的交互體驗(yàn)，這些對(duì)比，和縮放比較最終產(chǎn)生了基本的新的視野。一些數(shù)據(jù)科學(xué)家早已經(jīng)推測(cè)Drill和Dremel將優(yōu)于Hadoop，并達(dá)成共識(shí)，也有一些還在考慮中，還有少部分的狂熱者立即擁抱變化，但是這些是主要的優(yōu)點(diǎn)在更面向查詢的和低延時(shí)的情況下。在Infochimps我們喜歡使用Elasticsearch全文索引引擎來(lái)實(shí)現(xiàn)數(shù)據(jù)庫(kù)的數(shù)據(jù)搜索，但是真的在大數(shù)據(jù)處理中我們認(rèn)為Drill將成為主流。

R是開(kāi)源的強(qiáng)大的統(tǒng)計(jì)編程語(yǔ)言。自1997年以來(lái)，超過(guò)200萬(wàn)的統(tǒng)計(jì)分析師使用R。這是一門(mén)誕生自貝爾實(shí)驗(yàn)室的在統(tǒng)計(jì)計(jì)算領(lǐng)域的現(xiàn)代版的S語(yǔ)言并迅速地成為了新的標(biāo)準(zhǔn)的統(tǒng)計(jì)語(yǔ)言。R使得復(fù)雜的數(shù)據(jù)科學(xué)變得更廉價(jià)。R是SAS和SPASS的重要的領(lǐng)頭者，并作為***秀的統(tǒng)計(jì)師的重要工具。

為什么你應(yīng)該關(guān)心?

因?yàn)樗幸粋€(gè)非凡強(qiáng)大的社區(qū)在支持著，你可以找到所有的R的類庫(kù)，創(chuàng)建虛擬的各類型的科學(xué)數(shù)據(jù)而不用新寫(xiě)代碼。R之所以令人興奮是因?yàn)榫S護(hù)他的人和新的每天的創(chuàng)造。R社區(qū)是大數(shù)據(jù)領(lǐng)域令人興奮的地方之一。R在大數(shù)據(jù)領(lǐng)域是一個(gè)超棒的不會(huì)過(guò)時(shí)的技術(shù)。在最近的幾個(gè)月里，幾千個(gè)新特性被日益公開(kāi)的知識(shí)基礎(chǔ)為主的分析類型的分析師們介紹.而且，R和Hadoop協(xié)同的很好，作為一個(gè)大數(shù)據(jù)的處理的部分已經(jīng)被證明了。保持關(guān)注：Julia ，是一個(gè)有趣的R的替代者，因?yàn)樗幌矚gR的死慢死慢的解釋器。Julia的社區(qū)雖然不怎么強(qiáng)大現(xiàn)在，但是如果你不是立即使用它的話，還是可以等等的。Gremlin 和 Giraph 幫助增強(qiáng)圖形分析，并在圖數(shù)據(jù)庫(kù)像Neo4j和InfiniteGraph中被使用，和與Hadoop協(xié)同工作的Giraph中被使用。Golden Orb是另一個(gè)高層面的流處理的圖基礎(chǔ)的項(xiàng)目的例子?？梢钥纯?。圖數(shù)據(jù)庫(kù)是富有魅力的邊緣化的數(shù)據(jù)庫(kù)。它們和關(guān)系型數(shù)據(jù)庫(kù)相比，有著很多有趣的不同點(diǎn)，這個(gè)是當(dāng)你在開(kāi)始的時(shí)候總是想用圖理論而不是關(guān)系型理論。

另一個(gè)類似的圖基礎(chǔ)的理論是Google的Pregel,相比來(lái)說(shuō)Gremlin和Giraph是其的開(kāi)源替代。實(shí)際上，這些都是Google技術(shù)的山寨實(shí)現(xiàn)的例子。圖在計(jì)算網(wǎng)絡(luò)建模和社會(huì)化網(wǎng)絡(luò)方面發(fā)揮著重要作用，能夠連接任意的數(shù)據(jù)。另外一個(gè)經(jīng)常的應(yīng)用是映射和地理信息計(jì)算。從A到B的地點(diǎn)，計(jì)算最短的距離。圖在生物計(jì)算和物理計(jì)算領(lǐng)域也有廣泛的應(yīng)用，例如，他們能繪制不尋常的分子結(jié)構(gòu)。海量的圖，圖數(shù)據(jù)庫(kù)和分析語(yǔ)言和框架都是一種現(xiàn)實(shí)世界上實(shí)現(xiàn)大數(shù)據(jù)中的一部分。圖基礎(chǔ)的理論是一個(gè)殺手級(jí)的應(yīng)用，為什么這么說(shuō)?任何一個(gè)解決大型網(wǎng)絡(luò)節(jié)點(diǎn)問(wèn)題，都是通過(guò)節(jié)點(diǎn)和節(jié)點(diǎn)之間的路徑來(lái)處理的。很多富有創(chuàng)造力的科學(xué)家和工程師們，都很明白的用正確的工具來(lái)解決對(duì)應(yīng)的問(wèn)題。確保他們都能運(yùn)行的漂亮并能被廣泛傳播。

SAP Hana 是一個(gè)全內(nèi)存的分析平臺(tái)，它包含了一個(gè)內(nèi)存數(shù)據(jù)庫(kù)和一些相關(guān)的工具軟件用來(lái)創(chuàng)建分析流程和規(guī)范正確的格式來(lái)進(jìn)行數(shù)據(jù)的輸入輸出。

為什么應(yīng)該關(guān)心?

SAP 開(kāi)始反對(duì)為固化的企業(yè)用戶提高強(qiáng)大的產(chǎn)品，供開(kāi)發(fā)免費(fèi)使用。這個(gè)不僅僅是SAP開(kāi)始為初創(chuàng)著想，讓其使用Hana。他們授權(quán)培養(yǎng)社區(qū)解決方案，這些不尋常的做法是圍繞Hana的結(jié)果。

Hana 假設(shè)其他的程序處理時(shí)候還不夠快的解決遇到的問(wèn)題，例如，金融建模和決策支持，網(wǎng)站個(gè)性化和欺騙檢測(cè)等等。Hana***的缺點(diǎn)是”全內(nèi)存“這意味著訪問(wèn)軟狀態(tài)的內(nèi)存，這個(gè)是很明確的有點(diǎn)，但是這個(gè)也是相比磁盤(pán)存儲(chǔ)來(lái)說(shuō)很昂貴的部分。據(jù)組織者說(shuō)，不用擔(dān)心操作成本，Hana是快速的地延遲的大數(shù)據(jù)處理工具。

D3 本來(lái)不在列表中，但是它的親切感，讓我們認(rèn)為有提它的價(jià)值。D3是一個(gè)javascript面向文檔的可視化的類庫(kù)，。它強(qiáng)大的創(chuàng)新性的讓我們能直接看到信息和讓我們進(jìn)行正常的交互。它的作者是Michael Bostock一個(gè)紐約時(shí)報(bào)的圖形界面設(shè)計(jì)師。例如，你可以使用D3來(lái)從任意數(shù)量的數(shù)組中創(chuàng)建H™l表格。你能使用任意的數(shù)據(jù)來(lái)創(chuàng)建交互進(jìn)度條等。這里是一個(gè)D3的實(shí)際例子，創(chuàng)建2013年奧巴馬的民意情況。使用D3，程序員能之間創(chuàng)建界面，組織所有的各種類型的數(shù)據(jù)。

雖然這篇文章不長(zhǎng)，但是也費(fèi)了我一段實(shí)際來(lái)翻譯，翻譯不足之處希望大家指正。其實(shí)看到這篇文章的時(shí)候，我就很想把它分享給喜歡它的人，得益于一個(gè)開(kāi)放的環(huán)境，所以美國(guó)在IT領(lǐng)域總是這么的讓人驚喜，當(dāng)然我們也得跟上了。

開(kāi)始正式的使用Hadoop已經(jīng)有近一年的時(shí)間的了，這期間從百度出來(lái)，到初見(jiàn)在到現(xiàn)在的BitWare，在不同的公司，用不同的技術(shù)解決問(wèn)題。但是本質(zhì)上遇到的問(wèn)題總是那么幾個(gè)，當(dāng)然現(xiàn)在很多公司也開(kāi)始嘗鮮的使用Hadoop的了。這個(gè)是大環(huán)境是如此，可以理解。

看完上述內(nèi)容，你們掌握大數(shù)據(jù)中五種開(kāi)源處理技術(shù)分別是什么的方法了嗎？如果還想學(xué)到更多技能或想了解更多相關(guān)內(nèi)容，歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道，感謝各位的閱讀！

分享文章：大數(shù)據(jù)中五種開(kāi)源處理技術(shù)分別是什么
文章分享：http://muchs.cn/article12/gdicdc.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供網(wǎng)站制作、定制開(kāi)發(fā)、關(guān)鍵詞優(yōu)化、網(wǎng)站導(dǎo)航、建站公司、移動(dòng)網(wǎng)站建設(shè)

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請(qǐng)盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如需處理請(qǐng)聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來(lái)源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容