Hadoop如何迎擊大數(shù)據(jù)分析的挑戰(zhàn)

大數(shù)據(jù)分析是現(xiàn)在十分火熱的話題，從農(nóng)業(yè)到工業(yè)、從金融到體育、從傳統(tǒng)企業(yè)到初創(chuàng)公司，各行各業(yè)都在積極應(yīng)用大數(shù)據(jù)分析，似乎你的企業(yè)不和大數(shù)據(jù)沾點邊就會顯得沒有逼格一樣。

創(chuàng)新互聯(lián)公司2013年成立，是專業(yè)互聯(lián)網(wǎng)技術(shù)服務(wù)公司，擁有項目網(wǎng)站設(shè)計制作、成都網(wǎng)站制作網(wǎng)站策劃，項目實施與項目整合能力。我們以讓每一個夢想脫穎而出為使命，1280元天祝藏族自治做網(wǎng)站,已為上家服務(wù),為天祝藏族自治各地企業(yè)和個人服務(wù),聯(lián)系電話:028-86922220

隨著大數(shù)據(jù)分析的持續(xù)走紅，大數(shù)據(jù)分析工具也呈現(xiàn)出了遍地開花的態(tài)勢，我們今天要說的Hadoop就是其中之一。

Hadoop是Apache開發(fā)的一個開源項目，短短幾年的時間，我們就見證了Hadoop從無到有、從簡陋到穩(wěn)定的轉(zhuǎn)變。目前Hadoop因其具有高度可擴展性，靈活性和成本效益，已經(jīng)成為大數(shù)據(jù)分析的理想工具。

Hadoop對大數(shù)據(jù)存儲和預(yù)測分析有什么好處?

Apache Hadoop軟件庫是一個框架，允許在集群服務(wù)器上使用簡單的編程模型對大數(shù)據(jù)集進行分布式處理，它的可擴展性非常好，可以從單臺服務(wù)器擴展到數(shù)以千計的服務(wù)器。Hadoop在大數(shù)據(jù)存儲和分析方面表現(xiàn)十分出色：

低故障率

每臺機器都會進行數(shù)據(jù)復(fù)制，這一特點也使得Hadoop成為大文件備份的一個好選擇。當(dāng)一個節(jié)點復(fù)制了一個數(shù)據(jù)塊，那么同一數(shù)據(jù)集群中的其他節(jié)點也會復(fù)制。數(shù)據(jù)備份跨越多個節(jié)點，所以數(shù)據(jù)被永久改變或破壞的可能性非常小，系統(tǒng)的容錯性也隨之提高了。

成本效益

Hadoop是最具成本效益的大數(shù)據(jù)分析和存儲解決方案之一。根據(jù)Cloudera的研究，Hadoop存儲數(shù)據(jù)的成本僅僅是其它大數(shù)據(jù)存儲解決方案很小的一部分。

Cloudera公司產(chǎn)品副總裁Zedlewski Zedlewski認為，目前網(wǎng)絡(luò)存儲的市場行情大約是1TB數(shù)據(jù)5000美元，在具體情況下可能會有價格的上下浮動。在數(shù)據(jù)庫、數(shù)據(jù)集市、數(shù)據(jù)倉庫以及相關(guān)的硬件領(lǐng)域，通常1TB數(shù)據(jù)的價格可能要達到10000美元到15000美元。

靈活性

Hadoop是一個非常靈活的解決方案，用戶可以使用SQL輕松添加提取結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)集。這一特點對醫(yī)療行業(yè)來說特別有價值，因為醫(yī)療行業(yè)需要不斷地更新患者記錄。根據(jù)Dezyre報告顯示：,美國醫(yī)療保健行業(yè)內(nèi)大的軟件及服務(wù)提供商Sage已經(jīng)在利用Hadoop進行基因組學(xué)、癌癥治療以及患者生命監(jiān)測等相關(guān)工作。

可擴展性

Hadoop支持高度可擴展，它可以存儲TB級數(shù)據(jù)，并同時運行數(shù)千個數(shù)據(jù)節(jié)點。

利用SQL迎擊Hadoop和大數(shù)據(jù)分析的挑戰(zhàn)

Hadoop與SQL兼容，所以適用范圍廣泛，用戶可以使用多種SQL方法來提取和使用Hadoop存儲的大數(shù)據(jù)，如果已經(jīng)熟練掌握了SQL，那么Hadoop就可能成為最佳的大數(shù)據(jù)分析解決方案。

但是如果想要從Hadoop中提取數(shù)據(jù)，那么就需要一個復(fù)雜的SQL引擎，目前市面上有很多開源解決方案，Apache Hive就是其中之一。

Apache Hive有三個主要功能：運行數(shù)據(jù)查詢、匯總數(shù)據(jù)、大數(shù)據(jù)分析，它可以自動將SQL查詢轉(zhuǎn)換為Hadoop MapReduce作業(yè)，但是它有一個很大的缺點就是它隨著數(shù)據(jù)集群的大小會有時間延遲的問題。

“Hive本身就不是為OLTP工作負載設(shè)計的，所以不提供實時查詢或行級更新，它更適合于大量僅附加數(shù)據(jù)(如Web日志)的批處理作業(yè)。”Hive在大數(shù)據(jù)集項目上的時間延遲十分明顯，因此它不適合需要實時分析數(shù)據(jù)的可擴展項目。

除了Hadoop Hive之外，還有一些其它的SQL引擎：

Rick van der Lans報告表示：上圖這些解決方案基本上都能夠彌補Apache Hive的不足，它們的特性之一就是多語言持久性，這一特性意味著它們既可以跨數(shù)據(jù)庫訪問數(shù)據(jù)，也可以訪問存儲在Hadoop上的數(shù)據(jù)。另外，目前也有很多用于實時大數(shù)據(jù)分析的應(yīng)用程序。

InfoWorld報告顯示目前Spark、Storm和DataTorrent是Hadoop實時大數(shù)據(jù)分析領(lǐng)域的三大領(lǐng)先解決方案，目前Hadoop中的流數(shù)據(jù)實時處理通常會選擇Storm或Spark，而DataTorrent是開源自一個之前的商業(yè)產(chǎn)品，現(xiàn)在已經(jīng)加入到了Hadoop戰(zhàn)局中。

分享文章：Hadoop如何迎擊大數(shù)據(jù)分析的挑戰(zhàn)
轉(zhuǎn)載來于：http://muchs.cn/article24/soooce.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供響應(yīng)式網(wǎng)站、服務(wù)器托管、云服務(wù)器、App開發(fā)、網(wǎng)站改版、網(wǎng)頁設(shè)計公司

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容