想要從大數(shù)據(jù)中獲益?請先做好Hadoop管理

Hadoop管理正在成為大數(shù)據(jù)用戶和供應(yīng)商首先考慮的分部署處理框架,它在企業(yè)的業(yè)務(wù)運營中扮演著越來越重要的角色。

成都創(chuàng)新互聯(lián)于2013年開始,是專業(yè)互聯(lián)網(wǎng)技術(shù)服務(wù)公司,擁有項目成都做網(wǎng)站、網(wǎng)站制作、成都外貿(mào)網(wǎng)站建設(shè)網(wǎng)站策劃,項目實施與項目整合能力。我們以讓每一個夢想脫穎而出為使命,1280元達日做網(wǎng)站,已為上家服務(wù),為達日各地企業(yè)和個人服務(wù),聯(lián)系電話:028-86922220

Comcast公司的IT團隊在對Hadoop數(shù)據(jù)湖泊進行性能管理時,考慮的十分周全。

數(shù)據(jù)湖泊是一個大量信息的集合體,此外還包括成千上萬的CPU和超過30 pb級的存儲容量。為了保證其平穩(wěn)運行,IT團隊實現(xiàn)了主動Hadoop監(jiān)測和數(shù)據(jù)治理過程,此外還包括一系列集群管理工具。

“為確保Comcast'的Hadoop用戶可以正常的運行應(yīng)用程序,我們開始使用數(shù)據(jù)治理功能,”Michael Fagan說道,他是位于Philadelphia的電視電影集團的首席大數(shù)據(jù)架構(gòu)師。管理工作主要包括服務(wù)協(xié)議,用于限制業(yè)務(wù)單元的Hadoop資源利用率,此外還包括自動化的執(zhí)行機制和月度審核機制,用來評估Hadoop的性

對Hadoop集群使用和數(shù)據(jù)存儲的管理是一個很熱門的話題,在San Jose, Calif舉辦的Hadoop 2016峰會上,這個話題被廣泛討論。Fagan 和其他演講者認為,對于那些試圖從大數(shù)據(jù)中獲益的企業(yè)來說,有效的Hadoop管理是必須的。一些供應(yīng)商正在開發(fā)新技術(shù),旨在實現(xiàn)集群監(jiān)控、管理和治理任務(wù)的自動化。

舉例來說,會議的組織者Hortonworks發(fā)布了一個Hadoop的預(yù)覽版,它集成了Atlas 和Ranger。Apache開源技術(shù)可用于給數(shù)據(jù)配置元數(shù)據(jù),加強用戶訪問權(quán)限控制。Hortonworks數(shù)據(jù)平臺(HDP)2.5版本,將于本月晚些時候發(fā)布,它增加了系統(tǒng)日志的搜索功能,通過使用Apache Ambari(一個開源的Hadoop管理工具),提供了基于角色的訪問控制功能。

Hortonworks的競爭對手MapR Technologies推出了Spyglass Initiative項目的第一個組件——Spyglass Initiative項目旨在創(chuàng)建可定制的儀表板,監(jiān)控大數(shù)據(jù)平臺。此外,MapR還將發(fā)布更新各種開源工具,作為其平臺季度更新“包”的一部分,以簡化部署流程;第一個MapR Ecosystem Pack 和MapR Monitoring儀表板都將在本月發(fā)布。與此同時,數(shù)據(jù)集成和分析軟件供應(yīng)商Pentaho發(fā)布了連接到Hadoop數(shù)據(jù)湖泊的基礎(chǔ)設(shè)施參考藍圖。

Hadoop管理的多個方面

Comcast 在它的數(shù)據(jù)湖泊上運行HDP和Cloudera的Hadoop分布平臺——在集群管理方面,它使用了集成Ambari的Hortonworks,Cloudera Manager,以及Pepperdata提供的Hadoop性能管理軟件。為了在Hadoop監(jiān)測數(shù)據(jù)上完成更高級的聚合,該公司還建立了一個本地管理控制臺,稱為Comcast Command Center。

“雖然我們可以從不同的工具中得到很多答案,但我們很難得到一致的答案,”Ray Harrison,Comcast Hadoop平臺團隊的一員說道。

數(shù)據(jù)湖泊是一個多租戶的數(shù)據(jù)環(huán)境,各種用戶“聚集到一起,在同一個一沙盒里操作數(shù)據(jù),”Harrison說。但是這種方法給性能管理帶來了一定的挑戰(zhàn)。Hadoop團隊今年部署500個節(jié)點的集群,為公司數(shù)據(jù)科學家的高級分析應(yīng)用程序服務(wù),但這是必須的,因為這些科學家正在大型數(shù)據(jù)集努力尋找“未知的未知”,這需要強大的計算能力,現(xiàn)有的資源難以應(yīng)付,Harrison說道。

為了跟上集群變化的節(jié)奏,Comcast 特意更新了其資源使用的治理策略,“且在過去的一年內(nèi)更新了數(shù)次,”Fagan說到。下一步是數(shù)據(jù)治理:Hadoop團隊開始推進數(shù)據(jù)治理項目,依靠Atlas技術(shù)來確保每個用戶所使用信息的一致性。

治理為要,科技次之

數(shù)據(jù)治理是Blue Cross Blue Shield of Michigan的首要任務(wù),該大數(shù)據(jù)平臺將于五月上線。在會議的另一次會談中,Detroit一家公司的分析主管,數(shù)據(jù)工程師和數(shù)據(jù)管理者Beata Puncevic說道,她的團隊在2015年4月,項目初期就首先開始著手制定新的數(shù)據(jù)治理流程和策略,而真正開始實施技術(shù)細節(jié)已經(jīng)是五個月之后的事了。

“如果你在部署大數(shù)據(jù)工具之前,沒有制定一個強有力的數(shù)據(jù)治理過程,你很有可能會步履維艱”Puncevic說道。數(shù)據(jù)治理涉及如下步驟,根據(jù)常見數(shù)據(jù)定義,創(chuàng)建業(yè)務(wù)術(shù)語表,制定數(shù)據(jù)使用的新規(guī)則,解決數(shù)據(jù)質(zhì)量和元數(shù)據(jù)管理的問題。“上面說的這些都很無聊”她開玩笑道。“我們一開始做的這些工作與具體技術(shù)無關(guān)。”

原始數(shù)據(jù)被輸入到Hortonworks-based Hadoop集群,然后根據(jù)數(shù)據(jù)治理機制進行精煉,以供分析。該系統(tǒng)最初被用來支持的分析應(yīng)用程序包括用藥和臨床病例記錄系統(tǒng),Puncevic補充說,這可能需要額外三到五年才能完全建立起大數(shù)據(jù)架構(gòu)。

Hadoop監(jiān)測和治理在University of Texas MD Anderson Cancer Center的大數(shù)據(jù)待辦事項上優(yōu)先級很高 ,他們在3月份將一個運行HDP的Hadoop集群投入了生產(chǎn)環(huán)境。這家位于Houston的癌癥治療和研究機構(gòu)使用集群存儲一些重要的統(tǒng)計數(shù)據(jù),這些數(shù)據(jù)收集于病人的床邊傳感器;大數(shù)據(jù)平臺的其他用途還包括對不同實驗室數(shù)據(jù)系統(tǒng)的集成,這些實驗室在以前是完全獨立的,沒有任何聯(lián)系。

傳統(tǒng)的IT管理,治理和安全實踐仍然適用于大數(shù)據(jù)環(huán)境,Vamshi Punugoti,MD Anderson負責信息系統(tǒng)研究的副主任表示。

“從我們的角度來看,沒理由做例外的事,”他說,我們雖然剛剛開始大數(shù)據(jù)的旅程,但這并不意味著我們能以隨意的方式去做。”

本文標題:想要從大數(shù)據(jù)中獲益?請先做好Hadoop管理
路徑分享:http://muchs.cn/article34/chhhse.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供微信小程序、做網(wǎng)站網(wǎng)站設(shè)計、手機網(wǎng)站建設(shè)、網(wǎng)站改版、品牌網(wǎng)站制作

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

小程序開發(fā)