云上運(yùn)行Hadoop會(huì)面臨哪些挑戰(zhàn)

互聯(lián)網(wǎng)IDC圈6月15日?qǐng)?bào)道,在云上運(yùn)行Hadoop,很多人擔(dān)心性能。因?yàn)橐惶岬教摂M化就會(huì)有人想到有成本,往往得出有偏見(jiàn)的結(jié)論-在云上運(yùn)行肯定比物理機(jī)器上運(yùn)行性能差。確實(shí),在云上運(yùn)行Hadoop對(duì)平臺(tái)方還是面臨一些挑戰(zhàn)的,下面主要講述這些挑戰(zhàn)及平臺(tái)方怎么解決的。

創(chuàng)新互聯(lián)主營(yíng)玉山網(wǎng)站建設(shè)的網(wǎng)絡(luò)公司,主營(yíng)網(wǎng)站建設(shè)方案,手機(jī)APP定制開(kāi)發(fā),玉山h5重慶小程序開(kāi)發(fā)搭建,玉山網(wǎng)站營(yíng)銷推廣歡迎玉山等地區(qū)企業(yè)咨詢

前言

在云上運(yùn)行Hadoop,很多人擔(dān)心性能。因?yàn)橐惶岬教摂M化就會(huì)有人想到有成本,往往得出有偏見(jiàn)的結(jié)論-在云上運(yùn)行肯定比物理機(jī)器上運(yùn)行性能差。如果單獨(dú)把10臺(tái)物理機(jī)虛擬化跑Hadoop,這肯定是有部分性能的開(kāi)銷的。但是如果在公共云上,情況就不是這樣了。因?yàn)楣苍铺摂M化的開(kāi)銷最終是由平臺(tái)方來(lái)承擔(dān)的,其一是平臺(tái)方采購(gòu)機(jī)器有規(guī)模優(yōu)勢(shì),其二平臺(tái)方可以在保證虛擬機(jī)性能的情況超賣(mài)部分資源。

平臺(tái)賣(mài)給用戶8core32g的虛擬機(jī)就保證有這個(gè)規(guī)格的能力的。結(jié)合云上的彈性優(yōu)勢(shì),企業(yè)的總體成本是會(huì)下降的。

在云上運(yùn)行Hadoop對(duì)平臺(tái)方還是面臨一些挑戰(zhàn)的,下面主要講述這些挑戰(zhàn)及平臺(tái)方怎么解決的。

云上Hadoop的挑戰(zhàn)-Shuffle

Shuffle分為Push模式,Pull模式。Push模式就是直接通過(guò)網(wǎng)絡(luò)發(fā)送到下一個(gè)節(jié)點(diǎn),比如:storm、flink。Pull模式就是數(shù)據(jù)先存儲(chǔ)在本地,再啟動(dòng)下一個(gè)節(jié)點(diǎn)拉取數(shù)據(jù),比如:Hadoop MR、Spark。

在push模式下,主要瓶頸點(diǎn)是網(wǎng)絡(luò)。在一般的云環(huán)境中,網(wǎng)絡(luò)跟線下沒(méi)有太多的區(qū)別,可以滿足需求。

在pull模式下,主要瓶頸點(diǎn)是磁盤(pán)。在云環(huán)境中,會(huì)提供本地磁盤(pán)或者用SDD加速的方案。如下:

另外:

根據(jù)spark社區(qū)的報(bào)告,在機(jī)器學(xué)習(xí)等很多場(chǎng)景下,瓶頸點(diǎn)現(xiàn)在是CPU了

云上Hadoop的挑戰(zhàn)-數(shù)據(jù)本地化

數(shù)據(jù)本地化含義是分析時(shí),把計(jì)算移動(dòng)到數(shù)據(jù)節(jié)點(diǎn)的。如果計(jì)算存儲(chǔ)分離,則存在數(shù)據(jù)放在OSS中,需要從OSS遠(yuǎn)程拉取數(shù)據(jù)。一般情況下,認(rèn)為這樣會(huì)有性能問(wèn)題。

當(dāng)前,網(wǎng)絡(luò)的帶寬發(fā)展非常快:

從09年到16年對(duì)比,大約帶寬提升100倍左右,讓大家影響深刻的是家庭帶寬從4Mbps到了100Mbps了,4G也流行起來(lái)了,筆者現(xiàn)在基本不在電腦上存放電影,直接在線看的?,F(xiàn)在很多機(jī)房在做100Gbps點(diǎn)到點(diǎn)的帶寬。磁盤(pán)本身并沒(méi)有太大的吞吐量的提升。還可以采取壓縮算法把存儲(chǔ)量減少。在 ETL場(chǎng)景下,往往只需要晚上運(yùn)行數(shù)個(gè)小時(shí),對(duì)性能本身不是太敏感;機(jī)器學(xué)習(xí)場(chǎng)景需要內(nèi)存緩存數(shù)據(jù);流式計(jì)算本身數(shù)據(jù)在移動(dòng)的。

整體來(lái)講,會(huì)隨著帶寬的增加、業(yè)務(wù)場(chǎng)景的實(shí)時(shí)化、多元化,數(shù)據(jù)本地化不是必須的。

云上Hadoop的挑戰(zhàn)-自動(dòng)化運(yùn)維

作業(yè)的管理、任務(wù)編排、監(jiān)控、報(bào)警這些基本功能都還好。Hadoop本身非常復(fù)雜,如果Hadoop本身出現(xiàn)點(diǎn)什么問(wèn)題,則會(huì)影響作業(yè)的運(yùn)行。

這些問(wèn)題包括但是不僅限于:

Master掛 各種日志清理等 節(jié)點(diǎn)掛掉,自動(dòng)補(bǔ)回 Datanode掉線處理 NodeManager掉線處理 Job運(yùn)行監(jiān)控報(bào)警 負(fù)載過(guò)高監(jiān)控報(bào)警 節(jié)點(diǎn)數(shù)據(jù)均衡 單節(jié)點(diǎn)擴(kuò)容 版本自動(dòng)升級(jí) 重要數(shù)據(jù)備份 Hbase等指標(biāo)監(jiān)控報(bào)警 Storm等指標(biāo)監(jiān)控報(bào)警

我們需要自動(dòng)化診斷這些問(wèn)題并在用戶、平臺(tái)的共同參與下把這些問(wèn)題解決。

云上Hadoop的挑戰(zhàn)-專家建議

是否需要擴(kuò)容

Hive SQL,可以給SQL評(píng)分,給出最優(yōu)寫(xiě)法

分析存儲(chǔ),比如:指明是否需要壓縮;小文件是否過(guò)多,是否需要合并;訪問(wèn)記錄分析,是否可以把冷數(shù)據(jù)歸檔處理

分析運(yùn)行時(shí)各種JOB統(tǒng)計(jì)信息,如:Job的map時(shí)間是否過(guò)小,運(yùn)行時(shí)reduce是否數(shù)據(jù)傾斜,單個(gè)job是否有一些參數(shù)調(diào)整

這個(gè)主要是針對(duì)存儲(chǔ)、作業(yè)調(diào)優(yōu)的,優(yōu)化性能之類的。在一般企業(yè)內(nèi)部是沒(méi)有這套系統(tǒng)的。云上可以做成一套這樣的系統(tǒng),幫助廣大的中小企業(yè)

網(wǎng)站題目:云上運(yùn)行Hadoop會(huì)面臨哪些挑戰(zhàn)
本文鏈接:http://muchs.cn/article30/chpdso.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供關(guān)鍵詞優(yōu)化、手機(jī)網(wǎng)站建設(shè)、全網(wǎng)營(yíng)銷推廣、網(wǎng)站設(shè)計(jì)電子商務(wù)、自適應(yīng)網(wǎng)站

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

成都app開(kāi)發(fā)公司