星環(huán)信息孫元浩:Hadoop推動(dòng)現(xiàn)代數(shù)據(jù)倉庫技術(shù)的深刻變革

互聯(lián)網(wǎng)IDC圈4月27日報(bào)道,互聯(lián)網(wǎng)的發(fā)展使得大數(shù)據(jù)引起人們廣泛關(guān)注?,F(xiàn)如今大數(shù)據(jù)技術(shù)早已滲透到金融、通訊等行業(yè)以及生物學(xué)、物理學(xué)等領(lǐng)域。大數(shù)據(jù)在容量、多樣性和高增速方面的爆炸式增長全面考驗(yàn)著現(xiàn)代企業(yè)的數(shù)據(jù)處理和分析能力,與此同時(shí)也為各個(gè)行業(yè)帶來了準(zhǔn)確洞察市場行為的機(jī)會(huì)。迄今為止大數(shù)據(jù)技術(shù)與產(chǎn)品有哪些創(chuàng)新,工業(yè)大數(shù)據(jù)應(yīng)用面臨哪些挑戰(zhàn),金融行業(yè)大數(shù)據(jù)應(yīng)用現(xiàn)狀如何等。圍繞這一系列問題,4月27日至28日,由工業(yè)和信息化部指導(dǎo)、中國信息通信研究院主辦的"2016大數(shù)據(jù)產(chǎn)業(yè)峰會(huì)"在北京國際會(huì)議中心盛大召開。在27日大數(shù)據(jù)技術(shù)與產(chǎn)品創(chuàng)新分論壇中星環(huán)信息科技的創(chuàng)始人&CTO孫元浩分享了在互聯(lián)網(wǎng)+時(shí)代,Hadoop推動(dòng)現(xiàn)代數(shù)據(jù)倉庫技術(shù)的深刻變革。

成都創(chuàng)新互聯(lián)公司成立于2013年,先為烏翠等服務(wù)建站,烏翠等地企業(yè),進(jìn)行企業(yè)商務(wù)咨詢服務(wù)。為烏翠企業(yè)網(wǎng)站制作PC+手機(jī)+微官網(wǎng)三網(wǎng)同步一站式服務(wù)解決您的所有建站問題。

500-333文章照片-大數(shù)據(jù)技術(shù)與產(chǎn)品創(chuàng)新-孫元浩

星環(huán)信息科技的創(chuàng)始人&CTO孫元浩

以下是孫元浩演講實(shí)錄:

孫元浩:Hadoop已經(jīng)經(jīng)過了10年的發(fā)展,從2006年到今天剛好是10年時(shí)間。這10年當(dāng)中,Hadoop從雅虎一家開源的技術(shù)平臺(tái),逐漸的被更多的互聯(lián)網(wǎng)公司使用,到今天在很多的企業(yè)當(dāng)中在使用這個(gè)新的技術(shù),我們也見證了這個(gè)技術(shù)的飛速發(fā)展。它的應(yīng)用的廣度也超出了原來Hadoop設(shè)計(jì)的想像,早期的Hadoop是為了仿造Google的搜索引擎建造的,今天我們看到Hadoop的應(yīng)用已經(jīng)開始深入到企業(yè)的各個(gè)應(yīng)用領(lǐng)用當(dāng)中。當(dāng)時(shí)我估計(jì)在2016年、2017年是新技術(shù)戰(zhàn)略的轉(zhuǎn)折點(diǎn),意味著這個(gè)技術(shù)已經(jīng)到達(dá)了一定程度,在各個(gè)領(lǐng)域當(dāng)中可能會(huì)有飛速的應(yīng)用,可能會(huì)比去年和前年有一個(gè)數(shù)量級的提升。

我今天首先會(huì)介紹一下我們公司,技術(shù)人員可能對我們公司很了解,很多其他行業(yè)的朋友不一定了解我們公司。我們是一家專門做Hadoop技術(shù)的公司,我們從2013年成立到現(xiàn)在有3年時(shí)間,發(fā)展還是比較快的。我們專注在底層開發(fā)下面,我們開發(fā)的代碼量接近1千萬行,我們的產(chǎn)品加起來將近3千萬行。在去年下半年被Gartner提到我們公司,我們也是全球四大Hadoop廠商之一,我們今天也有幸成為Gartner數(shù)據(jù)倉模擬象限的一家中國公司。描述了哪些產(chǎn)品具有哪些特點(diǎn)?,F(xiàn)在大家可以看到,這邊大部分都是一些大型公司,我們被放在了最右邊的位置,表示國外媒體對于我們技術(shù)的領(lǐng)先性和完備性還是有高度認(rèn)可的,但是我們的規(guī)模會(huì)比他們低。目前來講,我們客戶的數(shù)量還是比較多的。

下面我們來介紹一下Hadoop的應(yīng)用。剛才講到,我們認(rèn)為Hadoop未來一段時(shí)間會(huì)進(jìn)入戰(zhàn)略整合點(diǎn),被客戶接受的速度會(huì)迅速提升。最左邊是一個(gè)報(bào)告,是收費(fèi)報(bào)告,統(tǒng)計(jì)了美國市場上面Hadoop應(yīng)用的分類,大部分Hadoop用戶主要是60%的客戶,20%的客戶是交互式BI的,用于報(bào)表式工具跟Hadoop對接,還有國內(nèi)的可視化公司也在跟Hadoop對接。在美國有幾十家這樣的公司專注做數(shù)據(jù)分析和可視化,所以這個(gè)應(yīng)用場景大概有25%。還有6%的客戶是做輕量級的應(yīng)用,主要是使用了Hbase分布式系統(tǒng)來做數(shù)據(jù)的查詢,這個(gè)比例不是太高,有6%。還有4%的客戶是用來做文檔數(shù)據(jù)庫,5%的客戶是用來做流處理。

右邊這場圖是我們星環(huán)從幾百個(gè)客戶當(dāng)中統(tǒng)計(jì)出來的分類,有一定的代表性,但是不是全部的數(shù)據(jù)。從中可以看到中國市場和美國市場有比較大的不同,這個(gè)數(shù)據(jù)我們提交上去,他們已經(jīng)把我們的數(shù)據(jù)放到他們的報(bào)告當(dāng)中去了。我們看到有56%的客戶做數(shù)據(jù)倉庫,我們做數(shù)據(jù)倉庫有一定的優(yōu)勢,我們非常完整,支持分布式處理,支持這個(gè)存儲(chǔ)過程,所以有一部分客戶已經(jīng)從數(shù)據(jù)庫直接牽引到我們的上面來。這種新的業(yè)務(wù)模式在用到國內(nèi)的時(shí)候還不是這么快,有一類是比較特殊的,就是我們做OITP用的,做簡單快速查詢的應(yīng)用比較多,這其實(shí)反應(yīng)了我們國家的數(shù)據(jù)量比美國的客戶大很多,我們中國一個(gè)省的用戶就是美國AT&T全國的用戶,這一塊反而有一批客戶在用這種簡單的數(shù)據(jù)庫,2%的客戶在做文檔數(shù)據(jù)庫,這也反映了在美國NoSQL有4%的使用率。有一個(gè)不同的地方,流處理這一塊在中國的應(yīng)用場景比較多,有10%的客戶,解決我們有10%在做流處理,主要是分布在實(shí)時(shí)的金融交易、傳感器網(wǎng)絡(luò)和工業(yè)4.0里面,2008年、2009年我們國家建立了大量的傳感器,包括物聯(lián)網(wǎng),這一塊使得我們在客戶當(dāng)中有比較多的在用這種做數(shù)據(jù)處理,這也反映了我們國家的工業(yè)4.0其實(shí)已經(jīng)具備一定的條件了,可能比美國還要更領(lǐng)先一些。

大家可以看到,大部分的Hadoop用戶都在用這個(gè)技術(shù)來做數(shù)據(jù)倉庫,我們后面講一下為什么是這種場景。數(shù)據(jù)倉庫是一個(gè)比較全的概念,通常不是指一類技術(shù),是所有數(shù)據(jù)的組合,會(huì)是所有數(shù)據(jù)的集散地,企業(yè)會(huì)把所有的數(shù)據(jù)放在數(shù)據(jù)倉庫里面對外提供服務(wù)。過去這么多年數(shù)據(jù)庫面臨一些挑戰(zhàn),數(shù)據(jù)增加比較快,傳統(tǒng)的數(shù)據(jù)庫已經(jīng)不能處理,效率提升得比較慢,我們碰到一個(gè)很大的客戶,是一個(gè)著名的廠商,這是一個(gè)顯著的瓶頸。原來的關(guān)鍵數(shù)據(jù)庫只處理結(jié)構(gòu)化處理,現(xiàn)在需要一些新的技術(shù)處理半結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù)。隨著數(shù)據(jù)倉庫越來越多,用戶也越來越多,通常用戶有上百個(gè)數(shù)據(jù)源,上面支撐幾十個(gè)業(yè)務(wù)部門,甚至是幾十個(gè)分支機(jī)構(gòu),一個(gè)銀行可能有30幾家分行,這些分支機(jī)構(gòu)訪問數(shù)據(jù)的時(shí)候都通過這個(gè)數(shù)據(jù)倉庫,對數(shù)據(jù)的隔離、訪問資源的管理就變成了一個(gè)迫切要解決的問題。

傳統(tǒng)數(shù)據(jù)倉庫是T+1的,在當(dāng)天分析前一天的數(shù)據(jù),但是更多的企業(yè)希望能夠?qū)?shù)據(jù)進(jìn)行實(shí)時(shí)分析,希望能夠做到T+0,這一塊也是對數(shù)據(jù)倉庫構(gòu)成的一個(gè)挑戰(zhàn)。這一塊就是有一些國外的咨詢機(jī)構(gòu)和公司提出的,希望能夠做實(shí)時(shí)的數(shù)據(jù)處理。剛才我們看到有一個(gè)概念是幾年前提出來的邏輯數(shù)據(jù)倉庫,能夠處理多種數(shù)據(jù)源,做數(shù)據(jù)管理。還有一個(gè)特點(diǎn)也是現(xiàn)在大家在使用新技術(shù)的時(shí)候一個(gè)驅(qū)動(dòng)力,原來是對于過去歷史的統(tǒng)計(jì)。今天大家發(fā)現(xiàn),以前做數(shù)據(jù)模型,比如說像銀行里的十大主題模型,或者八大主題模型,他們有幾千張表,中間的表可能有上萬張,關(guān)系相對來說是固定的。一旦你的業(yè)務(wù)發(fā)生變化,你可能要對整個(gè)層面做修改。今天大家希望有一個(gè)自助的方法,能夠用機(jī)器學(xué)習(xí)的方法發(fā)現(xiàn)數(shù)據(jù)的管理,而不是發(fā)現(xiàn)統(tǒng)計(jì)的結(jié)果,甚至是統(tǒng)計(jì)報(bào)告對于他們不夠。所以這一塊現(xiàn)在有的提出來一個(gè)設(shè)計(jì)模式,就是我不需要知道這些數(shù)據(jù)它們之間的關(guān)聯(lián)關(guān)系,我是通過機(jī)器學(xué)習(xí)的方法,機(jī)器自動(dòng)來學(xué)習(xí)發(fā)現(xiàn)他們的規(guī)律。這實(shí)際上也對應(yīng)了大數(shù)據(jù)的4V,數(shù)據(jù)量、數(shù)據(jù)變化、數(shù)據(jù)實(shí)時(shí)性以及數(shù)據(jù)挖掘,剛好是4V。其實(shí)在數(shù)據(jù)倉庫里面,其實(shí)也是沿著這個(gè)方向演變出來的四個(gè)不同的設(shè)計(jì)模式。

在解決數(shù)量大的問題上面大家已經(jīng)形成了共識,需要用分布式的方法,用橫向的方式。從早期的單機(jī)到90年代的并行數(shù)據(jù)庫,是把數(shù)據(jù)庫的引擎并行化了,把計(jì)算并行化了,但是存儲(chǔ)仍然是集中化的,集中化的存儲(chǔ)仍然是一個(gè)瓶頸。后來把計(jì)算分離了,但是計(jì)算的引擎不具有可擴(kuò)展性,容錯(cuò)性比較差。到了Hadoop的時(shí)候,大家發(fā)現(xiàn)可以有一種因的模式,同時(shí)對數(shù)據(jù)和計(jì)算進(jìn)行分布式計(jì)算,對于數(shù)據(jù)進(jìn)行分布式存儲(chǔ),同時(shí)兼顧擴(kuò)展性和容錯(cuò)性。這一塊基本上大家發(fā)現(xiàn),這個(gè)計(jì)算模式是處理大規(guī)模數(shù)據(jù)的一個(gè)最佳模式,這個(gè)擴(kuò)展性和容錯(cuò)性都有很大的問題。所以很多的Hadoop引擎都回歸到這個(gè)計(jì)算模式上來。我們在SQL這一塊做的比較突出,能夠跑完整個(gè)過程?,F(xiàn)在我們最新發(fā)布的4.0版本性能又比這個(gè)有兩倍的提升,所以現(xiàn)在除了100TB的用三臺(tái)機(jī)器,其他的都可以用兩臺(tái)機(jī)器完成。

分布式計(jì)算是解決了性能的問題,那么怎么解決數(shù)據(jù)源的問題,怎么解決這個(gè)問題,我們提出了邏輯數(shù)據(jù)倉庫的概念。邏輯數(shù)據(jù)倉庫要滿足三個(gè)特性,首先需要有一個(gè)集中化的存儲(chǔ),把所有的數(shù)據(jù)全部集中起來,而不是分散在不同的地方。另外需要有一個(gè)數(shù)據(jù)聯(lián)邦的概念,能夠跨多種數(shù)據(jù)源,能夠有統(tǒng)一的接口。通過統(tǒng)一的SQL層,或者是一個(gè)界面能夠來訪問到所有的數(shù)據(jù)源,中間有結(jié)構(gòu)化數(shù)據(jù),還有非結(jié)構(gòu)化數(shù)據(jù)。另外必然是需要一個(gè)分布式計(jì)算,同時(shí)上面有多租戶管理,還有原數(shù)據(jù)管理,整個(gè)形成了一個(gè)邏輯數(shù)據(jù)倉庫的概念。邏輯數(shù)據(jù)倉庫其中一個(gè)非常重要的特性就是要做數(shù)據(jù)聯(lián)邦,能夠訪問多種不同的數(shù)據(jù)源。這一塊我們有一個(gè)比較好的產(chǎn)品,可以跨多種數(shù)據(jù)源進(jìn)行交叉。 

在邏輯數(shù)據(jù)倉庫當(dāng)中需要用資源管理,要實(shí)現(xiàn)兩層,數(shù)據(jù)保護(hù)通過不同的訪問規(guī)則來控制對數(shù)據(jù)的不同訪問,其次我們需要對資源進(jìn)行一個(gè)比較好的隔離。這一塊我們現(xiàn)在也采用了一些嘗試,我們現(xiàn)在發(fā)布了一個(gè)產(chǎn)品是TOS,我們的調(diào)動(dòng)引擎是完全自己開發(fā)的。另外一個(gè)題外話,我們在明年的產(chǎn)品當(dāng)中有自己的存儲(chǔ)引擎,所以在未來的一段時(shí)間之內(nèi),大家看不到Hadoop的影子了,我們已經(jīng)幾乎把這個(gè)東西全部實(shí)現(xiàn)了。

在這一塊,上層我們會(huì)借助這個(gè)容器把這個(gè)東西所有的標(biāo)準(zhǔn)化容器放在一個(gè)里面,所有的服務(wù)都可以自動(dòng)通過組裝方式來構(gòu)建這個(gè)應(yīng)用。整個(gè)實(shí)現(xiàn)了兩個(gè)特點(diǎn),一個(gè)是解決了應(yīng)用標(biāo)準(zhǔn)化的問題,通過容器來實(shí)現(xiàn),另外是實(shí)現(xiàn)了運(yùn)維自動(dòng)化的問題,整個(gè)平臺(tái)我們通過調(diào)度器來進(jìn)行管理,自動(dòng)擴(kuò)容、自動(dòng)收縮,出故障會(huì)自動(dòng)修復(fù),在運(yùn)維上極大的減輕了IT部門的壓力。這一塊因?yàn)椴捎萌萜鳎綦x性非常好,可以使得不同部門之間共享一套平臺(tái)。

這個(gè)設(shè)計(jì)模式是借助流處理,我們在這里不詳細(xì)講了?,F(xiàn)在隨著工業(yè)4.0的發(fā)展,物聯(lián)網(wǎng)越來越多,大家需要通過新的技術(shù)對數(shù)據(jù)進(jìn)行實(shí)時(shí)處理。過去能夠完成數(shù)據(jù)的實(shí)時(shí)存儲(chǔ),但是不能做實(shí)時(shí)分析。應(yīng)用的需求總是希望越來越復(fù)雜,需要對這個(gè)計(jì)算平臺(tái)的能力越來越高,這一塊我們需要在流上面支持復(fù)雜的SQL,比如說存儲(chǔ)過程,甚至是機(jī)器學(xué)習(xí)。目前這一款產(chǎn)品也是我們比較有特色的,要遠(yuǎn)遠(yuǎn)超過國外友商的產(chǎn)品,我們可以在流的產(chǎn)品上面支持非常復(fù)雜的SQL,也能夠在流上做機(jī)器學(xué)習(xí)。這也是我們用流數(shù)據(jù)來實(shí)現(xiàn)的一個(gè)重要手段。

這個(gè)設(shè)計(jì)架構(gòu)基本上要從原來對于歷史數(shù)據(jù)的分析轉(zhuǎn)變成對于數(shù)據(jù)規(guī)律的探索以及未來的預(yù)測上面。這一塊我們采用的方式,其實(shí)是分成幾個(gè)階段,首先是數(shù)據(jù)清洗,選取特征,再就是建模,還有就是把一個(gè)計(jì)算模型能夠應(yīng)用或者是展現(xiàn),作為決策支持。我們在這一塊我們是通過SQL引擎來做加工,對外完整的提供接口,所有的對表的措施都是用原生操作來實(shí)現(xiàn)的,內(nèi)部我們會(huì)自動(dòng)的定義。另外我們也是現(xiàn)在的算法,分類、聚類、反樣回歸的神經(jīng)網(wǎng)絡(luò),做時(shí)序的關(guān)聯(lián)分析,都已經(jīng)整個(gè)用分布式方法重新實(shí)現(xiàn)了一遍,也提供了二元的接口,用戶可以直接來做這個(gè)數(shù)據(jù)建模。這一塊我們現(xiàn)在看到在國內(nèi)應(yīng)用不是特別多,大概只有8%的客戶在用機(jī)器學(xué)習(xí)。當(dāng)然趨勢是非??斓模幸恍┛蛻艚ê眠@個(gè)Hadoop平臺(tái)以后,在想怎么從數(shù)據(jù)當(dāng)中發(fā)掘價(jià)值,就需要這種產(chǎn)品。其實(shí)有很多咨詢機(jī)構(gòu),包括大數(shù)據(jù)應(yīng)用的第一個(gè)難點(diǎn)是沒有一個(gè)好的工具來做數(shù)據(jù)挖掘,不能從數(shù)據(jù)當(dāng)中發(fā)揮價(jià)值,妨礙大家去應(yīng)用這種新的技術(shù)。我們的目標(biāo)是希望提供一個(gè)非常易用的,但是非常強(qiáng)大的一個(gè)工具,讓大家能夠非常容易的發(fā)掘數(shù)據(jù)的價(jià)值。

綜合起來我們看到,在整個(gè)數(shù)據(jù)倉庫建設(shè)當(dāng)中,我們可以借助新的平臺(tái),就可以把原來的架構(gòu)重新設(shè)計(jì)一下,整個(gè)數(shù)據(jù)源通過實(shí)時(shí)和半實(shí)時(shí)的方式,可以進(jìn)入一個(gè)邏輯數(shù)據(jù)倉庫,甚至可以跨多個(gè)數(shù)據(jù)源進(jìn)行訪問。同時(shí)底下是容器化的平臺(tái)來對外提供數(shù)據(jù)的隔離和訪問控制。

我再介紹一下工信部電信研究院最近在做的性能測試,這個(gè)其實(shí)是結(jié)合了國內(nèi)20多家大數(shù)據(jù)的企業(yè)共同制定的一個(gè)標(biāo)準(zhǔn),是比較公平客觀的標(biāo)準(zhǔn),也是能反映大數(shù)據(jù)的行業(yè)應(yīng)用的一些需求的特點(diǎn),同時(shí)包括今天上午我們也給其他大數(shù)據(jù)廠商做了一個(gè)證書的頒發(fā),我們希望有更多的廠商能夠參與到這個(gè)測試當(dāng)中,也給客戶提供一個(gè)客觀公正的標(biāo)準(zhǔn)。

我今天的演講就到這里,謝謝大家!

網(wǎng)站題目:星環(huán)信息孫元浩:Hadoop推動(dòng)現(xiàn)代數(shù)據(jù)倉庫技術(shù)的深刻變革
網(wǎng)頁網(wǎng)址:http://muchs.cn/article42/soephc.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供移動(dòng)網(wǎng)站建設(shè)、微信公眾號、商城網(wǎng)站網(wǎng)頁設(shè)計(jì)公司、Google動(dòng)態(tài)網(wǎng)站

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)

網(wǎng)站優(yōu)化排名