星環(huán)信息孫元浩：Hadoop推動(dòng)現(xiàn)代數(shù)據(jù)倉庫技術(shù)的深刻變革

互聯(lián)網(wǎng)IDC圈4月27日報(bào)道，互聯(lián)網(wǎng)的發(fā)展使得大數(shù)據(jù)引起人們廣泛關(guān)注?，F(xiàn)如今大數(shù)據(jù)技術(shù)早已滲透到金融、通訊等行業(yè)以及生物學(xué)、物理學(xué)等領(lǐng)域。大數(shù)據(jù)在容量、多樣性和高增速方面的爆炸式增長全面考驗(yàn)著現(xiàn)代企業(yè)的數(shù)據(jù)處理和分析能力，與此同時(shí)也為各個(gè)行業(yè)帶來了準(zhǔn)確洞察市場行為的機(jī)會(huì)。迄今為止大數(shù)據(jù)技術(shù)與產(chǎn)品有哪些創(chuàng)新，工業(yè)大數(shù)據(jù)應(yīng)用面臨哪些挑戰(zhàn)，金融行業(yè)大數(shù)據(jù)應(yīng)用現(xiàn)狀如何等。圍繞這一系列問題，4月27日至28日，由工業(yè)和信息化部指導(dǎo)、中國信息通信研究院主辦的"2016大數(shù)據(jù)產(chǎn)業(yè)峰會(huì)"在北京國際會(huì)議中心盛大召開。在27日大數(shù)據(jù)技術(shù)與產(chǎn)品創(chuàng)新分論壇中星環(huán)信息科技的創(chuàng)始人&CTO孫元浩分享了在互聯(lián)網(wǎng)+時(shí)代，Hadoop推動(dòng)現(xiàn)代數(shù)據(jù)倉庫技術(shù)的深刻變革。

成都創(chuàng)新互聯(lián)公司成立于2013年，先為烏翠等服務(wù)建站，烏翠等地企業(yè)，進(jìn)行企業(yè)商務(wù)咨詢服務(wù)。為烏翠企業(yè)網(wǎng)站制作PC+手機(jī)+微官網(wǎng)三網(wǎng)同步一站式服務(wù)解決您的所有建站問題。

500-333文章照片-大數(shù)據(jù)技術(shù)與產(chǎn)品創(chuàng)新-孫元浩

星環(huán)信息科技的創(chuàng)始人&CTO孫元浩

以下是孫元浩演講實(shí)錄：

孫元浩：Hadoop已經(jīng)經(jīng)過了10年的發(fā)展，從2006年到今天剛好是10年時(shí)間。這10年當(dāng)中，Hadoop從雅虎一家開源的技術(shù)平臺(tái)，逐漸的被更多的互聯(lián)網(wǎng)公司使用，到今天在很多的企業(yè)當(dāng)中在使用這個(gè)新的技術(shù)，我們也見證了這個(gè)技術(shù)的飛速發(fā)展。它的應(yīng)用的廣度也超出了原來Hadoop設(shè)計(jì)的想像，早期的Hadoop是為了仿造Google的搜索引擎建造的，今天我們看到Hadoop的應(yīng)用已經(jīng)開始深入到企業(yè)的各個(gè)應(yīng)用領(lǐng)用當(dāng)中。當(dāng)時(shí)我估計(jì)在2016年、2017年是新技術(shù)戰(zhàn)略的轉(zhuǎn)折點(diǎn)，意味著這個(gè)技術(shù)已經(jīng)到達(dá)了一定程度，在各個(gè)領(lǐng)域當(dāng)中可能會(huì)有飛速的應(yīng)用，可能會(huì)比去年和前年有一個(gè)數(shù)量級的提升。

我今天首先會(huì)介紹一下我們公司，技術(shù)人員可能對我們公司很了解，很多其他行業(yè)的朋友不一定了解我們公司。我們是一家專門做Hadoop技術(shù)的公司，我們從2013年成立到現(xiàn)在有3年時(shí)間，發(fā)展還是比較快的。我們專注在底層開發(fā)下面，我們開發(fā)的代碼量接近1千萬行，我們的產(chǎn)品加起來將近3千萬行。在去年下半年被Gartner提到我們公司，我們也是全球四大Hadoop廠商之一，我們今天也有幸成為Gartner數(shù)據(jù)倉模擬象限的一家中國公司。描述了哪些產(chǎn)品具有哪些特點(diǎn)?，F(xiàn)在大家可以看到，這邊大部分都是一些大型公司，我們被放在了最右邊的位置，表示國外媒體對于我們技術(shù)的領(lǐng)先性和完備性還是有高度認(rèn)可的，但是我們的規(guī)模會(huì)比他們低。目前來講，我們客戶的數(shù)量還是比較多的。

下面我們來介紹一下Hadoop的應(yīng)用。剛才講到，我們認(rèn)為Hadoop未來一段時(shí)間會(huì)進(jìn)入戰(zhàn)略整合點(diǎn)，被客戶接受的速度會(huì)迅速提升。最左邊是一個(gè)報(bào)告，是收費(fèi)報(bào)告，統(tǒng)計(jì)了美國市場上面Hadoop應(yīng)用的分類，大部分Hadoop用戶主要是60%的客戶，20%的客戶是交互式BI的，用于報(bào)表式工具跟Hadoop對接，還有國內(nèi)的可視化公司也在跟Hadoop對接。在美國有幾十家這樣的公司專注做數(shù)據(jù)分析和可視化，所以這個(gè)應(yīng)用場景大概有25%。還有6%的客戶是做輕量級的應(yīng)用，主要是使用了Hbase分布式系統(tǒng)來做數(shù)據(jù)的查詢，這個(gè)比例不是太高，有6%。還有4%的客戶是用來做文檔數(shù)據(jù)庫，5%的客戶是用來做流處理。

右邊這場圖是我們星環(huán)從幾百個(gè)客戶當(dāng)中統(tǒng)計(jì)出來的分類，有一定的代表性，但是不是全部的數(shù)據(jù)。從中可以看到中國市場和美國市場有比較大的不同，這個(gè)數(shù)據(jù)我們提交上去，他們已經(jīng)把我們的數(shù)據(jù)放到他們的報(bào)告當(dāng)中去了。我們看到有56%的客戶做數(shù)據(jù)倉庫，我們做數(shù)據(jù)倉庫有一定的優(yōu)勢，我們非常完整，支持分布式處理，支持這個(gè)存儲(chǔ)過程，所以有一部分客戶已經(jīng)從數(shù)據(jù)庫直接牽引到我們的上面來。這種新的業(yè)務(wù)模式在用到國內(nèi)的時(shí)候還不是這么快，有一類是比較特殊的，就是我們做OITP用的，做簡單快速查詢的應(yīng)用比較多，這其實(shí)反應(yīng)了我們國家的數(shù)據(jù)量比美國的客戶大很多，我們中國一個(gè)省的用戶就是美國AT&T全國的用戶，這一塊反而有一批客戶在用這種簡單的數(shù)據(jù)庫，2%的客戶在做文檔數(shù)據(jù)庫，這也反映了在美國NoSQL有4%的使用率。有一個(gè)不同的地方，流處理這一塊在中國的應(yīng)用場景比較多，有10%的客戶，解決我們有10%在做流處理，主要是分布在實(shí)時(shí)的金融交易、傳感器網(wǎng)絡(luò)和工業(yè)4.0里面，2008年、2009年我們國家建立了大量的傳感器，包括物聯(lián)網(wǎng)，這一塊使得我們在客戶當(dāng)中有比較多的在用這種做數(shù)據(jù)處理，這也反映了我們國家的工業(yè)4.0其實(shí)已經(jīng)具備一定的條件了，可能比美國還要更領(lǐng)先一些。

大家可以看到，大部分的Hadoop用戶都在用這個(gè)技術(shù)來做數(shù)據(jù)倉庫，我們后面講一下為什么是這種場景。數(shù)據(jù)倉庫是一個(gè)比較全的概念，通常不是指一類技術(shù)，是所有數(shù)據(jù)的組合，會(huì)是所有數(shù)據(jù)的集散地，企業(yè)會(huì)把所有的數(shù)據(jù)放在數(shù)據(jù)倉庫里面對外提供服務(wù)。過去這么多年數(shù)據(jù)庫面臨一些挑戰(zhàn)，數(shù)據(jù)增加比較快，傳統(tǒng)的數(shù)據(jù)庫已經(jīng)不能處理，效率提升得比較慢，我們碰到一個(gè)很大的客戶，是一個(gè)著名的廠商，這是一個(gè)顯著的瓶頸。原來的關(guān)鍵數(shù)據(jù)庫只處理結(jié)構(gòu)化處理，現(xiàn)在需要一些新的技術(shù)處理半結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù)。隨著數(shù)據(jù)倉庫越來越多，用戶也越來越多，通常用戶有上百個(gè)數(shù)據(jù)源，上面支撐幾十個(gè)業(yè)務(wù)部門，甚至是幾十個(gè)分支機(jī)構(gòu)，一個(gè)銀行可能有30幾家分行，這些分支機(jī)構(gòu)訪問數(shù)據(jù)的時(shí)候都通過這個(gè)數(shù)據(jù)倉庫，對數(shù)據(jù)的隔離、訪問資源的管理就變成了一個(gè)迫切要解決的問題。

傳統(tǒng)數(shù)據(jù)倉庫是T+1的，在當(dāng)天分析前一天的數(shù)據(jù)，但是更多的企業(yè)希望能夠?qū)?shù)據(jù)進(jìn)行實(shí)時(shí)分析，希望能夠做到T+0，這一塊也是對數(shù)據(jù)倉庫構(gòu)成的一個(gè)挑戰(zhàn)。這一塊就是有一些國外的咨詢機(jī)構(gòu)和公司提出的，希望能夠做實(shí)時(shí)的數(shù)據(jù)處理。剛才我們看到有一個(gè)概念是幾年前提出來的邏輯數(shù)據(jù)倉庫，能夠處理多種數(shù)據(jù)源，做數(shù)據(jù)管理。還有一個(gè)特點(diǎn)也是現(xiàn)在大家在使用新技術(shù)的時(shí)候一個(gè)驅(qū)動(dòng)力，原來是對于過去歷史的統(tǒng)計(jì)。今天大家發(fā)現(xiàn)，以前做數(shù)據(jù)模型，比如說像銀行里的十大主題模型，或者八大主題模型，他們有幾千張表，中間的表可能有上萬張，關(guān)系相對來說是固定的。一旦你的業(yè)務(wù)發(fā)生變化，你可能要對整個(gè)層面做修改。今天大家希望有一個(gè)自助的方法，能夠用機(jī)器學(xué)習(xí)的方法發(fā)現(xiàn)數(shù)據(jù)的管理，而不是發(fā)現(xiàn)統(tǒng)計(jì)的結(jié)果，甚至是統(tǒng)計(jì)報(bào)告對于他們不夠。所以這一塊現(xiàn)在有的提出來一個(gè)設(shè)計(jì)模式，就是我不需要知道這些數(shù)據(jù)它們之間的關(guān)聯(lián)關(guān)系，我是通過機(jī)器學(xué)習(xí)的方法，機(jī)器自動(dòng)來學(xué)習(xí)發(fā)現(xiàn)他們的規(guī)律。這實(shí)際上也對應(yīng)了大數(shù)據(jù)的4V，數(shù)據(jù)量、數(shù)據(jù)變化、數(shù)據(jù)實(shí)時(shí)性以及數(shù)據(jù)挖掘，剛好是4V。其實(shí)在數(shù)據(jù)倉庫里面，其實(shí)也是沿著這個(gè)方向演變出來的四個(gè)不同的設(shè)計(jì)模式。

在解決數(shù)量大的問題上面大家已經(jīng)形成了共識，需要用分布式的方法，用橫向的方式。從早期的單機(jī)到90年代的并行數(shù)據(jù)庫，是把數(shù)據(jù)庫的引擎并行化了，把計(jì)算并行化了，但是存儲(chǔ)仍然是集中化的，集中化的存儲(chǔ)仍然是一個(gè)瓶頸。后來把計(jì)算分離了，但是計(jì)算的引擎不具有可擴(kuò)展性，容錯(cuò)性比較差。到了Hadoop的時(shí)候，大家發(fā)現(xiàn)可以有一種因的模式，同時(shí)對數(shù)據(jù)和計(jì)算進(jìn)行分布式計(jì)算，對于數(shù)據(jù)進(jìn)行分布式存儲(chǔ)，同時(shí)兼顧擴(kuò)展性和容錯(cuò)性。這一塊基本上大家發(fā)現(xiàn)，這個(gè)計(jì)算模式是處理大規(guī)模數(shù)據(jù)的一個(gè)最佳模式，這個(gè)擴(kuò)展性和容錯(cuò)性都有很大的問題。所以很多的Hadoop引擎都回歸到這個(gè)計(jì)算模式上來。我們在SQL這一塊做的比較突出，能夠跑完整個(gè)過程?，F(xiàn)在我們最新發(fā)布的4.0版本性能又比這個(gè)有兩倍的提升，所以現(xiàn)在除了100TB的用三臺(tái)機(jī)器，其他的都可以用兩臺(tái)機(jī)器完成。

分布式計(jì)算是解決了性能的問題，那么怎么解決數(shù)據(jù)源的問題，怎么解決這個(gè)問題，我們提出了邏輯數(shù)據(jù)倉庫的概念。邏輯數(shù)據(jù)倉庫要滿足三個(gè)特性，首先需要有一個(gè)集中化的存儲(chǔ)，把所有的數(shù)據(jù)全部集中起來，而不是分散在不同的地方。另外需要有一個(gè)數(shù)據(jù)聯(lián)邦的概念，能夠跨多種數(shù)據(jù)源，能夠有統(tǒng)一的接口。通過統(tǒng)一的SQL層，或者是一個(gè)界面能夠來訪問到所有的數(shù)據(jù)源，中間有結(jié)構(gòu)化數(shù)據(jù)，還有非結(jié)構(gòu)化數(shù)據(jù)。另外必然是需要一個(gè)分布式計(jì)算，同時(shí)上面有多租戶管理，還有原數(shù)據(jù)管理，整個(gè)形成了一個(gè)邏輯數(shù)據(jù)倉庫的概念。邏輯數(shù)據(jù)倉庫其中一個(gè)非常重要的特性就是要做數(shù)據(jù)聯(lián)邦，能夠訪問多種不同的數(shù)據(jù)源。這一塊我們有一個(gè)比較好的產(chǎn)品，可以跨多種數(shù)據(jù)源進(jìn)行交叉。

在邏輯數(shù)據(jù)倉庫當(dāng)中需要用資源管理，要實(shí)現(xiàn)兩層，數(shù)據(jù)保護(hù)通過不同的訪問規(guī)則來控制對數(shù)據(jù)的不同訪問，其次我們需要對資源進(jìn)行一個(gè)比較好的隔離。這一塊我們現(xiàn)在也采用了一些嘗試，我們現(xiàn)在發(fā)布了一個(gè)產(chǎn)品是TOS，我們的調(diào)動(dòng)引擎是完全自己開發(fā)的。另外一個(gè)題外話，我們在明年的產(chǎn)品當(dāng)中有自己的存儲(chǔ)引擎，所以在未來的一段時(shí)間之內(nèi)，大家看不到Hadoop的影子了，我們已經(jīng)幾乎把這個(gè)東西全部實(shí)現(xiàn)了。

在這一塊，上層我們會(huì)借助這個(gè)容器把這個(gè)東西所有的標(biāo)準(zhǔn)化容器放在一個(gè)里面，所有的服務(wù)都可以自動(dòng)通過組裝方式來構(gòu)建這個(gè)應(yīng)用。整個(gè)實(shí)現(xiàn)了兩個(gè)特點(diǎn)，一個(gè)是解決了應(yīng)用標(biāo)準(zhǔn)化的問題，通過容器來實(shí)現(xiàn)，另外是實(shí)現(xiàn)了運(yùn)維自動(dòng)化的問題，整個(gè)平臺(tái)我們通過調(diào)度器來進(jìn)行管理，自動(dòng)擴(kuò)容、自動(dòng)收縮，出故障會(huì)自動(dòng)修復(fù)，在運(yùn)維上極大的減輕了IT部門的壓力。這一塊因?yàn)椴捎萌萜鳎綦x性非常好，可以使得不同部門之間共享一套平臺(tái)。

這個(gè)設(shè)計(jì)模式是借助流處理，我們在這里不詳細(xì)講了?，F(xiàn)在隨著工業(yè)4.0的發(fā)展，物聯(lián)網(wǎng)越來越多，大家需要通過新的技術(shù)對數(shù)據(jù)進(jìn)行實(shí)時(shí)處理。過去能夠完成數(shù)據(jù)的實(shí)時(shí)存儲(chǔ)，但是不能做實(shí)時(shí)分析。應(yīng)用的需求總是希望越來越復(fù)雜，需要對這個(gè)計(jì)算平臺(tái)的能力越來越高，這一塊我們需要在流上面支持復(fù)雜的SQL，比如說存儲(chǔ)過程，甚至是機(jī)器學(xué)習(xí)。目前這一款產(chǎn)品也是我們比較有特色的，要遠(yuǎn)遠(yuǎn)超過國外友商的產(chǎn)品，我們可以在流的產(chǎn)品上面支持非常復(fù)雜的SQL，也能夠在流上做機(jī)器學(xué)習(xí)。這也是我們用流數(shù)據(jù)來實(shí)現(xiàn)的一個(gè)重要手段。

這個(gè)設(shè)計(jì)架構(gòu)基本上要從原來對于歷史數(shù)據(jù)的分析轉(zhuǎn)變成對于數(shù)據(jù)規(guī)律的探索以及未來的預(yù)測上面。這一塊我們采用的方式，其實(shí)是分成幾個(gè)階段，首先是數(shù)據(jù)清洗，選取特征，再就是建模，還有就是把一個(gè)計(jì)算模型能夠應(yīng)用或者是展現(xiàn)，作為決策支持。我們在這一塊我們是通過SQL引擎來做加工，對外完整的提供接口，所有的對表的措施都是用原生操作來實(shí)現(xiàn)的，內(nèi)部我們會(huì)自動(dòng)的定義。另外我們也是現(xiàn)在的算法，分類、聚類、反樣回歸的神經(jīng)網(wǎng)絡(luò)，做時(shí)序的關(guān)聯(lián)分析，都已經(jīng)整個(gè)用分布式方法重新實(shí)現(xiàn)了一遍，也提供了二元的接口，用戶可以直接來做這個(gè)數(shù)據(jù)建模。這一塊我們現(xiàn)在看到在國內(nèi)應(yīng)用不是特別多，大概只有8%的客戶在用機(jī)器學(xué)習(xí)。當(dāng)然趨勢是非?？斓模幸恍┛蛻艚ê眠@個(gè)Hadoop平臺(tái)以后，在想怎么從數(shù)據(jù)當(dāng)中發(fā)掘價(jià)值，就需要這種產(chǎn)品。其實(shí)有很多咨詢機(jī)構(gòu)，包括大數(shù)據(jù)應(yīng)用的第一個(gè)難點(diǎn)是沒有一個(gè)好的工具來做數(shù)據(jù)挖掘，不能從數(shù)據(jù)當(dāng)中發(fā)揮價(jià)值，妨礙大家去應(yīng)用這種新的技術(shù)。我們的目標(biāo)是希望提供一個(gè)非常易用的，但是非常強(qiáng)大的一個(gè)工具，讓大家能夠非常容易的發(fā)掘數(shù)據(jù)的價(jià)值。

綜合起來我們看到，在整個(gè)數(shù)據(jù)倉庫建設(shè)當(dāng)中，我們可以借助新的平臺(tái)，就可以把原來的架構(gòu)重新設(shè)計(jì)一下，整個(gè)數(shù)據(jù)源通過實(shí)時(shí)和半實(shí)時(shí)的方式，可以進(jìn)入一個(gè)邏輯數(shù)據(jù)倉庫，甚至可以跨多個(gè)數(shù)據(jù)源進(jìn)行訪問。同時(shí)底下是容器化的平臺(tái)來對外提供數(shù)據(jù)的隔離和訪問控制。

我再介紹一下工信部電信研究院最近在做的性能測試，這個(gè)其實(shí)是結(jié)合了國內(nèi)20多家大數(shù)據(jù)的企業(yè)共同制定的一個(gè)標(biāo)準(zhǔn)，是比較公平客觀的標(biāo)準(zhǔn)，也是能反映大數(shù)據(jù)的行業(yè)應(yīng)用的一些需求的特點(diǎn)，同時(shí)包括今天上午我們也給其他大數(shù)據(jù)廠商做了一個(gè)證書的頒發(fā)，我們希望有更多的廠商能夠參與到這個(gè)測試當(dāng)中，也給客戶提供一個(gè)客觀公正的標(biāo)準(zhǔn)。

我今天的演講就到這里，謝謝大家！

網(wǎng)站題目：星環(huán)信息孫元浩：Hadoop推動(dòng)現(xiàn)代數(shù)據(jù)倉庫技術(shù)的深刻變革
網(wǎng)頁網(wǎng)址：http://muchs.cn/article42/soephc.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供移動(dòng)網(wǎng)站建設(shè)、微信公眾號、商城網(wǎng)站、網(wǎng)頁設(shè)計(jì)公司、Google、動(dòng)態(tài)網(wǎng)站

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容