明略數(shù)據(jù)馮是聰:明略大數(shù)據(jù)安全平臺(tái)核心技術(shù)分享

互聯(lián)網(wǎng)IDC圈4月27日?qǐng)?bào)道,互聯(lián)網(wǎng)的發(fā)展使得大數(shù)據(jù)引起人們廣泛關(guān)注?,F(xiàn)如今大數(shù)據(jù)技術(shù)早已滲透到金融、通訊等行業(yè)以及生物學(xué)、物理學(xué)等領(lǐng)域。大數(shù)據(jù)在容量、多樣性和高增速方面的爆炸式增長(zhǎng)全面考驗(yàn)著現(xiàn)代企業(yè)的數(shù)據(jù)處理和分析能力,與此同時(shí)也為各個(gè)行業(yè)帶來了準(zhǔn)確洞察市場(chǎng)行為的機(jī)會(huì)。迄今為止大數(shù)據(jù)技術(shù)與產(chǎn)品有哪些創(chuàng)新,工業(yè)大數(shù)據(jù)應(yīng)用面臨哪些挑戰(zhàn),金融行業(yè)大數(shù)據(jù)應(yīng)用現(xiàn)狀如何等。圍繞這一系列問題,4月27日至28日,由工業(yè)和信息化部指導(dǎo)、中國(guó)信息通信研究院主辦的"2016大數(shù)據(jù)產(chǎn)業(yè)峰會(huì)"在北京國(guó)際會(huì)議中心盛大召開。

成都創(chuàng)新互聯(lián)從2013年創(chuàng)立,先為紫云等服務(wù)建站,紫云等地企業(yè),進(jìn)行企業(yè)商務(wù)咨詢服務(wù)。為紫云企業(yè)網(wǎng)站制作PC+手機(jī)+微官網(wǎng)三網(wǎng)同步一站式服務(wù)解決您的所有建站問題。

在27日下午的“大數(shù)據(jù)技術(shù)與產(chǎn)品創(chuàng)新”論壇中,北京明略軟件系統(tǒng)有限公司聯(lián)合創(chuàng)始人兼CTO馮是聰博士分享了明略大數(shù)據(jù)安全平臺(tái)核心技術(shù)。

圖片1

明略數(shù)據(jù)聯(lián)合創(chuàng)始人兼CTO 馮是聰

以下是馮是聰博士演講實(shí)錄:

馮是聰

首先感謝數(shù)據(jù)中心聯(lián)盟給我們提供這個(gè)機(jī)會(huì),讓我們分享我們的大數(shù)據(jù)平臺(tái)。我們與數(shù)據(jù)中心聯(lián)盟合作可以說是十分密切,就在今日上午我們?cè)跀?shù)據(jù)中心聯(lián)盟也通過了評(píng)測(cè)并一同簽署了數(shù)據(jù)聲明。

作為明略數(shù)據(jù)CTO我分享的內(nèi)容更偏技術(shù)一些,首先向各位嘉賓介紹一下明略:我們公司是一家專注于關(guān)系挖掘的大數(shù)據(jù)解決方案提供商。其中有兩個(gè)關(guān)鍵詞,一個(gè)是關(guān)系挖掘。大家知道,自然界的關(guān)系都是由點(diǎn)和邊組成的,在座的每一個(gè)人都是一個(gè)點(diǎn),人與人之間的關(guān)系就是一個(gè)邊,在任何領(lǐng)域都有關(guān)系挖掘。另外,我們提供解決方案,我們不僅提供產(chǎn)品,我們還會(huì)根據(jù)客戶業(yè)務(wù)問題,有針對(duì)性的提供解決方案,在這過程中,明略也會(huì)派我們的駐場(chǎng)數(shù)據(jù)科學(xué)家為客戶現(xiàn)場(chǎng)答疑解惑,我們?cè)谔峁┙鉀Q方案的同時(shí),也提供駐場(chǎng)數(shù)據(jù)科學(xué)家服務(wù),這也是我們跟很多廠商大的區(qū)別。

明略成立于2014年初,在這兩年的發(fā)展中,我們不斷的積累大數(shù)據(jù)方面的經(jīng)驗(yàn),并先后自主研發(fā)了4款產(chǎn)品,分別是大數(shù)據(jù)安全平臺(tái)MDP,圍繞數(shù)據(jù)關(guān)聯(lián)關(guān)系挖掘產(chǎn)品SCOPA和分布式數(shù)據(jù)挖掘系統(tǒng)DataInsight,以及面向大數(shù)據(jù)的BI產(chǎn)品Discovery.很多客戶找到我們,我們會(huì)根據(jù)客戶的業(yè)務(wù)特點(diǎn),給他定制化地提供一個(gè)解決方案。這個(gè)解決方案可能會(huì)涉及到我們這4款產(chǎn)品,我們這里跟很多廠商大的區(qū)別是,我們是深入業(yè)務(wù),幫助客戶解決實(shí)際業(yè)務(wù)問題,而不僅僅是把產(chǎn)品售賣給客戶。

因時(shí)間關(guān)系,我就先簡(jiǎn)單介紹一下我們大數(shù)據(jù)安全平臺(tái)MDP最核心的五個(gè)特性。

首先是關(guān)于MDP平臺(tái)架構(gòu)的概述,MDP平臺(tái)架構(gòu)共分為四層,淺藍(lán)色的是開源社區(qū)的部分。深顏色的是我們自己開發(fā)的,在自己開發(fā)的過程當(dāng)中可以看到我們有幾個(gè)特點(diǎn),我們這里有一個(gè)可視化運(yùn)維。如果您有機(jī)群是幾萬臺(tái)或者是幾百臺(tái)機(jī)器搭成的,假如沒有一個(gè)很強(qiáng)的運(yùn)維平臺(tái),那么您將會(huì)面臨很大問題,嚴(yán)重的話很有可能導(dǎo)致無法繼續(xù)運(yùn)營(yíng)。其次,MDP做到了很好的安全性,我們這幾年服務(wù)的客戶基本上都是中大型客戶,每一個(gè)大型的客戶數(shù)據(jù)安全是非常重要的,我后面會(huì)詳細(xì)介紹。我們做了全員控制,還有數(shù)據(jù)運(yùn)維,這里面有各種各樣的特點(diǎn),因?yàn)闀r(shí)間的關(guān)系我就不一一介紹了。

明略MDP特性之安全性

我們認(rèn)為做大數(shù)據(jù)首先一定要解決安全問題,因?yàn)榇髷?shù)據(jù)不像別的數(shù)據(jù),它大的一個(gè)特點(diǎn)是把分散在各個(gè)信息孤島的數(shù)據(jù)聚集起來,統(tǒng)一管理。在過去數(shù)據(jù)丟失的時(shí)候,可能僅會(huì)影響公司的一個(gè)部門,但是當(dāng)我們把數(shù)據(jù)全部集成在一起時(shí),一旦丟失,所有的數(shù)據(jù)都可能丟失。尤其是公安等特殊領(lǐng)域,對(duì)數(shù)據(jù)的安全性要求是第一位的,如果安全性不過關(guān),肯定是不能用的,我們這邊毫不謙虛的說,我們達(dá)到了軍工級(jí)的要求。我們的MDP產(chǎn)品有一個(gè)完整的安全架構(gòu)體系,比如身份認(rèn)證,加密解密,數(shù)據(jù)訪問和審計(jì),等等。這個(gè)體系有很多的特點(diǎn),因?yàn)闀r(shí)間的關(guān)系我只介紹三個(gè)特點(diǎn)。

大家都知道大數(shù)據(jù)平臺(tái)基本上都來源于開源社區(qū)。在開源社區(qū)版中,系統(tǒng)管理員和上層應(yīng)用之間的權(quán)限管理沒有分開,是合在一起的。如果是運(yùn)維管理員的話,完全可以看到平臺(tái)上各種應(yīng)用的數(shù)據(jù),這其實(shí)在很多條件下是非常不安全的。舉一個(gè)簡(jiǎn)單的例子,假設(shè)我是一個(gè)公安局局長(zhǎng),公安局的所有數(shù)據(jù)都放在大數(shù)據(jù)平臺(tái)上,那么運(yùn)維管理員就可以知道局長(zhǎng)、甚至部長(zhǎng)的所有數(shù)據(jù),其實(shí)這是非常不安全的。我們第一個(gè)做的事情就是把這個(gè)權(quán)限分離了,運(yùn)維人員只能運(yùn)維這個(gè)機(jī)器,不能看到上層應(yīng)用的數(shù)據(jù)。我們因?yàn)檫@個(gè)數(shù)據(jù)分開了,即使我們的開發(fā)人員,他也不能看到不該看的數(shù)據(jù),這樣也能保證開發(fā)人員在現(xiàn)場(chǎng)實(shí)施的過程中看不到所有的數(shù)據(jù),從而保障了數(shù)據(jù)的安全性。

我們?cè)谧霾樵円鏁r(shí),遇到的問題就是客戶需要進(jìn)行行與列同時(shí)的訪問控制,但目前很多引擎也只能做到按列訪問。為更好地解決客戶的這個(gè)問題,我們研究出了行和列同時(shí)訪問的引擎,并申請(qǐng)了三個(gè)專利,我們這也是全球第一家可以做出來的行和列同時(shí)訪問的大數(shù)據(jù)企業(yè)。就是你如果在訪問一個(gè)數(shù)據(jù)的時(shí)候,我們自動(dòng)地加上行訪問的控制,我們把查詢引擎改掉了。在開發(fā)人員,不知道需要知道背后的權(quán)限管理是什么樣的。比如說一個(gè)機(jī)構(gòu)很大,幾萬人,可以自動(dòng)通過LDAP加入權(quán)限管理。這樣,不管是銀行普通的辦事人員還是行長(zhǎng),還是總行的人,每一次數(shù)據(jù)訪問,都可以做到行和列的同時(shí)控制。

對(duì)于大數(shù)據(jù)我們做了一個(gè)安全的審計(jì),對(duì)于任何一個(gè)數(shù)據(jù),只要做了增加、刪除、修改操作,甚至是訪問,我們都可以記住日志。數(shù)據(jù)一旦出現(xiàn)問題,我們可以做非常方便地審計(jì)。這里面可以看到,我們?cè)跀?shù)據(jù)審計(jì),包括文件系統(tǒng),包括所有的部署運(yùn)維,比如啟動(dòng)一個(gè)服務(wù),停掉一個(gè)服務(wù),增加一條信息,刪除一條信息,上面跑的硬件、軟件、數(shù)據(jù)、服務(wù),這四個(gè)方面我們?nèi)慷甲隽巳罩?,都可以隨時(shí)審計(jì)。就是你只要做了任何一個(gè)操作,一旦做過,一定會(huì)留下痕跡,很多要求苛刻的客戶都非常愿意購(gòu)買這個(gè)特性。

明略MDP特性之高可用性

軟件現(xiàn)在分為兩類,一類是運(yùn)營(yíng)商級(jí)別的軟件,一類是非運(yùn)營(yíng)商級(jí)別。運(yùn)營(yíng)商對(duì)于高可用性是非??量痰模?yàn)樗竽?×24小時(shí),我任何時(shí)候訪問這個(gè)系統(tǒng)不會(huì)有任何問題。比如一個(gè)1集群有100個(gè)節(jié)點(diǎn),其中有一個(gè)節(jié)點(diǎn)因?yàn)楣收蠑嗟袅?,過一段時(shí)間把那個(gè)節(jié)點(diǎn)的故障排除了,重新啟動(dòng),上面跑的服務(wù)都可以自動(dòng)恢復(fù),數(shù)據(jù)也都可以保持一致,這個(gè)要求是非??量痰?。大家知道,在開源社區(qū)里面有比較常見的一些服務(wù),比如說Hbase、Hive等等都已經(jīng)做了高可用性。但是對(duì)于右邊的這些服務(wù)基本上都沒有,比如Impala、Kerberos、LDAP、Flume等等,這個(gè)里面就面臨一個(gè)很常見的場(chǎng)景,就是如果發(fā)現(xiàn)100個(gè)節(jié)點(diǎn)的集群里面,其中2個(gè)節(jié)點(diǎn)停掉了,不能因?yàn)?個(gè)節(jié)點(diǎn)影響到整個(gè)機(jī)群的服務(wù)。還有,比如把這個(gè)機(jī)器下面的網(wǎng)線拔掉,過一會(huì)兒再插上去,能保證插上去之后,數(shù)據(jù)能夠自動(dòng)恢復(fù)。還有一個(gè)就是對(duì)于硬盤,如果這個(gè)硬盤壞掉了,操作系統(tǒng)一定會(huì)收到這個(gè)故障信號(hào)。但是運(yùn)營(yíng)商測(cè)我們系統(tǒng)的時(shí)候是怎么測(cè)的呢?他就在硬盤正常運(yùn)轉(zhuǎn)的時(shí)候把硬盤拔掉,這個(gè)時(shí)候操作系統(tǒng)是沒有收到故障信號(hào)的,過一會(huì)兒再插上去。還要求硬盤上的數(shù)據(jù)還是一致的,這些非常嚴(yán)苛的要求都是高可用性。除了常見的Hive、Hbase,我們把自己做的各種服務(wù),全部都做了高可用性,從而保證我們的服務(wù)是高可用的。

我們?cè)谧龇?wù)調(diào)度的時(shí)候,我們用了一個(gè)Everything On Yarn的特性,任何一個(gè)用戶使用一個(gè)服務(wù)的時(shí)候,他可能調(diào)動(dòng)了很多的服務(wù),可能把所有的資源都消耗掉,這個(gè)時(shí)候就非常危險(xiǎn),會(huì)導(dǎo)致后起的服務(wù)因?yàn)榉峙洳坏劫Y源而被餓死。我們這樣做了以后,就可以保證其中任何一個(gè)服務(wù)都可以通過這個(gè)來調(diào)度資源,就會(huì)保證一個(gè)太重服務(wù)不把其他的服務(wù)給餓死了。

明略MDP特性之易用性

我們所有的運(yùn)維都是不需要任何腳本,也不需要任何代碼。還有我們有一個(gè)模塊是Dataone,這個(gè)跟我們剛才講的那個(gè)運(yùn)維平臺(tái)NoahArk差不多,非常類似,都是可視化的。我們所有的數(shù)據(jù)遷移都是模板化、向?qū)Щ?,你只需不停地點(diǎn)下一步就可以了,所有的數(shù)據(jù)遷移就可以完成了。

明略MDP特性之開放性

我們所有的組件都可以修改,所有的開源組件都是來自于開源社區(qū),這就保證了客戶不會(huì)被某一個(gè)廠家綁定,隨時(shí)可以自主地升級(jí)系統(tǒng),自主地添加組件,這樣就是一個(gè)開放性,我們不是一個(gè)閉環(huán)的產(chǎn)品。

明略MDP特性之高性能

高性能是我們非常自豪的,我們當(dāng)時(shí)有一個(gè)客戶,他當(dāng)時(shí)說有5千億的話單,要求在秒級(jí)查出來,他考察了很多廠商,最后是我們給他解決掉了。大家可以隨便估算一下,這5千億條的記錄,秒級(jí)響應(yīng)得,需要什么樣的技術(shù),當(dāng)然只有懂技術(shù)的才知道這個(gè)難度。

因?yàn)闀r(shí)間的關(guān)系,大概給大家簡(jiǎn)單介紹了一下我們MDP高性能、高可用、高安全、易用性、開放性等特性,謝謝大家!

當(dāng)前題目:明略數(shù)據(jù)馮是聰:明略大數(shù)據(jù)安全平臺(tái)核心技術(shù)分享
文章網(wǎng)址:http://muchs.cn/article32/sosssc.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供自適應(yīng)網(wǎng)站、網(wǎng)站排名App開發(fā)、動(dòng)態(tài)網(wǎng)站、關(guān)鍵詞優(yōu)化云服務(wù)器

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)

成都做網(wǎng)站