第三批大數(shù)據(jù)產(chǎn)品能力認(rèn)證情況綜述

9月1日,由工業(yè)和信息化部指導(dǎo),中國信息通信研究院、中國通信標(biāo)準(zhǔn)化協(xié)會主辦,數(shù)據(jù)中心聯(lián)盟承辦的“2016可信云大會”在京隆重召開。在9月2日下午的大數(shù)據(jù)分論壇上,中國信息通信研究院技術(shù)與標(biāo)準(zhǔn)研究所大數(shù)據(jù)產(chǎn)品認(rèn)證負(fù)責(zé)人姜春宇發(fā)表了題為《第三批大數(shù)據(jù)產(chǎn)品能力認(rèn)證情況綜述》的演講。

成都創(chuàng)新互聯(lián)公司專注于企業(yè)成都全網(wǎng)營銷、網(wǎng)站重做改版、東鄉(xiāng)族網(wǎng)站定制設(shè)計(jì)、自適應(yīng)品牌網(wǎng)站建設(shè)、H5技術(shù)、商城網(wǎng)站制作、集團(tuán)公司官網(wǎng)建設(shè)、外貿(mào)網(wǎng)站制作、高端網(wǎng)站制作、響應(yīng)式網(wǎng)頁設(shè)計(jì)等建站業(yè)務(wù),價(jià)格優(yōu)惠性價(jià)比高,為東鄉(xiāng)族等各大城市提供網(wǎng)站開發(fā)制作服務(wù)。

中國信息通信研究院技術(shù)與標(biāo)準(zhǔn)研究所大數(shù)據(jù)產(chǎn)品認(rèn)證負(fù)責(zé)人 姜春宇

以下是演講實(shí)錄:

今年是第二次站在這里,我們今年測評的節(jié)奏比較快一些,三四月份完成了一批,六七八又完成了第三期,今年還會完成第四期。大數(shù)據(jù)發(fā)展的節(jié)奏比較快,所以我們的認(rèn)證和測算也是在不斷的摸索和前進(jìn)的過程。我是來自中國信息通信研究院的姜春宇,很榮幸給大家介紹第三批大數(shù)據(jù)產(chǎn)品能力認(rèn)證的情況。

主要兩個(gè)部分,一個(gè)是認(rèn)證情況的介紹,第二部分是我們的總結(jié)和下一步的計(jì)劃。

首先,我們回顧一下大數(shù)據(jù)產(chǎn)品能力認(rèn)證的歷程。去年6到8月份了第一批,是華為,移動,星環(huán),中興,ucloud5家企業(yè),今年Hadoop,,Spark數(shù)據(jù)基礎(chǔ)能力認(rèn)證是6家企業(yè),現(xiàn)在是大數(shù)據(jù)基礎(chǔ)能力和性能專項(xiàng)6家企業(yè),第四批是數(shù)據(jù)庫基礎(chǔ)能力和性能認(rèn)證,是今年年底。

這是第三批大數(shù)據(jù)產(chǎn)品能力認(rèn)證的評測對象和指標(biāo),分為基礎(chǔ)能力,性能專項(xiàng),基礎(chǔ)能力有七個(gè)維度,性能專項(xiàng)有四大任務(wù)。6到8月份我們看到了6家廠商參與了,其中國雙科技參與基礎(chǔ)能力認(rèn)證,華為,華三,騰訊云,星環(huán),百分點(diǎn)等5家參與了商用版。

我們看基礎(chǔ)能力認(rèn)證體系,三四月份公布過,這樣的變化不是特別大,以七大項(xiàng),其中黃色的是可選,其它的是必測。第四批的評估體系有稍微的修改,但是不會太大,認(rèn)證的流程,這邊是認(rèn)證的流程,這邊是評審的流程。認(rèn)證的話,首先是報(bào)名,其次是我們的審核材料,測試專家去現(xiàn)場審核,給出一個(gè)測試的結(jié)論,引入企業(yè)的互評,最后是對評審?fù)ㄟ^的一些企業(yè)和產(chǎn)品我們頒發(fā)通過的證書,具體的評審流程在右邊,基礎(chǔ)能力的審核方法從五個(gè)方面,包括軟件的版本。這是這批通過大數(shù)據(jù)產(chǎn)品能力認(rèn)證的兩家產(chǎn)品,這是兩個(gè)廠商的完成情況,百分點(diǎn)完成了28項(xiàng)預(yù)測和10項(xiàng)選側(cè),國雙也是一樣。今年第二批的時(shí)候我們會看到一些廠商還沒有完全完成選測,但是現(xiàn)在來看,這兩家的完成度都非常高,這說明我們的標(biāo)準(zhǔn)技術(shù)的牽引已經(jīng)起到了作用。

另外,我們觀察到,根據(jù)自己的業(yè)務(wù)的不同,廠商的產(chǎn)品呈現(xiàn)出一些特點(diǎn),比如說百分點(diǎn)趨向數(shù)據(jù)流管理數(shù)據(jù)。國雙更偏向云計(jì)算,可視化數(shù)據(jù)流降低平臺的管理成本和門檻。數(shù)據(jù)管理的話,你會用到不同的數(shù)據(jù)架構(gòu),數(shù)據(jù)的管理非常重要。

非常重要的一點(diǎn),流計(jì)算也是用戶用的比較多的。一些分析平臺,為機(jī)器學(xué)習(xí),深度學(xué)習(xí),分析平臺,這也是未來的方向。包括一些與云計(jì)算融合的趨勢,也是在加劇。市還有性能專項(xiàng),有SQL,NOSQL,機(jī)器學(xué)習(xí),MR任務(wù)。在SQL任務(wù)方面,我們選了5個(gè)query,是從負(fù)載的代表性上,報(bào)表任務(wù),交互類任務(wù),我們跟這些標(biāo)準(zhǔn)的廠商是一起選擇的,nosql,我們選擇HBase工具,也是因?yàn)闇y試周期有限,95%的讀,5%的寫,還有50%的讀和50%的寫,還有讀、更改、寫。MR任務(wù),我們選了terasort,我們一直以來堅(jiān)持的標(biāo)準(zhǔn)是1TB的數(shù)據(jù)量。機(jī)器學(xué)習(xí)我們選擇了Kmeans和貝葉斯。數(shù)據(jù)規(guī)模,下一步可以承載30TB的能力,是也17個(gè)維度表,7個(gè)事實(shí)表構(gòu)成的,本次5嗯個(gè)語句,涉及了13個(gè)表,這是SQL任務(wù)。HBase是和去年一樣的,是2億條數(shù)據(jù),從十個(gè)客戶端,每個(gè)客戶端2億條數(shù)據(jù),這樣的話,大概一條數(shù)據(jù)是1KB的大小,十個(gè)客戶端接近2TB。terasrot是29TB,機(jī)器學(xué)習(xí)的負(fù)載是中科院的數(shù)據(jù)。

測試環(huán)境,去年是22臺戴爾R7300服務(wù)器,今年又買了10臺聯(lián)想R450服務(wù)器。審核方式與步驟,可以看到性能的測試比功能的測試要嚴(yán)格很多,因?yàn)樯婕暗降狞c(diǎn)比較多,也比較敏感。審核方法和步驟,測前檢查輸入檢查,過程檢查和結(jié)果檢查,文化留存。非常仔細(xì)和詳細(xì)的,我們爭取做到了在評審的時(shí)候,如果有質(zhì)疑,我們所有的結(jié)果都可以復(fù)寫的原則。

具體的審核,可以看到數(shù)據(jù)大小,表的檢查,表行的最高語句,表和列的內(nèi)容檢查,包括執(zhí)行語句要進(jìn)行一些對比,我們要清空緩存。

參與本皮性能專項(xiàng)認(rèn)證的產(chǎn)品是五間,新華三,騰訊,北京東方金信,星環(huán)和百分點(diǎn)。大家可以看到性能的部分測試結(jié)果,這是TPC-DS,執(zhí)行的時(shí)間量都在百秒內(nèi),可以看到,上下兩個(gè)圖可以看出來,第二個(gè)SQL47最優(yōu)和中位的差別很大,說明這個(gè)是比較難的,有的測的特別好,有的測的特別不好。還有一個(gè)是SQL71,它的標(biāo)準(zhǔn)差也是比較高的,說明大家在這塊也是差距比較大的。SQL82,53和84的標(biāo)準(zhǔn)方差較小,說明大家在這三個(gè)水平是比較接近的,而且這三個(gè)任務(wù)是相對來說沒那么費(fèi)時(shí)的。

性能測試的YCSB分別模擬了寫入,并發(fā)寫,模擬了更新任務(wù)比較重的場景,模擬了度曲2數(shù)據(jù)再更改,再寫回的場景。可以看一下,這塊是誰的操作數(shù)越大,誰就越厲害,這不是時(shí)間維度來衡量的,剛才的是誰的時(shí)間越短越快,這塊美妙的操作數(shù),最優(yōu)的是175萬美妙的操作數(shù),獨(dú)占大比例的是148萬每秒的操作數(shù),讀寫各半的是164萬,最后一個(gè)是7萬??梢钥吹阶顑?yōu)的往往在百萬級別的。標(biāo)準(zhǔn)方差也可以看到,厲害的有非常厲害的,不厲害的有特別差的。這塊應(yīng)該是以后參測廠家應(yīng)該注意的。這塊可能大家有的不太熟悉,做的不太好。

這塊是YCSB執(zhí)行的單位,可以看到執(zhí)行的難以程度,總體來說,寫是最簡單的,因?yàn)樗娜蝿?wù)是比較單一的,讀的話,還有95%是讀,還有5%的更新。5%的各半稍微難一點(diǎn),這兩個(gè)是相當(dāng)?shù)?,最慢的是read wand wwrite,我對比了一下,它總歸寫了2億條數(shù)據(jù),但是modify像寫了2億,下面還有1億,它的操作數(shù)比別的多,所以他操作的慢,所以這也解釋通。所以總體來看,寫是最簡單的,最容易的,中間這兩個(gè)都差不多,第二個(gè)和第三個(gè)是差不多50分鐘左右,最后一個(gè)是80分鐘??梢钥吹結(jié)CSB的耗時(shí)也是非常厲害的,在小時(shí)級別以上。這是對廠商參加測評的時(shí)候負(fù)荷是非常大的。

看看機(jī)器學(xué)習(xí),Kmeans是最優(yōu)是272,中位是913,標(biāo)準(zhǔn)方差是572,這塊大家的水平差距特別大,貝葉斯最優(yōu)是46,它的差別相對小一些,因?yàn)閳?zhí)行時(shí)間是比較少的,標(biāo)準(zhǔn)方差也比較低。這塊我們未來會增加它的難度,因?yàn)閿?shù)據(jù)量小的話,大家的差別看不出來。

terasort比較有意思,去年是13.6TB最后執(zhí)行時(shí)間是在8000多秒,2個(gè)小時(shí)多一點(diǎn)。這邊是32個(gè)節(jié)點(diǎn),等于說節(jié)點(diǎn)數(shù)擴(kuò)了一倍多一點(diǎn)點(diǎn),數(shù)據(jù)規(guī)模也是差不多它的兩倍多一點(diǎn)點(diǎn)。發(fā)現(xiàn)去年的15臺結(jié)點(diǎn)算下來151703,畫到圖上簡單來看,并沒有呈現(xiàn)一個(gè)完全線性的擴(kuò)展,或者是一個(gè)線性可比性。而有兩種解釋,一種是本身terasort或者是Hadoop數(shù)據(jù)擴(kuò)展就不會出現(xiàn)線性的擴(kuò)展。另外,最年的最優(yōu)的測試沒有去年測試好。

terasort最優(yōu)是10083左右,中位值是3小時(shí),這說明這個(gè)測試對大家的考驗(yàn)還是比較大的,因?yàn)闇?zhǔn)方差差不多是1434,一個(gè)周期是十個(gè)小時(shí),一個(gè)測試是一次就3個(gè)小時(shí),一天也沒有多少時(shí)間。整個(gè)測試的周期,我們七天的時(shí)間還是非常的緊張的。

總結(jié)和下一步的計(jì)劃。

性能方面有一些優(yōu)化的思路。硬件的調(diào)優(yōu),操作系統(tǒng)的調(diào)優(yōu),數(shù)據(jù)的分布均勻不均勻,代碼的應(yīng)用調(diào)優(yōu),核心目標(biāo)是用盡所有的物理資源,不能讓它閑著。關(guān)于Spark,這次SQL和機(jī)器學(xué)習(xí)大部分廠商都采用了Spark,關(guān)于Spark,我們調(diào)優(yōu)也有一些總結(jié),就是壓縮和分布數(shù)據(jù),包括資源參數(shù),主要是包括CPU,內(nèi)存比例的關(guān)系,這塊需要大家常常去摸索,得出一些經(jīng)驗(yàn)值。很重要的是要通過資源的監(jiān)控不停的反饋這次調(diào)優(yōu)的參數(shù)比例是不是合理,這跟算法的調(diào)優(yōu)都很像。

Hadoop也是主要是壓縮任務(wù)自數(shù)據(jù),還有資源參數(shù)的調(diào)優(yōu)。HBase涉及到壓縮,讀寫的優(yōu)化的策略,還有按選擇合適的線程數(shù)。

還有性能的評測總結(jié),跟去年一樣,我們在統(tǒng)一的平臺,統(tǒng)一的測試數(shù)據(jù),統(tǒng)一的測試供給,統(tǒng)一的測試周期,統(tǒng)一的測試規(guī)則,很多東西你能調(diào),別人也能調(diào),你不能調(diào),別人也不能調(diào),大家的規(guī)則是一樣的。在我們這就是統(tǒng)一的規(guī)則,大家能調(diào)的就都調(diào),不能調(diào)的就都不能調(diào)。大家看到我們評測的應(yīng)是統(tǒng)一的思路??疾斓慕Y(jié)果一個(gè)是產(chǎn)品本身的性能,有穩(wěn)定性,包括它的易部署性,包括易運(yùn)維性,還有組建本身的性能。還有是考察參測團(tuán)隊(duì)綜合使用大數(shù)據(jù)平臺的能力,包括你環(huán)境部署與集群規(guī)劃,測試工具的使用,多任務(wù)調(diào)優(yōu)的能力,包括怎么安排你的測試的進(jìn)度,先測哪些,后測哪些。最后是集群的故障處理和運(yùn)行維護(hù)。在我們的測試中很多集群出現(xiàn)了宕機(jī),因?yàn)槟闶窃跍y性能的極限值。可以看出考察的是產(chǎn)品和調(diào)優(yōu)團(tuán)隊(duì)整個(gè)的能力。所以考察上是比較全面,綜合。

我們再總結(jié)一下困難和特點(diǎn),首先是任務(wù)重,周期緊,我們看到七天的測試周期里,包括措施系統(tǒng)的安裝,平臺的安裝,數(shù)據(jù)的生成,包括我們審核其它的舉證,我們看到terasort中位執(zhí)行時(shí)間是3小時(shí),HBase任務(wù)中位執(zhí)行時(shí)間是29,54,50,39分鐘,另外是覆蓋性,覆蓋了業(yè)務(wù)系統(tǒng)里面的典型的一些任務(wù)。

第二,我們從來沒在國內(nèi)或者是國外看到類似的32臺集群規(guī)模的配置,使用上BT的數(shù)據(jù)規(guī)模的公開的業(yè)界的測試。所以我們處于業(yè)界比較領(lǐng)先的認(rèn)證。我們審核的這些取證的這些圖,測試過程是非常的嚴(yán)格,我們寧可多減一些,寧可多省一些。另外,評審也是的嚴(yán)格,行業(yè)客戶和業(yè)界專家傾聽、質(zhì)疑、答辯。

我們做陳鶴的評測和任何的認(rèn)證都是存在不足的,我們也承認(rèn)還有一些局限性的地方,比如說我們現(xiàn)在做的是單向機(jī)制,卻說對混合負(fù)載的情況。因?yàn)槟悴豢赡軉闻躍QL的任務(wù),肯定是多種場景混跑,這些事情我們是缺少的。另外,我們承認(rèn)現(xiàn)場人員的前期準(zhǔn)備,平時(shí)的積累和現(xiàn)場的發(fā)揮對測試結(jié)果有一定的影響,就像高考一樣,肯定是有一些臨場發(fā)揮和機(jī)會在里面的。

另外也和企業(yè)的投入資源有關(guān)系,有的企業(yè)可能人不多,但是全部砸到這個(gè)項(xiàng)目上,有的且可能厲害的人很多,但是沒有派出來,這都是有可能的。

再一個(gè),由于數(shù)據(jù)生成的限制,我們采用的工具大多數(shù)是開源的工具,我們一直以來都想做場景化的,行業(yè)化的嘗試,這塊我們未來會逐步跟廠商和客戶再去進(jìn)一步的推進(jìn)場景化的。

還有周期的限制,我們無法進(jìn)一步的對穩(wěn)定性作出考量,一個(gè)系統(tǒng)在一個(gè)月高負(fù)載下的情況。另外是機(jī)器學(xué)習(xí)的數(shù)據(jù)量略小。

下一步我們的計(jì)劃,我們會引入一些數(shù)據(jù)流可視化,統(tǒng)一考慮權(quán)限管理,還有數(shù)據(jù)管理功能,流計(jì)算。還有性能,支持跟SQL更緊密兼容性。我們一直以來是想以任務(wù)為導(dǎo)向,尋找行業(yè)的性能評測,我們現(xiàn)在已經(jīng)在做評測的標(biāo)準(zhǔn),第四批會加入MPP數(shù)據(jù)庫的評測。這是下一步的計(jì)劃。

認(rèn)證報(bào)名馬上要啟動第四批了,10月8日到12月31日會做第四批基礎(chǔ)能力和性能專項(xiàng)。包括Hadoop與MPP數(shù)據(jù)庫產(chǎn)品??傊?,這是我們一直會堅(jiān)持做下去的事情,我們也希望成為中國的比較權(quán)威,或者是比較領(lǐng)先的大數(shù)據(jù)技術(shù)產(chǎn)品的評測機(jī)構(gòu)。也會以此為我們的愿景,一直踐行這些事情,幫助大家選型也罷,評估不同的開源技術(shù),這是我們的愿景。

未來的規(guī)劃,Hadoop和Spark已經(jīng)做了,MPP下一批也有了,數(shù)據(jù)管理的功能,我們會慢慢的在這些平臺上見到。還有一些BI和算法。這是我們的愿景規(guī)劃圖。今天我的分享就到此結(jié)束。謝謝。

當(dāng)前標(biāo)題:第三批大數(shù)據(jù)產(chǎn)品能力認(rèn)證情況綜述
本文地址:http://www.muchs.cn/article26/sohsjg.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供面包屑導(dǎo)航營銷型網(wǎng)站建設(shè)、網(wǎng)站建設(shè)網(wǎng)站設(shè)計(jì)公司、關(guān)鍵詞優(yōu)化外貿(mào)網(wǎng)站建設(shè)

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)

網(wǎng)站優(yōu)化排名