第三批大數(shù)據(jù)產(chǎn)品能力認(rèn)證情況綜述

9月1日，由工業(yè)和信息化部指導(dǎo)，中國信息通信研究院、中國通信標(biāo)準(zhǔn)化協(xié)會主辦，數(shù)據(jù)中心聯(lián)盟承辦的“2016可信云大會”在京隆重召開。在9月2日下午的大數(shù)據(jù)分論壇上，中國信息通信研究院技術(shù)與標(biāo)準(zhǔn)研究所大數(shù)據(jù)產(chǎn)品認(rèn)證負(fù)責(zé)人姜春宇發(fā)表了題為《第三批大數(shù)據(jù)產(chǎn)品能力認(rèn)證情況綜述》的演講。

成都創(chuàng)新互聯(lián)公司專注于企業(yè)成都全網(wǎng)營銷、網(wǎng)站重做改版、東鄉(xiāng)族網(wǎng)站定制設(shè)計(jì)、自適應(yīng)品牌網(wǎng)站建設(shè)、H5技術(shù)、商城網(wǎng)站制作、集團(tuán)公司官網(wǎng)建設(shè)、外貿(mào)網(wǎng)站制作、高端網(wǎng)站制作、響應(yīng)式網(wǎng)頁設(shè)計(jì)等建站業(yè)務(wù)，價(jià)格優(yōu)惠性價(jià)比高，為東鄉(xiāng)族等各大城市提供網(wǎng)站開發(fā)制作服務(wù)。

中國信息通信研究院技術(shù)與標(biāo)準(zhǔn)研究所大數(shù)據(jù)產(chǎn)品認(rèn)證負(fù)責(zé)人姜春宇

以下是演講實(shí)錄：

今年是第二次站在這里，我們今年測評的節(jié)奏比較快一些，三四月份完成了一批，六七八又完成了第三期，今年還會完成第四期。大數(shù)據(jù)發(fā)展的節(jié)奏比較快，所以我們的認(rèn)證和測算也是在不斷的摸索和前進(jìn)的過程。我是來自中國信息通信研究院的姜春宇，很榮幸給大家介紹第三批大數(shù)據(jù)產(chǎn)品能力認(rèn)證的情況。

主要兩個(gè)部分，一個(gè)是認(rèn)證情況的介紹，第二部分是我們的總結(jié)和下一步的計(jì)劃。

首先，我們回顧一下大數(shù)據(jù)產(chǎn)品能力認(rèn)證的歷程。去年6到8月份了第一批，是華為，移動，星環(huán)，中興，ucloud5家企業(yè)，今年Hadoop，，Spark數(shù)據(jù)基礎(chǔ)能力認(rèn)證是6家企業(yè)，現(xiàn)在是大數(shù)據(jù)基礎(chǔ)能力和性能專項(xiàng)6家企業(yè)，第四批是數(shù)據(jù)庫基礎(chǔ)能力和性能認(rèn)證，是今年年底。

這是第三批大數(shù)據(jù)產(chǎn)品能力認(rèn)證的評測對象和指標(biāo)，分為基礎(chǔ)能力，性能專項(xiàng)，基礎(chǔ)能力有七個(gè)維度，性能專項(xiàng)有四大任務(wù)。6到8月份我們看到了6家廠商參與了，其中國雙科技參與基礎(chǔ)能力認(rèn)證，華為，華三，騰訊云，星環(huán)，百分點(diǎn)等5家參與了商用版。

我們看基礎(chǔ)能力認(rèn)證體系，三四月份公布過，這樣的變化不是特別大，以七大項(xiàng)，其中黃色的是可選，其它的是必測。第四批的評估體系有稍微的修改，但是不會太大，認(rèn)證的流程，這邊是認(rèn)證的流程，這邊是評審的流程。認(rèn)證的話，首先是報(bào)名，其次是我們的審核材料，測試專家去現(xiàn)場審核，給出一個(gè)測試的結(jié)論，引入企業(yè)的互評，最后是對評審?fù)ㄟ^的一些企業(yè)和產(chǎn)品我們頒發(fā)通過的證書，具體的評審流程在右邊，基礎(chǔ)能力的審核方法從五個(gè)方面，包括軟件的版本。這是這批通過大數(shù)據(jù)產(chǎn)品能力認(rèn)證的兩家產(chǎn)品，這是兩個(gè)廠商的完成情況，百分點(diǎn)完成了28項(xiàng)預(yù)測和10項(xiàng)選側(cè)，國雙也是一樣。今年第二批的時(shí)候我們會看到一些廠商還沒有完全完成選測，但是現(xiàn)在來看，這兩家的完成度都非常高，這說明我們的標(biāo)準(zhǔn)技術(shù)的牽引已經(jīng)起到了作用。

另外，我們觀察到，根據(jù)自己的業(yè)務(wù)的不同，廠商的產(chǎn)品呈現(xiàn)出一些特點(diǎn)，比如說百分點(diǎn)趨向數(shù)據(jù)流管理數(shù)據(jù)。國雙更偏向云計(jì)算，可視化數(shù)據(jù)流降低平臺的管理成本和門檻。數(shù)據(jù)管理的話，你會用到不同的數(shù)據(jù)架構(gòu)，數(shù)據(jù)的管理非常重要。

非常重要的一點(diǎn)，流計(jì)算也是用戶用的比較多的。一些分析平臺，為機(jī)器學(xué)習(xí)，深度學(xué)習(xí)，分析平臺，這也是未來的方向。包括一些與云計(jì)算融合的趨勢，也是在加劇。市還有性能專項(xiàng)，有SQL，NOSQL，機(jī)器學(xué)習(xí)，MR任務(wù)。在SQL任務(wù)方面，我們選了5個(gè)query，是從負(fù)載的代表性上，報(bào)表任務(wù)，交互類任務(wù)，我們跟這些標(biāo)準(zhǔn)的廠商是一起選擇的，nosql，我們選擇HBase工具，也是因?yàn)闇y試周期有限，95%的讀，5%的寫，還有50%的讀和50%的寫，還有讀、更改、寫。MR任務(wù)，我們選了terasort，我們一直以來堅(jiān)持的標(biāo)準(zhǔn)是1TB的數(shù)據(jù)量。機(jī)器學(xué)習(xí)我們選擇了Kmeans和貝葉斯。數(shù)據(jù)規(guī)模，下一步可以承載30TB的能力，是也17個(gè)維度表，7個(gè)事實(shí)表構(gòu)成的，本次5嗯個(gè)語句，涉及了13個(gè)表，這是SQL任務(wù)。HBase是和去年一樣的，是2億條數(shù)據(jù)，從十個(gè)客戶端，每個(gè)客戶端2億條數(shù)據(jù)，這樣的話，大概一條數(shù)據(jù)是1KB的大小，十個(gè)客戶端接近2TB。terasrot是29TB，機(jī)器學(xué)習(xí)的負(fù)載是中科院的數(shù)據(jù)。

測試環(huán)境，去年是22臺戴爾R7300服務(wù)器，今年又買了10臺聯(lián)想R450服務(wù)器。審核方式與步驟，可以看到性能的測試比功能的測試要嚴(yán)格很多，因?yàn)樯婕暗降狞c(diǎn)比較多，也比較敏感。審核方法和步驟，測前檢查輸入檢查，過程檢查和結(jié)果檢查，文化留存。非常仔細(xì)和詳細(xì)的，我們爭取做到了在評審的時(shí)候，如果有質(zhì)疑，我們所有的結(jié)果都可以復(fù)寫的原則。

具體的審核，可以看到數(shù)據(jù)大小，表的檢查，表行的最高語句，表和列的內(nèi)容檢查，包括執(zhí)行語句要進(jìn)行一些對比，我們要清空緩存。

參與本皮性能專項(xiàng)認(rèn)證的產(chǎn)品是五間，新華三，騰訊，北京東方金信，星環(huán)和百分點(diǎn)。大家可以看到性能的部分測試結(jié)果，這是TPC-DS，執(zhí)行的時(shí)間量都在百秒內(nèi)，可以看到，上下兩個(gè)圖可以看出來，第二個(gè)SQL47最優(yōu)和中位的差別很大，說明這個(gè)是比較難的，有的測的特別好，有的測的特別不好。還有一個(gè)是SQL71，它的標(biāo)準(zhǔn)差也是比較高的，說明大家在這塊也是差距比較大的。SQL82，53和84的標(biāo)準(zhǔn)方差較小，說明大家在這三個(gè)水平是比較接近的，而且這三個(gè)任務(wù)是相對來說沒那么費(fèi)時(shí)的。

性能測試的YCSB分別模擬了寫入，并發(fā)寫，模擬了更新任務(wù)比較重的場景，模擬了度曲2數(shù)據(jù)再更改，再寫回的場景。可以看一下，這塊是誰的操作數(shù)越大，誰就越厲害，這不是時(shí)間維度來衡量的，剛才的是誰的時(shí)間越短越快，這塊美妙的操作數(shù)，最優(yōu)的是175萬美妙的操作數(shù)，獨(dú)占大比例的是148萬每秒的操作數(shù)，讀寫各半的是164萬，最后一個(gè)是7萬?？梢钥吹阶顑?yōu)的往往在百萬級別的。標(biāo)準(zhǔn)方差也可以看到，厲害的有非常厲害的，不厲害的有特別差的。這塊應(yīng)該是以后參測廠家應(yīng)該注意的。這塊可能大家有的不太熟悉，做的不太好。

這塊是YCSB執(zhí)行的單位，可以看到執(zhí)行的難以程度，總體來說，寫是最簡單的，因?yàn)樗娜蝿?wù)是比較單一的，讀的話，還有95%是讀，還有5%的更新。5%的各半稍微難一點(diǎn)，這兩個(gè)是相當(dāng)?shù)?，最慢的是read wand wwrite，我對比了一下，它總歸寫了2億條數(shù)據(jù)，但是modify像寫了2億，下面還有1億，它的操作數(shù)比別的多，所以他操作的慢，所以這也解釋通。所以總體來看，寫是最簡單的，最容易的，中間這兩個(gè)都差不多，第二個(gè)和第三個(gè)是差不多50分鐘左右，最后一個(gè)是80分鐘?？梢钥吹結(jié)CSB的耗時(shí)也是非常厲害的，在小時(shí)級別以上。這是對廠商參加測評的時(shí)候負(fù)荷是非常大的。

看看機(jī)器學(xué)習(xí)，Kmeans是最優(yōu)是272，中位是913，標(biāo)準(zhǔn)方差是572，這塊大家的水平差距特別大，貝葉斯最優(yōu)是46，它的差別相對小一些，因?yàn)閳?zhí)行時(shí)間是比較少的，標(biāo)準(zhǔn)方差也比較低。這塊我們未來會增加它的難度，因?yàn)閿?shù)據(jù)量小的話，大家的差別看不出來。

terasort比較有意思，去年是13.6TB最后執(zhí)行時(shí)間是在8000多秒，2個(gè)小時(shí)多一點(diǎn)。這邊是32個(gè)節(jié)點(diǎn)，等于說節(jié)點(diǎn)數(shù)擴(kuò)了一倍多一點(diǎn)點(diǎn)，數(shù)據(jù)規(guī)模也是差不多它的兩倍多一點(diǎn)點(diǎn)。發(fā)現(xiàn)去年的15臺結(jié)點(diǎn)算下來151703，畫到圖上簡單來看，并沒有呈現(xiàn)一個(gè)完全線性的擴(kuò)展，或者是一個(gè)線性可比性。而有兩種解釋，一種是本身terasort或者是Hadoop數(shù)據(jù)擴(kuò)展就不會出現(xiàn)線性的擴(kuò)展。另外，最年的最優(yōu)的測試沒有去年測試好。

terasort最優(yōu)是10083左右，中位值是3小時(shí)，這說明這個(gè)測試對大家的考驗(yàn)還是比較大的，因?yàn)闇?zhǔn)方差差不多是1434，一個(gè)周期是十個(gè)小時(shí)，一個(gè)測試是一次就3個(gè)小時(shí)，一天也沒有多少時(shí)間。整個(gè)測試的周期，我們七天的時(shí)間還是非常的緊張的。

總結(jié)和下一步的計(jì)劃。

性能方面有一些優(yōu)化的思路。硬件的調(diào)優(yōu)，操作系統(tǒng)的調(diào)優(yōu)，數(shù)據(jù)的分布均勻不均勻，代碼的應(yīng)用調(diào)優(yōu)，核心目標(biāo)是用盡所有的物理資源，不能讓它閑著。關(guān)于Spark，這次SQL和機(jī)器學(xué)習(xí)大部分廠商都采用了Spark，關(guān)于Spark，我們調(diào)優(yōu)也有一些總結(jié)，就是壓縮和分布數(shù)據(jù)，包括資源參數(shù)，主要是包括CPU，內(nèi)存比例的關(guān)系，這塊需要大家常常去摸索，得出一些經(jīng)驗(yàn)值。很重要的是要通過資源的監(jiān)控不停的反饋這次調(diào)優(yōu)的參數(shù)比例是不是合理，這跟算法的調(diào)優(yōu)都很像。

Hadoop也是主要是壓縮任務(wù)自數(shù)據(jù)，還有資源參數(shù)的調(diào)優(yōu)。HBase涉及到壓縮，讀寫的優(yōu)化的策略，還有按選擇合適的線程數(shù)。

還有性能的評測總結(jié)，跟去年一樣，我們在統(tǒng)一的平臺，統(tǒng)一的測試數(shù)據(jù)，統(tǒng)一的測試供給，統(tǒng)一的測試周期，統(tǒng)一的測試規(guī)則，很多東西你能調(diào)，別人也能調(diào)，你不能調(diào)，別人也不能調(diào)，大家的規(guī)則是一樣的。在我們這就是統(tǒng)一的規(guī)則，大家能調(diào)的就都調(diào)，不能調(diào)的就都不能調(diào)。大家看到我們評測的應(yīng)是統(tǒng)一的思路?？疾斓慕Y(jié)果一個(gè)是產(chǎn)品本身的性能，有穩(wěn)定性，包括它的易部署性，包括易運(yùn)維性，還有組建本身的性能。還有是考察參測團(tuán)隊(duì)綜合使用大數(shù)據(jù)平臺的能力，包括你環(huán)境部署與集群規(guī)劃，測試工具的使用，多任務(wù)調(diào)優(yōu)的能力，包括怎么安排你的測試的進(jìn)度，先測哪些，后測哪些。最后是集群的故障處理和運(yùn)行維護(hù)。在我們的測試中很多集群出現(xiàn)了宕機(jī)，因?yàn)槟闶窃跍y性能的極限值。可以看出考察的是產(chǎn)品和調(diào)優(yōu)團(tuán)隊(duì)整個(gè)的能力。所以考察上是比較全面，綜合。

我們再總結(jié)一下困難和特點(diǎn)，首先是任務(wù)重，周期緊，我們看到七天的測試周期里，包括措施系統(tǒng)的安裝，平臺的安裝，數(shù)據(jù)的生成，包括我們審核其它的舉證，我們看到terasort中位執(zhí)行時(shí)間是3小時(shí)，HBase任務(wù)中位執(zhí)行時(shí)間是29，54，50，39分鐘，另外是覆蓋性，覆蓋了業(yè)務(wù)系統(tǒng)里面的典型的一些任務(wù)。

第二，我們從來沒在國內(nèi)或者是國外看到類似的32臺集群規(guī)模的配置，使用上BT的數(shù)據(jù)規(guī)模的公開的業(yè)界的測試。所以我們處于業(yè)界比較領(lǐng)先的認(rèn)證。我們審核的這些取證的這些圖，測試過程是非常的嚴(yán)格，我們寧可多減一些，寧可多省一些。另外，評審也是的嚴(yán)格，行業(yè)客戶和業(yè)界專家傾聽、質(zhì)疑、答辯。

我們做陳鶴的評測和任何的認(rèn)證都是存在不足的，我們也承認(rèn)還有一些局限性的地方，比如說我們現(xiàn)在做的是單向機(jī)制，卻說對混合負(fù)載的情況。因?yàn)槟悴豢赡軉闻躍QL的任務(wù)，肯定是多種場景混跑，這些事情我們是缺少的。另外，我們承認(rèn)現(xiàn)場人員的前期準(zhǔn)備，平時(shí)的積累和現(xiàn)場的發(fā)揮對測試結(jié)果有一定的影響，就像高考一樣，肯定是有一些臨場發(fā)揮和機(jī)會在里面的。

另外也和企業(yè)的投入資源有關(guān)系，有的企業(yè)可能人不多，但是全部砸到這個(gè)項(xiàng)目上，有的且可能厲害的人很多，但是沒有派出來，這都是有可能的。

再一個(gè)，由于數(shù)據(jù)生成的限制，我們采用的工具大多數(shù)是開源的工具，我們一直以來都想做場景化的，行業(yè)化的嘗試，這塊我們未來會逐步跟廠商和客戶再去進(jìn)一步的推進(jìn)場景化的。

還有周期的限制，我們無法進(jìn)一步的對穩(wěn)定性作出考量，一個(gè)系統(tǒng)在一個(gè)月高負(fù)載下的情況。另外是機(jī)器學(xué)習(xí)的數(shù)據(jù)量略小。

下一步我們的計(jì)劃，我們會引入一些數(shù)據(jù)流可視化，統(tǒng)一考慮權(quán)限管理，還有數(shù)據(jù)管理功能，流計(jì)算。還有性能，支持跟SQL更緊密兼容性。我們一直以來是想以任務(wù)為導(dǎo)向，尋找行業(yè)的性能評測，我們現(xiàn)在已經(jīng)在做評測的標(biāo)準(zhǔn)，第四批會加入MPP數(shù)據(jù)庫的評測。這是下一步的計(jì)劃。

認(rèn)證報(bào)名馬上要啟動第四批了，10月8日到12月31日會做第四批基礎(chǔ)能力和性能專項(xiàng)。包括Hadoop與MPP數(shù)據(jù)庫產(chǎn)品?？傊?，這是我們一直會堅(jiān)持做下去的事情，我們也希望成為中國的比較權(quán)威，或者是比較領(lǐng)先的大數(shù)據(jù)技術(shù)產(chǎn)品的評測機(jī)構(gòu)。也會以此為我們的愿景，一直踐行這些事情，幫助大家選型也罷，評估不同的開源技術(shù)，這是我們的愿景。

未來的規(guī)劃，Hadoop和Spark已經(jīng)做了，MPP下一批也有了，數(shù)據(jù)管理的功能，我們會慢慢的在這些平臺上見到。還有一些BI和算法。這是我們的愿景規(guī)劃圖。今天我的分享就到此結(jié)束。謝謝。

當(dāng)前標(biāo)題：第三批大數(shù)據(jù)產(chǎn)品能力認(rèn)證情況綜述
本文地址：http://www.muchs.cn/article26/sohsjg.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供面包屑導(dǎo)航、營銷型網(wǎng)站建設(shè)、網(wǎng)站建設(shè)、網(wǎng)站設(shè)計(jì)公司、關(guān)鍵詞優(yōu)化、外貿(mào)網(wǎng)站建設(shè)

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請盡快告知，我們將會在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容