訪中科曙光智能計算技術(shù)總監(jiān)許濤:重新認(rèn)識面向未來的AI服務(wù)器和云計算中心

2018年11月20日,NVIDIA在蘇州召開了GTC China 2018大會。與會者對這場技術(shù)大會的期待不僅在于NVIDIA本身,對于其產(chǎn)品和技術(shù)在國內(nèi)的具體應(yīng)用也倍加關(guān)注。

網(wǎng)站建設(shè)哪家好,找成都創(chuàng)新互聯(lián)!專注于網(wǎng)頁設(shè)計、網(wǎng)站建設(shè)、微信開發(fā)、微信小程序開發(fā)、集團(tuán)企業(yè)網(wǎng)站建設(shè)等服務(wù)項目。為回饋新老客戶創(chuàng)新互聯(lián)還提供了精河免費(fèi)建站歡迎大家使用!

在本次大會上,國內(nèi)高性能計算領(lǐng)軍企業(yè)中科曙光推出了全新的XMachine系列AI服務(wù)器,基于Intel Skylake CPU,最多可通過NVLink支持8塊NVIDIA GPU、10卡訓(xùn)練GPU、20卡推理加速卡。底板采用CPU主板和GPU解耦合設(shè)計,可根據(jù)CPU和GPU的發(fā)展各自獨(dú)立升級,降低用戶更新?lián)Q代成本。

發(fā)布會后,雷鋒網(wǎng)與中科曙光智能計算技術(shù)總監(jiān)許濤進(jìn)行了深入的交流對話,獲悉中科曙光在產(chǎn)品和市場上的一些思考。

重新認(rèn)識高性能AI服務(wù)器

對于大多數(shù)人來說,高性能計算(HPC)產(chǎn)品和傳統(tǒng)的服務(wù)器似乎沒什么區(qū)別,都象征著“專業(yè)級”、“企業(yè)級”等高大上的定位。不過在談話中我們了解到,以高算力為需求的產(chǎn)品,已經(jīng)從傳統(tǒng)服務(wù)器中獨(dú)立出來了,其設(shè)計方式和傳統(tǒng)服務(wù)器有很大不同。

許濤向雷鋒網(wǎng)介紹,二者首要的區(qū)別在于傳統(tǒng)服務(wù)器的功耗密度相對較低,而AI服務(wù)器等高性能計算產(chǎn)品的功耗非常高,目前發(fā)售的AI服務(wù)器額定功率已達(dá)到3200瓦,下一代HGX產(chǎn)品給出的參考功率更是高達(dá)單臺10千瓦,遠(yuǎn)遠(yuǎn)超過傳統(tǒng)機(jī)架式和刀片式服務(wù)器。而功耗高也帶來了發(fā)熱量大的新挑戰(zhàn),這是AI服務(wù)器和傳統(tǒng)的服務(wù)器大的區(qū)別。

設(shè)計AI服務(wù)器時,供電和散熱是需要重點(diǎn)考慮的問題,相應(yīng)的對兼容性和穩(wěn)定性的要求也都不太一樣。在GPU加速卡剛出現(xiàn)的時候,單卡功耗不超過250瓦,而現(xiàn)在已經(jīng)達(dá)到300瓦,按照目前的趨勢,加速卡功耗還會隨著時間推移變得更高,當(dāng)單塊加速卡功耗達(dá)到350瓦以上的時候,傳統(tǒng)的服務(wù)器結(jié)構(gòu)就很難滿足了。

“在這么高的壓力下,單個機(jī)柜里能擺放的服務(wù)器數(shù)量是非常有限的?!痹S濤給我們算了筆賬,“3200瓦的AI服務(wù)器,一般的電信機(jī)房單柜只能放2臺,即便是20千瓦容量的高端水冷機(jī)房也只能放6臺。綜合考慮實際部署情況之后,我們發(fā)現(xiàn)4U是非常合理的AI服務(wù)器尺寸。XMachine的GPU倉高度為3U,不僅散熱空間大,也為未來的維護(hù)預(yù)留了很大的空間。”

而對于個人工作站,中科曙光在最新的W560-G30產(chǎn)品上也采用了改進(jìn)設(shè)計的3段式散熱方案:

GPU區(qū)域:RTX6000顯卡功耗達(dá)300瓦,擁有專門的散熱空間,并且使用IPMI功能精準(zhǔn)讀取顯卡狀態(tài)狀況并管理顯卡功耗和風(fēng)扇散熱,控制相應(yīng)的風(fēng)扇風(fēng)量,在保證顯卡散熱的同時將辦公環(huán)境下的噪音壓縮至最低,最高可支持2塊顯卡全速運(yùn)轉(zhuǎn)。

CPU區(qū)域:支持2顆共56個物理核心的至強(qiáng)鉑金CPU,每顆CPU的功耗達(dá)205瓦;2顆CPU風(fēng)道互相隔離,每顆CPU均有獨(dú)立進(jìn)風(fēng),保證CPU在高功耗下穩(wěn)定工作,并可支撐進(jìn)一步的超頻空間。

電源區(qū)域:使用可7*24小時穩(wěn)定提供1250瓦供電能力的鉑金電源,并設(shè)計有電源的獨(dú)立風(fēng)道;時在放置于數(shù)據(jù)中心使用時,可支持冗余電源和基于BMC的遠(yuǎn)程管理功能,變身成為高性能GPU服務(wù)器。


靈活應(yīng)對百花齊放的推理端市場

隨著異構(gòu)計算越來越流行,現(xiàn)在HPC Top 500里排名靠前的超高算力服務(wù)器基本上都用到了GPU加速卡或者其他加速部件。據(jù)雷鋒網(wǎng)了解,目前NVIDIA已經(jīng)基本壟斷了AI計算的訓(xùn)練端市場,但在與用戶應(yīng)用貼合特別緊密的推理端,由于需要進(jìn)行具體的應(yīng)用部署,GPU作為一種通用計算單元的優(yōu)勢就會被削弱。

NVIDIA雖然面向推理端市場發(fā)布了T4計算卡,但是像Intel、賽靈思和寒武紀(jì)等公司,依然在積極開拓這一領(lǐng)域。根據(jù)介紹,XMachine系列AI服務(wù)器在設(shè)計上可以兼容多種加速器產(chǎn)品,這些芯片在市場中是互補(bǔ)的,中科曙光未來會針對不同應(yīng)用場合推出使用不同加速芯片的服務(wù)器,就看終端用戶的訴求是什么。

“在文字處理或信息導(dǎo)流等業(yè)務(wù)中,傳統(tǒng)CPU的運(yùn)算效率也很好;如果是需要捕捉黃金窗口期的商業(yè)化公司,那么NVIDIA T4這樣的GPU加速產(chǎn)品可以讓公司迅速上線項目?!?許濤為我們詳細(xì)分析著幾種不同的情況,“而對那些擁有特殊業(yè)務(wù)需求的定制化客戶來說,他們需要經(jīng)常迅速改換業(yè)務(wù)邏輯,這種情況下顯然FPGA更適合?!?/p>

隨后,許濤特別提到了寒武紀(jì)科技今年5月3日發(fā)布的首款云端智能芯片MLU100及對應(yīng)的云端AI計算卡,并糾正了我們對國產(chǎn)AI芯片的一些認(rèn)識誤區(qū)。他表示,寒武紀(jì)MLU100芯片與NVIDIA P4/T4加速卡的設(shè)計理念大相徑庭,二者在計算能力上并不能直接進(jìn)行對比。

“寒武紀(jì)MLU100芯片所使用的AI框架和技術(shù)非常專一,可以快速實現(xiàn)CNN、RNN等各種各樣的卷積過程,達(dá)到非常好效果,在特定的推理市場上給用戶提供更好的加速。如果是與應(yīng)用貼合非常緊密的研究型用戶,寒武紀(jì)MLU100芯片可以在其特定環(huán)境下將算力發(fā)揮到極致?!?/p>

不擔(dān)心被模仿

中科曙光此次發(fā)布的XMachine系列AI服務(wù)器,采用了CPU底板和GPU底板解耦的設(shè)計,未來可通過模塊化組合的方式進(jìn)行獨(dú)立升級,以降低用戶更新?lián)Q代成本,大限度保護(hù)投資。

為此我們不免擔(dān)心,這種彈性靈活的創(chuàng)新設(shè)計,會不會慢慢被其他服務(wù)器廠商效仿?

對于這一問題,許濤很是自信:如果其他公司真的模仿我們的機(jī)器,說明我們引領(lǐng)了這個市場。據(jù)悉,之前國內(nèi)的GPU服務(wù)器來源基本都是OEM或ODM,但隨著時間的推移,技術(shù)輸入越來越困難,這些產(chǎn)品很難適應(yīng)國內(nèi)形形色色的定制化需求。

許濤坦言,中科曙光并不是國內(nèi)第一家推出GPU服務(wù)器的廠商,但是他們希望可以做到最好,或者說可以在某些擅長的行業(yè)里面做到最好。而想要讓產(chǎn)品始終保持先進(jìn)的架構(gòu)或結(jié)構(gòu),就要不停進(jìn)行技術(shù)演進(jìn),一款產(chǎn)品成熟的過程就是一個反復(fù)迭代的過程。

“從我們自己的角度來看,現(xiàn)在的產(chǎn)品不應(yīng)該是完美的,應(yīng)該有新的版本不停迭代,讓它變得越來越適用于用戶應(yīng)用場景,或者越來越適用于新技術(shù)的發(fā)展?!痹S濤解釋道,“模仿是沒有辦法避免的,但在其他公司模仿的過程中,我們自身也在不停演進(jìn),所以我們并不擔(dān)心產(chǎn)品被模仿?!?/p>

同時他還指出,隨著技術(shù)的不斷更新,很多技術(shù)要素想要模仿也是很困難的。中科曙光除與NVIDIA建立合作外,還與寒武紀(jì)等其他國產(chǎn)芯片合作,合作過程中需要投入大量技術(shù)資源和測試資源,這些投入都不是簡單的模仿機(jī)器硬件可以實現(xiàn)的。

“從這個層面來講,我們希望他們能模仿。如果其他公司真的模仿我們的機(jī)器,說明我們引領(lǐng)了這個市場?!?/p>

面向未來的云計算中心和先進(jìn)計算平臺

現(xiàn)在云計算已經(jīng)不再像過去那樣只停留在各種文章里面,隨著認(rèn)可度的逐漸提升,不管是專用云平臺還是通用云平臺都在慢慢落地,各種企業(yè)都越來越愿意為這份資源去花錢。

中科曙光的AI戰(zhàn)略規(guī)劃很大,一方面中科曙光有AI服務(wù)器自己的底層硬件產(chǎn)品,另一方面也在硬件產(chǎn)品的基礎(chǔ)上設(shè)計配套軟件,并擁有自己的云計算中心和先進(jìn)計算平臺。云計算中心既可以給用戶提供計算資源,也希望能夠通過虛擬化的技術(shù),幫助那些有獨(dú)特見解的用戶實現(xiàn)他們的創(chuàng)意。

雷鋒網(wǎng)(公眾號:雷鋒網(wǎng))了解到,中科曙光在云計算領(lǐng)域的起步其實非常早,在成都、無錫、南京、包頭等地都有為政府提供服務(wù)的城市云計算中心。但許濤清楚地知道,云計算中心也需要隨著時代前進(jìn)而不停演進(jìn),隨著普及程度的提高,如果只停留在傳統(tǒng)的發(fā)展模式下,未來的競爭力會越來越弱。

“從我們的角度來看,更希望能在某些特殊領(lǐng)域或行業(yè)里供專業(yè)的云服務(wù)?!痹S濤解釋道,“中科曙光的體量是無法和BAT這種通用云平臺抗衡的,他們的構(gòu)架非常龐大,可以把很多業(yè)務(wù)都牽進(jìn)去,但是對我們來講,想要保持業(yè)務(wù)的先進(jìn)性,只能在一些特殊領(lǐng)域或行業(yè)里做到最尖端?!?/p>

“為用戶提供特異化的服務(wù),使我們的優(yōu)勢很難被通用云平臺模仿,這才是正確的發(fā)展方向,也是我們眼中未來的云計算市場。”許濤如是說。


當(dāng)前名稱:訪中科曙光智能計算技術(shù)總監(jiān)許濤:重新認(rèn)識面向未來的AI服務(wù)器和云計算中心
本文URL:http://muchs.cn/article28/dpicp.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站設(shè)計、網(wǎng)站建設(shè)、網(wǎng)站制作、靜態(tài)網(wǎng)站小程序開發(fā)、微信小程序

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

成都seo排名網(wǎng)站優(yōu)化