事后想來(lái),芯片驗(yàn)證工程師Lynda覺(jué)得進(jìn)騰訊有點(diǎn)“草率”了。
成都創(chuàng)新互聯(lián)技術(shù)團(tuán)隊(duì)十年來(lái)致力于為客戶(hù)提供成都做網(wǎng)站、成都網(wǎng)站設(shè)計(jì)、高端網(wǎng)站設(shè)計(jì)、營(yíng)銷(xiāo)型網(wǎng)站、搜索引擎SEO優(yōu)化等服務(wù)。經(jīng)過(guò)多年發(fā)展,公司擁有經(jīng)驗(yàn)豐富的技術(shù)團(tuán)隊(duì),先后服務(wù)、推廣了1000+網(wǎng)站,包括各類(lèi)中小企業(yè)、企事單位、高校等機(jī)構(gòu)單位。
作為一個(gè)在半導(dǎo)體行業(yè)工作過(guò)多年的資深工程師,Lynda第一次看到騰訊發(fā)布芯片崗位需求時(shí),略感到一絲驚訝。2019年1月她帶著好奇加入這家互聯(lián)網(wǎng)大廠,準(zhǔn)備擼起袖子,大干一場(chǎng)。
面試時(shí),主導(dǎo)芯片設(shè)計(jì)工作的Henry給她打過(guò)一劑預(yù)防針:“我們是從零開(kāi)始做芯片。”Lynda試圖代入鵝廠一貫的低調(diào)來(lái)理解這句話(huà),但隨即便在第一天上班時(shí)被跟同事的對(duì)話(huà)震到了:
-“我們的仿真工具呢?” -“沒(méi)有,還在談?!?/p>
-“驗(yàn)證環(huán)境怎么說(shuō)?” -“還……沒(méi)有?!?/p>
-“那……驗(yàn)證流程呢?-“這個(gè)……也沒(méi)有。“
對(duì)于一個(gè)芯片驗(yàn)證工程師來(lái)說(shuō),仿真工具、驗(yàn)證環(huán)境、驗(yàn)證流程就是必備的生產(chǎn)力工具。Lynda想全程參與芯片研發(fā)業(yè)務(wù),倒不怕從頭開(kāi)始,只不過(guò)沒(méi)想到連這些必備品都能 “三無(wú)”。
當(dāng)一家互聯(lián)網(wǎng)公司投身半導(dǎo)體時(shí),工具的欠缺還不是最緊要的?!霸煨尽辈粌H是業(yè)務(wù)的簡(jiǎn)單延伸,它往往意味著更復(fù)雜的產(chǎn)業(yè)鏈、更耗時(shí)的人才沉淀、以及更迥異的生態(tài)文化和技術(shù)理念。
比如芯片研發(fā)不像軟件開(kāi)發(fā)尚可后期不斷改bug,設(shè)計(jì)問(wèn)題沒(méi)被前期驗(yàn)證發(fā)現(xiàn),一旦流片就只能淪為一塊“磚頭”。而Lynda所擔(dān)任的驗(yàn)證工程師,就是防止前期努力打水漂的守門(mén)員。
這個(gè)崗位的重要性不言而喻,設(shè)計(jì)工程師與驗(yàn)證工程師的比例在很多芯片公司會(huì)達(dá)到1:3。但Lynda入職后環(huán)顧四周,發(fā)現(xiàn)不僅自己只有一個(gè)并肩作戰(zhàn)的同事,連驗(yàn)證的代碼也一行都沒(méi)有。
這時(shí)候,Lynda才開(kāi)始明白Henry口中的“從零開(kāi)始”意味著什么,以及她面臨著怎樣一場(chǎng)艱難的戰(zhàn)役。
01
雄關(guān)如鐵,出師未捷
在騰訊云副總裁、云架構(gòu)平臺(tái)部總經(jīng)理謝明看來(lái),“從零開(kāi)始”的背后還有更多的曲折故事。
謝明所在的云架構(gòu)平臺(tái)部,站在騰訊各類(lèi)前端應(yīng)用的身后,是騰訊海量業(yè)務(wù)數(shù)據(jù)沖刷的前線(xiàn),有效支撐了QQ、郵箱、微信、微云、流媒體視頻等一個(gè)又一個(gè)的國(guó)民級(jí)應(yīng)用。
2013年,QQ相冊(cè)已經(jīng)發(fā)展成騰訊最大的一個(gè)存儲(chǔ)類(lèi)業(yè)務(wù)。讓用戶(hù)訪(fǎng)問(wèn)相冊(cè)的速度更快、體驗(yàn)更順滑,成了一個(gè)很急迫的需求。轉(zhuǎn)化成相應(yīng)的技術(shù)問(wèn)題,就是圖片能否更快地轉(zhuǎn)碼?能否在不損畫(huà)質(zhì)的情況下壓縮?能否以更低的成本存儲(chǔ)?
他們反復(fù)地追問(wèn)。
團(tuán)隊(duì)深刻地明白底層技術(shù)創(chuàng)新對(duì)上層應(yīng)用的放大價(jià)值。軟件架構(gòu)上固然要永遠(yuǎn)不停歇地進(jìn)行自我超越,但他們敏銳地察覺(jué)到,只有在硬件上也作出創(chuàng)新,才能實(shí)現(xiàn)更深層次的突破。
問(wèn)題是:一個(gè)做軟件出身的團(tuán)隊(duì),怎么去做硬件?
一圈研究之后,他們決定先拿FPGA(可編程陣列邏輯)試水。跟我們平時(shí)電腦和手機(jī)里的通用芯片相比,F(xiàn)PGA是一種專(zhuān)用集成電路(ASIC),能夠?qū)崿F(xiàn)靈活的“半定制”開(kāi)發(fā)。
FPGA相比起芯片容錯(cuò)率高,但在吞吐率、延遲、功耗和靈活性等維度上都很平衡。尤其是在處理海量數(shù)據(jù)時(shí),F(xiàn)PGA相比GPU具有超低延時(shí)的顯著優(yōu)勢(shì),很適合用在特定的業(yè)務(wù)場(chǎng)景。
事實(shí)驗(yàn)證了這種判斷。2015年,團(tuán)隊(duì)集中力量研發(fā)的圖片編碼FPGA,取得了比CPU編碼和軟件編碼更高的壓縮率和更低的延時(shí),也幫助QQ相冊(cè)很大程度上降低了存儲(chǔ)成本。他們看到了在FPGA方向 探索 和深入的可能性。
2016年前后,由Alpha Go引爆的AI熱潮更把FPGA拉入了主流視野。團(tuán)隊(duì)通過(guò)FPGA對(duì)深度學(xué)習(xí)模型的CNN算法進(jìn)行加速后,處理性能達(dá)到通用CPU的4倍,而單位成本僅為1/3。
FPGA效果雖好,但技術(shù)門(mén)檻比較高,“如果把FPGA云化,是不是一個(gè)能夠擴(kuò)大應(yīng)用的解決路徑?”
帶著這樣的期待,2017年1月20日,騰訊云推出了國(guó)內(nèi)首款FPGA云服務(wù)器,希望以云計(jì)算的方式,將FPGA能力推廣到更多企業(yè)。
從效果上來(lái)說(shuō),在FPGA云服務(wù)器上進(jìn)行FPGA硬件編程的企業(yè),確實(shí)能將性能提升至通用CPU服務(wù)器的30倍以上,而只需支付相當(dāng)于通用CPU約40%的費(fèi)用。以一家著名的基因檢測(cè)公司為例,傳統(tǒng)用CPU需要檢測(cè)一周的基因序列,F(xiàn)PGA可以壓縮到數(shù)小時(shí)完成。
然而云化后的FPGA,沒(méi)能如預(yù)期般迅速席卷整個(gè)行業(yè)。
一方面,F(xiàn)PGA畢竟是一種“半定制”的電路,許多企業(yè)還是無(wú)法獨(dú)立勝任FPGA開(kāi)發(fā),需要更加上層的服務(wù);另一方面,通用芯片成本的迅速下降,也讓FPGA的性?xún)r(jià)比優(yōu)勢(shì)逐漸喪失。
云端商業(yè)化的受挫潑來(lái)一盆冷水,把團(tuán)隊(duì)的熱情從巔峰一下子打到了谷底,同時(shí)也把兩個(gè)問(wèn)題赤裸裸地拋到整個(gè)團(tuán)隊(duì)的眼前:FPGA對(duì)業(yè)務(wù)的價(jià)值究竟有多大?FPGA還能繼續(xù)做嗎?
受此打擊,團(tuán)隊(duì)在2018年也近乎分崩離析,人員開(kāi)始集中式地離開(kāi)。騰訊在“造芯”上的第一次 探索 ,畫(huà)上了一個(gè)遺憾的逗號(hào)。
02
柳暗花明,“蓬萊”問(wèn)世
在FPGA云服務(wù)器受挫后,騰訊需要重新思考硬件之路要怎么走下去。
在團(tuán)隊(duì)幾乎解散的2018年,中國(guó)芯片行業(yè)迎來(lái)暖春:中美貿(mào)易摩擦給全民普及了芯片的重要性,科創(chuàng)板的設(shè)立為半導(dǎo)體企業(yè)上市開(kāi)啟大門(mén),而國(guó)家資金的進(jìn)場(chǎng)更是讓大江南北一片熱火朝天。
但是,對(duì)于互聯(lián)網(wǎng)公司來(lái)說(shuō),做芯片跟做云計(jì)算、數(shù)據(jù)庫(kù)、存儲(chǔ)系統(tǒng)等一樣,需要有具體的業(yè)務(wù)場(chǎng)景支撐,不能“為了做而做”。在經(jīng)歷過(guò)一場(chǎng)不算成功的 探索 后,騰訊要等待下一個(gè)真實(shí)需求帶來(lái)的機(jī)會(huì)。
時(shí)間進(jìn)入2019年。那是人工智能規(guī)?;瘧?yīng)用的元年,內(nèi)外部業(yè)務(wù)都提出了對(duì)AI芯片的強(qiáng)烈訴求。AI芯片,要不要做?
這個(gè)問(wèn)題被提出來(lái)的時(shí)候,騰訊的管理層有過(guò)反對(duì)的聲音,擔(dān)心技術(shù)人員只是頭腦發(fā)熱,只是為了追逐熱點(diǎn)。但同時(shí),管理層也給了足夠的灰度,沒(méi)有明令禁止小團(tuán)隊(duì)級(jí)別的 探索 。
以小規(guī)模、低成本、特定應(yīng)用場(chǎng)景的方式先行試水,成了大家的共識(shí)。
云架構(gòu)平臺(tái)部將第一款芯片敲定AI推理方向,取名“蓬萊”,希望這款芯片能像中國(guó)古代神話(huà)里的海外仙山一樣,穩(wěn)固地立于洶涌波濤之上。
這支硬件突圍小分隊(duì),也被正式命名為“蓬萊實(shí)驗(yàn)室”。
有了FPGA 探索 時(shí)積攢的經(jīng)驗(yàn),蓬萊實(shí)驗(yàn)室對(duì)硬件編程語(yǔ)言已經(jīng)相當(dāng)熟練,也在標(biāo)準(zhǔn)接口、總線(xiàn)等方面積累了一些平臺(tái)化的設(shè)計(jì)。然而,兩者的研發(fā)要求,不可同日而語(yǔ)。
如果說(shuō)做FPGA是搭現(xiàn)成的積木,那么做芯片就是直接從伐木開(kāi)始來(lái)著手來(lái)制造積木。FPGA出了問(wèn)題可以重新編程,而芯片只有一次流片機(jī)會(huì),一旦出錯(cuò),所有的努力便付諸東流。
此外, FPGA的資源是現(xiàn)成固定的,芯片的資源卻是由自己定義的。一個(gè)字,就是要“摳”:用最小的資源做最大的事。
芯片架構(gòu)工程師Rick用“裝修”改“重建”來(lái)形容整個(gè)蓬萊項(xiàng)目。一開(kāi)始,團(tuán)隊(duì)以為能把之前FPGA的技術(shù)較為簡(jiǎn)單地轉(zhuǎn)成芯片。做著做著發(fā)現(xiàn),以為終歸只是以為——FPGA架構(gòu)在芯片中能直接復(fù)用的并不多,團(tuán)隊(duì)只能把原來(lái)的架構(gòu)整個(gè)拆掉,重寫(xiě)的代碼量高達(dá)85%。
像DDR存儲(chǔ)器這樣的重中之重,芯片廠商通常會(huì)有專(zhuān)門(mén)的驗(yàn)證人員負(fù)責(zé),而剛起步的蓬萊實(shí)驗(yàn)室沒(méi)這個(gè)條件,只能靠搶時(shí)間把功課補(bǔ)回來(lái)。Lynda后來(lái)回憶道:“我恨不得一天有48個(gè)小時(shí)”。
2020年1月,蓬萊芯片流片完成,被合作方快遞到深圳。新冠疫情剛剛在全國(guó)范圍內(nèi)暴發(fā),公司已經(jīng)開(kāi)啟集體遠(yuǎn)程辦公。
項(xiàng)目負(fù)責(zé)人Henry戴著手套取到快遞,用酒精仔細(xì)消毒后,帶到空空蕩蕩的辦公樓,大開(kāi)著窗戶(hù)和風(fēng)扇,在一片消毒水味中,他和幾個(gè)同事一起開(kāi)始了至關(guān)重要的點(diǎn)亮操作。
所謂點(diǎn)亮,就是給芯片上電,首先看有沒(méi)有短路冒煙,接著就是測(cè)試一些基本功能。是芯片還是“磚頭”,成敗在此一舉。
結(jié)果,芯片的時(shí)鐘頻率一直沒(méi)出來(lái)。要知道,時(shí)鐘頻率是芯片的“節(jié)拍器”,沒(méi)有時(shí)鐘頻率,芯片的不同模塊等于沒(méi)對(duì)好表,就無(wú)法協(xié)同工作。
是不是這塊芯片的問(wèn)題?實(shí)驗(yàn)人員換了一塊芯片,依然沒(méi)有信號(hào)輸出。
再換一塊,還是沒(méi)有。現(xiàn)場(chǎng)鴉雀無(wú)聲。
實(shí)驗(yàn)人員已經(jīng)不敢動(dòng)手了。有人忍不住開(kāi)玩笑,是不是該回家改簡(jiǎn)歷了。
但除了沮喪,大家心里更多的是疑惑。因?yàn)轫?xiàng)目雖然人少、資源少,近乎是白手起家,但蓬萊團(tuán)隊(duì)從設(shè)計(jì)人員到驗(yàn)證人員都有信心說(shuō):每一步都做好了。到底是哪里不對(duì)呢?
在無(wú)比凝重的氣氛中,他們繼續(xù)放板、上電、讀取信號(hào)……
第四塊芯片,亮了。剩下的所有芯片,也都沒(méi)問(wèn)題。
真相其實(shí)很簡(jiǎn)單。28納米工藝的芯片不良率只有3%,但偏偏隨機(jī)測(cè)試的前三片都是壞片,小概率事件就恰好讓他們?nèi)s上了。這讓他們把“生一胎”的緊張情緒,體驗(yàn)到十足。
在虛驚一場(chǎng)后的拍手相慶中,騰訊第一款芯片,宣告問(wèn)世。
03
更上一層,“紫霄”凌云
量產(chǎn)后的蓬萊芯片,實(shí)戰(zhàn)表現(xiàn)也不負(fù)眾望,助力騰訊推出中國(guó)第一臺(tái)獲準(zhǔn)進(jìn)入醫(yī)院臨床應(yīng)用的智能顯微鏡,實(shí)現(xiàn)自動(dòng)識(shí)別醫(yī)學(xué)圖像、統(tǒng)計(jì)細(xì)胞數(shù)目并直接顯示在視野上,性能表現(xiàn)完全符合設(shè)計(jì)要求。
這一掃當(dāng)年FPGA云服務(wù)器項(xiàng)目的陰霾,說(shuō)明在制造造出直面應(yīng)用、性能卓越的芯片,這條路,騰訊走得通。
終端芯片蓬萊的問(wèn)世,只是完成了從0到1的任務(wù)。團(tuán)隊(duì)已經(jīng)迫不及待向要從1到N,向著大規(guī)模云端芯片進(jìn)軍。蓬萊實(shí)驗(yàn)室負(fù)責(zé)人Alex將大芯片申請(qǐng)立項(xiàng)戲稱(chēng)為“A輪融資”。
初試鋒芒之后,團(tuán)隊(duì)需要向公司說(shuō)明,為什么需要用更大的投入去做大規(guī)模芯片?在短期和長(zhǎng)期能否保持領(lǐng)先性?如何與內(nèi)外部業(yè)務(wù)結(jié)合創(chuàng)造價(jià)值?
騰訊這次面臨的決策,要容易做得多。
首先是蓬萊實(shí)驗(yàn)室的成熟。通過(guò)一邊行軍一邊成長(zhǎng),蓬萊實(shí)驗(yàn)室完成了一次次蛻變,建立起完整、嚴(yán)謹(jǐn)、規(guī)范的芯片研發(fā)體系和流程。這已經(jīng)是一支具備硬核氣場(chǎng)的“正規(guī)軍”。
更重要的是,團(tuán)隊(duì)證明了騰訊做芯片的優(yōu)勢(shì)和站位。
謝明解釋說(shuō),從行業(yè)來(lái)看,做芯片除了要考慮技術(shù)和工藝,最大的難點(diǎn)在于對(duì)芯片的“定義”。傳統(tǒng)芯片廠商的優(yōu)勢(shì)在于前者,但芯片做出來(lái)之后再去匹配需求,在很多場(chǎng)景下真實(shí)性能是損失的。Google、騰訊這類(lèi) 科技 企業(yè)的優(yōu)勢(shì)在于自身就是需求方,對(duì)需求的理解和洞察最深刻、最透徹。
方向沒(méi)有問(wèn)題,技術(shù)和工藝也沒(méi)問(wèn)題,騰訊高級(jí)執(zhí)行副總裁、TEG(技術(shù)工程事業(yè)部)總裁盧山給予了全面支持,并通過(guò)總辦爭(zhēng)取到了更多的headcount和資金。
有了公司戰(zhàn)略的支持,團(tuán)隊(duì)志氣滿(mǎn)滿(mǎn)奔赴更大的戰(zhàn)場(chǎng)。蓬萊實(shí)驗(yàn)室副總監(jiān)Austin決定兵分兩路,在AI推理和視頻編解碼上并行推進(jìn)。
AI小分隊(duì)繼續(xù)做蓬萊的2.0版“紫霄”。這是《封神演義》里鴻鈞老祖所居宮殿的名字。在穩(wěn)固的仙山上牢筑“紫霄”,代表了新的野心:
這次,他們將目標(biāo)直接定為業(yè)界第一。
紫霄所有的架構(gòu)都圍繞著有效算力去做。團(tuán)隊(duì)優(yōu)化片上緩存設(shè)計(jì),并摒棄競(jìng)品常用的GDDR6內(nèi)存,采用先進(jìn)的2.5D封裝技術(shù),把HBM2e內(nèi)存與AI芯片合封在一起,從而把內(nèi)存帶寬提升了近40%。
技術(shù)迭代一日千里。紫霄立項(xiàng)后,業(yè)內(nèi)最高性能表現(xiàn)又被競(jìng)品刷新。雖然紫霄的設(shè)計(jì)性能相比這個(gè)最高表現(xiàn)還足夠“安全”,但團(tuán)隊(duì)還打算繼續(xù)加碼。
經(jīng)過(guò)研究,他們?cè)谛酒瑑?nèi)部增加了計(jì)算機(jī)視覺(jué)CV加速器以及視頻編解碼加速器,可創(chuàng)新性地大幅減小AI芯片和x86 CPU之間的交互和等待。
即便因此而增加了兩個(gè)復(fù)雜的自研模塊,團(tuán)隊(duì)仍然在計(jì)劃的6個(gè)月時(shí)間里完成了從架構(gòu)確定到驗(yàn)證以及流片的全部流程。
2021年9月10日,紫霄順利點(diǎn)亮。
在圖片和視頻處理、自然語(yǔ)言處理、搜索推薦等應(yīng)用場(chǎng)景下,這款芯片打破了制約算力發(fā)揮的瓶頸點(diǎn),最終在實(shí)際業(yè)務(wù)場(chǎng)景性能表現(xiàn)達(dá)到了業(yè)界標(biāo)品的2倍。
04
獨(dú)立自研,“滄?!币恍?/p>
AI小分隊(duì)給自己芯片取名“紫霄”,而視頻編解碼則取名“滄?!保H有海天相接之意。
不同于蓬萊和紫霄主打AI,滄海是一款視頻轉(zhuǎn)碼芯片。如果說(shuō)當(dāng)年QQ相冊(cè)圖片的轉(zhuǎn)碼問(wèn)題是蓬萊團(tuán)隊(duì)做硬件的最早契機(jī),那視頻編解碼小分隊(duì)在這個(gè)方向上的繼續(xù) 探索 ,正是完成了一次對(duì)初心的呼應(yīng)。
不同的是,“滄?!钡膽?yīng)用場(chǎng)景已經(jīng)遠(yuǎn)超當(dāng)年的范疇。
當(dāng)多媒體業(yè)務(wù)從圖片時(shí)代進(jìn)化到音視頻直播時(shí)代,天量的4K/8K超高清的數(shù)字內(nèi)容如潮水一般持續(xù)沖擊著云計(jì)算基礎(chǔ)設(shè)施。每增加一個(gè)比特的數(shù)據(jù),都會(huì)帶來(lái)相應(yīng)的轉(zhuǎn)碼算力和CDN帶寬成本。
這是一道直觀而嚴(yán)峻的數(shù)學(xué)題,而滄海小分隊(duì)的解題目標(biāo)也非常清晰,那就是要做一款業(yè)界最強(qiáng)的視頻轉(zhuǎn)碼芯片,把壓縮率發(fā)揮到極致。
好在,騰訊豐富的多媒體應(yīng)用場(chǎng)景,以及騰訊云覆蓋的眾多直播互動(dòng)頭部客戶(hù),為滄海的研發(fā)提供了得天獨(dú)厚的分析和驗(yàn)證條件。
團(tuán)隊(duì)先是推出了滄海的核心自研模塊——硬件視頻編碼器“瑤池”,并決定在滄海完成研發(fā)之前給瑤池一次大考。
這個(gè)大考就是2020年的MSU世界編解碼大賽,該大賽由莫斯科國(guó)立大學(xué)(MSU)主辦,十多年來(lái)一直是全球視頻壓縮領(lǐng)域最具影響力的頂級(jí)賽事,吸引了包括英特爾、英偉達(dá)、谷歌、華為、阿里和騰訊在內(nèi)的國(guó)內(nèi)外知名 科技 企業(yè)參與。
結(jié)果是,瑤池實(shí)現(xiàn)1080P@60Hz的視頻實(shí)時(shí)編碼,力壓群雄獲得了SSIM (結(jié)構(gòu)相似性)、PSNR(峰值信噪比)和VMAF(視頻多方法評(píng)估融合)等各項(xiàng)客觀指標(biāo)評(píng)測(cè)第一名,以及人眼主觀評(píng)價(jià)第一的好成績(jī),相比第二名領(lǐng)先了一個(gè)身位。
經(jīng)此硬仗,滄海在技術(shù)上得到了充分檢閱。
2022年3月5日,Derick和他帶領(lǐng)的視頻編解碼小分隊(duì)收到流片回來(lái)的芯片“滄海”,又正逢深圳因疫情而全面遠(yuǎn)程辦公。
他們申請(qǐng)?zhí)嘏M(jìn)入空空蕩蕩的辦公樓。這情景,和兩年前點(diǎn)亮蓬萊時(shí)何其相似。
不曾想到,點(diǎn)亮蓬萊時(shí)的一波三折,同樣重現(xiàn)??朔艘恍┱{(diào)試中的意外,在一片歡呼中,騰訊的第三款芯片、同時(shí)也是完全自主研發(fā)的第一款芯片滄海成功點(diǎn)亮。
化滄海為一粟。滄海最終實(shí)現(xiàn)以更小的數(shù)據(jù)量、更小的帶寬提供相同質(zhì)量的視頻,壓縮率相比行業(yè)最佳表現(xiàn)還提高了30%以上。
從蓬萊到紫霄再到滄海,從28納米工藝到12納米工藝,從8個(gè)人發(fā)展到100多人,從仿真工具一無(wú)所有到“天箭驗(yàn)證平臺(tái)”正式落成,從努力跟上合作伙伴的節(jié)奏到獨(dú)立做完全SOC。
兩只小分隊(duì)勝利會(huì)師。蓬萊團(tuán)隊(duì),完成了一場(chǎng)“芯”路進(jìn)化。
05
“100G”時(shí)代,雙木參天
躬身跳進(jìn)造芯大潮的,不是只有云架構(gòu)平臺(tái)部。
在多媒體、AI處理積極求變的同時(shí),底層的云服務(wù)器也面臨著相似的問(wèn)題:當(dāng)軟件優(yōu)化帶來(lái)的性能提升無(wú)法讓產(chǎn)品擁有區(qū)別于競(jìng)品的明顯競(jìng)爭(zhēng)力時(shí),如何讓性能突破現(xiàn)有天花板?
2019年,騰訊迎來(lái)云計(jì)算業(yè)務(wù)上的里程碑——云服務(wù)器規(guī)模突破了100萬(wàn)。騰訊云副總裁、騰訊網(wǎng)絡(luò)平臺(tái)部總經(jīng)理鄒賢能敏銳地觀察到,隨著服務(wù)器接入帶寬不斷提升,服務(wù)器用于網(wǎng)絡(luò)處理的CPU資源也越來(lái)越多。
能否以更低成本的方式來(lái)實(shí)現(xiàn)服務(wù)器網(wǎng)絡(luò)處理,同時(shí)還提供更高的網(wǎng)絡(luò)性能?騰訊的網(wǎng)絡(luò)平臺(tái)部也將目光投向了軟硬協(xié)同與硬件加速。
面對(duì)這樣“既要、又要”的挑戰(zhàn),鄒賢能決定給服務(wù)器做個(gè)減法:“把網(wǎng)絡(luò)數(shù)據(jù)處理的負(fù)擔(dān)從CPU卸載出來(lái)”。
“智能網(wǎng)卡”的想法就這樣誕生了。
所謂智能網(wǎng)卡,一方面像普通網(wǎng)卡一樣肩負(fù)起服務(wù)器的對(duì)外網(wǎng)絡(luò)訪(fǎng)問(wèn),實(shí)現(xiàn)不同服務(wù)器和數(shù)據(jù)中心之間的網(wǎng)絡(luò)互聯(lián)。另一方面,它額外帶有CPU/FPGA/內(nèi)存等智能單元,能分擔(dān)一部分服務(wù)器的虛擬化計(jì)算任務(wù),實(shí)現(xiàn)服務(wù)器整體網(wǎng)絡(luò)和存儲(chǔ)性能的加速。
換句話(huà)說(shuō),網(wǎng)絡(luò)平臺(tái)部要做的事,是要在網(wǎng)卡里新裝一個(gè)服務(wù)器。
一開(kāi)始,團(tuán)隊(duì)希望找到一款現(xiàn)成的商用板卡降低工作量。
網(wǎng)卡硬件負(fù)責(zé)人Hayden牽頭開(kāi)展方案論證和調(diào)研,但商用芯片的加速引擎不支持私有協(xié)議成為當(dāng)時(shí)直面的第一大挑戰(zhàn),也是最大的障礙。一些著名的網(wǎng)卡設(shè)備商聽(tīng)了騰訊的要求就搖頭:
“現(xiàn)在網(wǎng)卡的功能很簡(jiǎn)單,你們這個(gè)要求太復(fù)雜了,很難實(shí)現(xiàn)的。”
還有些直白地質(zhì)疑:“網(wǎng)卡數(shù)量這么多,可靠性要求高,你們自己搞得定嗎?”
難道智能網(wǎng)卡項(xiàng)目剛起步就要流產(chǎn)?
鄒賢能給團(tuán)隊(duì)指明了方向:“既然智能網(wǎng)卡是云數(shù)據(jù)中心追求極致性能與成本的關(guān)鍵部件,如果市面上沒(méi)有滿(mǎn)足騰訊需求的產(chǎn)品,那我們就自己造一個(gè)?!?/p>
方向明確之后,路線(xiàn)也很快清晰起來(lái):先從基于FPGA自研智能網(wǎng)卡起步,再開(kāi)展智能網(wǎng)卡芯片研發(fā)。
2020年9月,騰訊第一代基于FPGA的自研智能網(wǎng)卡正式上線(xiàn),命名為“水杉”,寄寓著團(tuán)隊(duì)希望產(chǎn)品可以像這種珍稀喬木一樣適應(yīng)性強(qiáng)、快速生長(zhǎng)。
疫情期間各種突發(fā)需求砸來(lái),初生的水杉沒(méi)有被挑戰(zhàn)壓彎。
Hayden回憶道,一個(gè)大客戶(hù)本身采用了UDP音視頻協(xié)議,在屬性上是“不可靠”、允許丟包的,極大地依賴(lài)網(wǎng)絡(luò)吞吐和穩(wěn)定性,卻要求高并發(fā)、高質(zhì)量的音視頻傳輸效果。
水杉智能網(wǎng)卡迎難而上,通過(guò)大幅提升服務(wù)器的網(wǎng)絡(luò)性能,幫助該客戶(hù)完成了24小時(shí)零丟包的極限壓力測(cè)試,穩(wěn)定上線(xiàn)運(yùn)行,交出了一份漂亮的答卷。
水杉投入應(yīng)用后,第二代智能網(wǎng)卡“銀杉”的研發(fā)工作也緊鑼密鼓地啟動(dòng),并于2021年10月正式上線(xiàn)。這一代智能網(wǎng)卡的網(wǎng)絡(luò)端口翻了一番,達(dá)到了2*100G。
在又一顆參天大樹(shù)的支撐下,騰訊云對(duì)外推出了業(yè)界首款自研第六代100G云服務(wù)器。它的計(jì)算性能提升最大220%、存儲(chǔ)性能最大提升100%。單節(jié)點(diǎn)接入網(wǎng)絡(luò)帶寬相比上一代最大提升4倍,延時(shí)下降50%。
“兩棵樹(shù)”在網(wǎng)絡(luò)硬件卸載上取得的巨大收益,令團(tuán)隊(duì)興奮不已。
當(dāng)FPGA路線(xiàn)逐漸逼近性能和功耗的瓶頸,網(wǎng)絡(luò)平臺(tái)部決定再一次把主動(dòng)權(quán)掌握在自己手里。騰訊的第四款芯片,也是首款智能網(wǎng)卡芯片應(yīng)運(yùn)而生,它也有一個(gè) “仙氣十足”的名字——“玄靈”。
06
“玄靈”乍現(xiàn),芯事未完
按照計(jì)劃,這款7納米工藝的芯片將在2022年底流片。
Hayden受命快速組建起了玄靈芯片研發(fā)團(tuán)隊(duì),不斷挑戰(zhàn)多個(gè)“mission impossible”。
從性能指標(biāo)來(lái)看,玄靈支持設(shè)備數(shù)量將提升到10K以上,相對(duì)商業(yè)芯片提升6倍。同時(shí),它的性能相對(duì)商業(yè)芯片也可提升4倍,通過(guò)將原來(lái)運(yùn)行在主機(jī)CPU上的虛擬化、網(wǎng)絡(luò)/存儲(chǔ)IO等功能卸載到芯片,可實(shí)現(xiàn)主機(jī)CPU的0占用。
這顆短小精悍的芯片,充分詮釋了面向未來(lái)極致性能的“玄”,與面向各類(lèi)業(yè)務(wù)需求靈活加速的“靈”。
目前,玄靈項(xiàng)目正在緊鑼密鼓地進(jìn)行智能網(wǎng)卡流片前的驗(yàn)證和測(cè)試,打造騰訊云下一代高性能網(wǎng)絡(luò)基礎(chǔ)設(shè)施;
蓬萊實(shí)驗(yàn)室的AI推理芯片紫霄和視頻轉(zhuǎn)碼芯片滄海則將量產(chǎn),與騰訊業(yè)務(wù)深度融合應(yīng)用;
還有一些新的芯片項(xiàng)目也在醞釀成長(zhǎng),繼續(xù) 探索 有需要的技術(shù)方向,豐富這一本“山海經(jīng)”。
騰訊海量業(yè)務(wù)面臨的全新挑戰(zhàn),以及云計(jì)算高速發(fā)展的必然要求,“倒逼”騰訊走上了這條造芯之路。這些從業(yè)務(wù)需求出發(fā)的芯片,必定會(huì)深入現(xiàn)實(shí)應(yīng)用來(lái)證明自身的價(jià)值。
“我們不是無(wú)中生有、拍腦袋要去做芯片。我們一開(kāi)始就知道,騰訊的需求足夠大,足夠我們?nèi)プ鲞@件事?!北R山說(shuō)道。
從2010年起,騰訊就開(kāi)始以云服務(wù)的方式對(duì)外開(kāi)放自身的數(shù)字技術(shù)與連接能力,奔赴這場(chǎng)產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型升級(jí)的時(shí)代大潮。躬身入局,騰訊看到深度的數(shù)實(shí)融合正在引領(lǐng)全真互聯(lián)的技術(shù)趨勢(shì)。
而在騰訊之外,中國(guó)的 科技 公司們正在向創(chuàng)新的深水區(qū)挺進(jìn),突破瓶頸的努力顯得愈發(fā)重要。無(wú)論是數(shù)實(shí)融合還是上游創(chuàng)新,硬 科技 的海面上一片百舸爭(zhēng)流,它們都在 歷史 的浪潮奮楫中流。
在這場(chǎng)大潮中置身事內(nèi),騰訊的芯事必然在星辰大海中得到回響。
騰訊云分布式存儲(chǔ)和分發(fā),數(shù)據(jù)跨多架構(gòu)、多設(shè)備冗余存儲(chǔ),為對(duì)象提供 99.999999% 的可靠性。.
小型的不超過(guò)500個(gè),中型的不超過(guò)2000個(gè),大型的不超過(guò)1萬(wàn)個(gè),超過(guò)1萬(wàn)的是超大型數(shù)據(jù)中心。目前已建成的有可以配置10萬(wàn)個(gè)服務(wù)器的數(shù)據(jù)中心。
騰訊在深圳自己的機(jī)房就有3個(gè),他們是自己的服務(wù)器。騰訊在潤(rùn)迅龍崗那邊都有機(jī)房,現(xiàn)在騰訊又在北京建了個(gè)數(shù)據(jù)中心。馬化騰以前本就是電信局的人,他們的服務(wù)器至少是上千臺(tái),那是不容置疑的。帶寬差不多上100G的帶寬吧,一年應(yīng)該帶寬方面的支出大概在上億吧。同時(shí)在線(xiàn)5000萬(wàn),沒(méi)個(gè)幾百臺(tái)服務(wù)器肯定支持不了的。
更多關(guān)于騰訊有多少服務(wù)器,進(jìn)入:查看更多內(nèi)容
騰訊起碼不下百臺(tái)服務(wù)器!一般的f硬盤(pán)都在500g以上~這樣算下來(lái)的話(huà),tx的f硬盤(pán)總?cè)萘繎?yīng)該不下50個(gè)tb!只是個(gè)人猜測(cè)??!具體的只有tx內(nèi)部人知道!
網(wǎng)頁(yè)名稱(chēng):騰訊云自研服務(wù)器有多少 騰訊云服務(wù)器報(bào)價(jià)
文章出自:http://muchs.cn/article24/ddcpoce.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供做網(wǎng)站、微信公眾號(hào)、云服務(wù)器、、企業(yè)建站、網(wǎng)站設(shè)計(jì)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶(hù)投稿、用戶(hù)轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話(huà):028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)
移動(dòng)網(wǎng)站建設(shè)知識(shí)