超算即服務(wù):超級(jí)計(jì)算機(jī)如何上云

2022-10-09    分類: 網(wǎng)站建設(shè)

導(dǎo)彈和軍用直升機(jī)上的電子設(shè)備需要工作在極端條件下。美國國防承包商麥考密克·史蒂文森公司McCormick Stevenson Corp.在部署任何物理設(shè)備之前都會(huì)事先模擬它所能承受的真實(shí)條件。模擬依賴于像 Ansys 這樣的有限元素分析軟件,該軟件需要強(qiáng)大的算力。

幾年前的一天,它出乎意料地超出了計(jì)算極限。

超算即服務(wù):超級(jí)計(jì)算機(jī)如何上云

麥考密克·史蒂文森公司的首席工程師 Mike Krawczyk 說:“我們的一些工作會(huì)使辦公室的計(jì)算機(jī)不堪重負(fù)。購買機(jī)器并安裝軟件在經(jīng)濟(jì)上或計(jì)劃上都不劃算。”相反,他們與 Rescale 簽約,該公司銷售其超級(jí)計(jì)算機(jī)系統(tǒng)上的處理能力,而這只花費(fèi)了他們購買新硬件上所需的一小部分。

麥考密克·史蒂文森公司已成為被稱為超級(jí)計(jì)算即服務(wù)或高性能計(jì)算即服務(wù)(兩個(gè)緊密相關(guān)的術(shù)語)市場的早期采用者之一。根據(jù)國家計(jì)算科學(xué)研究所的定義,HPC 是超級(jí)計(jì)算機(jī)在計(jì)算復(fù)雜問題上的應(yīng)用,而超級(jí)計(jì)算機(jī)是處理能力先進(jìn)的那些計(jì)算機(jī)。

無論叫它什么,這些服務(wù)都在顛覆傳統(tǒng)的超級(jí)計(jì)算市場,并將 HPC 能力帶給以前負(fù)擔(dān)不起的客戶。但這不是萬能的,而且絕對(duì)不是即插即用的,至少現(xiàn)在還不是。

HPC 服務(wù)實(shí)踐

從最終用戶的角度來看,HPC 即服務(wù)類似于早期大型機(jī)時(shí)代的批處理模型。 “我們創(chuàng)建一個(gè) Ansys 批處理文件并將其發(fā)送過去,運(yùn)行它,然后將結(jié)果文件取下來,然后導(dǎo)入到本地,” Krawczyk 說。

在 HPC 服務(wù)背后,云提供商在其自己的數(shù)據(jù)中心中運(yùn)行超級(jí)計(jì)算基礎(chǔ)設(shè)施,盡管這不一定意味著當(dāng)你聽到“超級(jí)計(jì)算機(jī)”時(shí)你就會(huì)看到先進(jìn)的硬件。正如 IBM OpenPOWER 計(jì)算技術(shù)副總裁 Dave Turek 解釋的那樣,HPC 服務(wù)的核心是“相互互連的服務(wù)器集合。你可以調(diào)用該虛擬計(jì)算基礎(chǔ)設(shè)施,它能夠在你提出問題時(shí),使得許多不同的服務(wù)器并行工作來解決問題。”

理論聽起來很簡單。但都柏林城市大學(xué)數(shù)字商業(yè)教授 Theo Lynn 表示,要使其在實(shí)踐中可行,需要解決一些技術(shù)問題。普通計(jì)算與 HPC 的區(qū)別在于那些互聯(lián)互通 —— 高速的、低延時(shí)的而且昂貴的 —— 因此需要將這些互連引入云基礎(chǔ)設(shè)施領(lǐng)域。在 HPC 服務(wù)可行之前,至少需要將存儲(chǔ)性能和數(shù)據(jù)傳輸也提升到與本地 HPC 相同的水平。

但是 Lynn 說,一些制度創(chuàng)新相比技術(shù)更好的幫助了 HPC 服務(wù)的起飛。特別是,“我們現(xiàn)在看到越來越多的傳統(tǒng) HPC 應(yīng)用采用云友好的許可模式 —— 這在過去是阻礙采用的障礙。”

他說,經(jīng)濟(jì)也改變了潛在的客戶群。“云服務(wù)提供商通過向那些負(fù)擔(dān)不起傳統(tǒng) HPC 所需的投資成本的低端 HPC 買家開放,進(jìn)一步開放了市場。隨著市場的開放,超大規(guī)模經(jīng)濟(jì)模型變得越來越多,更可行,成本開始下降。”

避免本地資本支出

HPC 服務(wù)對(duì)傳統(tǒng)超級(jí)計(jì)算長期以來一直占據(jù)主導(dǎo)地位的私營部門客戶具有吸引力。這些客戶包括嚴(yán)重依賴復(fù)雜數(shù)學(xué)模型的行業(yè),包括麥考密克·史蒂文森公司等國防承包商,以及石油和天然氣公司、金融服務(wù)公司和生物技術(shù)公司。都柏林城市大學(xué)的 Lynn 補(bǔ)充說,松耦合的工作負(fù)載是一個(gè)特別好的用例,這意味著許多早期采用者將其用于 3D 圖像渲染和相關(guān)應(yīng)用。

但是,何時(shí)考慮 HPC 服務(wù)而不是本地 HPC 才有意義?對(duì)于德國的模擬煙霧在建筑物中的蔓延和火災(zāi)對(duì)建筑物結(jié)構(gòu)部件的破壞的 hhpberlin 公司來說,答案是在它超出了其現(xiàn)有資源時(shí)。

Hpberlin 公司數(shù)值模擬的科學(xué)負(fù)責(zé)人 Susanne Kilian 說:“幾年來,我們一直在運(yùn)行自己的小型集群,該集群具有多達(dá) 80 個(gè)處理器核。……但是,隨著應(yīng)用復(fù)雜性的提高,這種架構(gòu)已經(jīng)越來越不足以支撐;可用容量并不總是夠快速地處理項(xiàng)目。”

她說:“但是,僅僅花錢買一個(gè)新的集群并不是一個(gè)理想的解決方案:鑒于我們公司的規(guī)模和管理環(huán)境,不斷地維護(hù)這個(gè)集群(定期進(jìn)行軟件和硬件升級(jí))是不現(xiàn)實(shí)的。另外,需要模擬的項(xiàng)目數(shù)量會(huì)出現(xiàn)很大的波動(dòng),因此集群的利用率并不是真正可預(yù)測的。通常,使用率很高的階段與很少使用或不使用的階段交替出現(xiàn)。”通過轉(zhuǎn)換為 HPC 服務(wù)模式,hhpberlin 釋放了過剩的產(chǎn)能,并無需支付升級(jí)費(fèi)用。

IBM 的 Turek 解釋了不同公司在評(píng)估其需求時(shí)所經(jīng)歷的計(jì)算過程。對(duì)于擁有 30 名員工的生物科學(xué)初創(chuàng)公司來說,“你需要計(jì)算,但你真的不可能讓 15% 的員工專門負(fù)責(zé)計(jì)算。這就像你可能也會(huì)說你不希望有專職的法律代表,所以你也會(huì)把它作為一項(xiàng)服務(wù)來做。”不過,對(duì)于一家較大的公司而言,最終歸結(jié)為權(quán)衡 HPC 服務(wù)的運(yùn)營費(fèi)用與購買內(nèi)部超級(jí)計(jì)算機(jī)或 HPC 集群的費(fèi)用。

到目前為止,這些都是你采用任何云服務(wù)時(shí)都會(huì)遇到的類似的爭論。但是,可以 HPC 市場的某些特殊性將使得衡量運(yùn)營支出(OPEX)與資本支出(CAPEX)時(shí)選擇前者。超級(jí)計(jì)算機(jī)不是諸如存儲(chǔ)或 x86 服務(wù)器之類的商用硬件;它們非常昂貴,技術(shù)進(jìn)步很快會(huì)使其過時(shí)。正如麥考密克·史蒂文森公司的 Krawczyk 所說,“這就像買車:只要車一開走,它就會(huì)開始貶值。”對(duì)于許多公司,尤其是規(guī)模較大,靈活性較差的公司,購買超級(jí)計(jì)算機(jī)的過程可能會(huì)陷入無望的泥潭。IBM 的 Turek 說:“你會(huì)被規(guī)劃問題、建筑問題、施工問題、培訓(xùn)問題所困擾,然后必須執(zhí)行 RFP。你必須得到 CIO 的支持。你必須與內(nèi)部客戶合作以確保服務(wù)的連續(xù)性。這是一個(gè)非常、非常復(fù)雜的過程,并沒有很多機(jī)構(gòu)有非常出色的執(zhí)行力。”

一旦你選擇走 HPC 服務(wù)的路線,你會(huì)發(fā)現(xiàn)你會(huì)得到你期望從云服務(wù)中得到的許多好處,特別是僅在業(yè)務(wù)需要時(shí)才需付費(fèi)的能力,從而可以帶來資源的高效利用。Gartner 高級(jí)總監(jiān)兼分析師 Chirag Dekate 表示,當(dāng)你對(duì)高性能計(jì)算有短期需求時(shí),突發(fā)性負(fù)載是推動(dòng)選擇 HPC 服務(wù)的關(guān)鍵用例。

他說:“在制造業(yè)中,在產(chǎn)品設(shè)計(jì)階段前后,HPC 活動(dòng)往往會(huì)達(dá)到很高的峰值。但是,一旦產(chǎn)品設(shè)計(jì)完成,在其余產(chǎn)品開發(fā)周期中,HPC 資源的利用率就會(huì)降低。” 相比之下,他說:“當(dāng)你擁有大型的、長期運(yùn)行的工作時(shí),云計(jì)算的經(jīng)濟(jì)性才會(huì)逐漸減弱。”

通過巧妙的系統(tǒng)設(shè)計(jì),你可以將這些 HPC 服務(wù)突發(fā)活動(dòng)與你自己的內(nèi)部常規(guī)計(jì)算集成在一起。埃森哲Accenture實(shí)驗(yàn)室常務(wù)董事 Teresa Tung 舉了一個(gè)例子:“通過 API 訪問 HPC 可以與傳統(tǒng)計(jì)算無縫融合。在模型構(gòu)建階段,傳統(tǒng)的 AI 流水線可能會(huì)在高端超級(jí)計(jì)算機(jī)上進(jìn)行訓(xùn)練,但是最終經(jīng)過反復(fù)按預(yù)期運(yùn)行的訓(xùn)練好的模型將部署在云端的其他服務(wù)上,甚至部署在邊緣設(shè)備上。”

它并不適合所有的應(yīng)用場景

HPC 服務(wù)適合批處理和松耦合的場景。這與一個(gè)常見的 HPC 缺點(diǎn)有關(guān):數(shù)據(jù)傳輸問題。高性能計(jì)算本身通常涉及龐大的數(shù)據(jù)集,而將所有這些信息通過互聯(lián)網(wǎng)發(fā)送到云服務(wù)提供商并不容易。IBM 的 Turek 說:“我們與生物技術(shù)行業(yè)的客戶交流,他們每月僅在數(shù)據(jù)費(fèi)用上就花費(fèi) 1000 萬美元。”

而錢并不是唯一的潛在問題。構(gòu)建一個(gè)利用數(shù)據(jù)的工作流程,可能會(huì)對(duì)你的工作流程提出挑戰(zhàn),讓你繞過數(shù)據(jù)傳輸所需的漫長時(shí)間。hhpberlin 的 Kilian 說:“當(dāng)我們擁有自己的 HPC 集群時(shí),當(dāng)然可以隨時(shí)訪問已經(jīng)產(chǎn)生的仿真結(jié)果,從而進(jìn)行交互式的臨時(shí)評(píng)估。我們目前正努力達(dá)到在仿真的任意時(shí)刻都可以更高效地、交互地訪問和評(píng)估云端生成的數(shù)據(jù),而無需下載大量的模擬數(shù)據(jù)。”

Mike Krawczyk 提到了另一個(gè)絆腳石:合規(guī)性問題。國防承包商使用的任何服務(wù)都需要遵從《國際武器交易條例》(ITAR),麥考密克·史蒂文森公司之所以選擇 Rescale,部分原因是因?yàn)檫@是他們發(fā)現(xiàn)的唯一符合的供應(yīng)商。如今,盡管有更多的公司使用云服務(wù),但任何希望使用云服務(wù)的公司都應(yīng)該意識(shí)到使用其他人的基礎(chǔ)設(shè)施時(shí)所涉及的法律和數(shù)據(jù)保護(hù)問題,而且許多 HPC 場景的敏感性使得 HPC 即服務(wù)的這個(gè)問題更加突出。

此外,HPC 服務(wù)所需的 IT 治理超出了目前的監(jiān)管范圍。例如,你需要跟蹤你的軟件許可證是否允許云使用­ —— 尤其是專門為本地 HPC 群集上運(yùn)行而編寫的軟件包。通常,你需要跟蹤 HPC 服務(wù)的使用方式,它可能是一個(gè)誘人的資源,尤其是當(dāng)你從員工習(xí)慣的內(nèi)部系統(tǒng)過渡到有可用的空閑的 HPC 能力時(shí)。例如,Avanade 全球平臺(tái)高級(jí)主管兼 Azure 平臺(tái)服務(wù)全球負(fù)責(zé)人 Ron Gilpin 建議,將你使用的處理核心的數(shù)量回?fù)芙o那些對(duì)時(shí)間不敏感的任務(wù)。他說:“如果一項(xiàng)工作只需要用一小時(shí)來完成而不需要在十分鐘內(nèi)就完成,那么它可以使用 165 個(gè)處理器而不是 1,000 個(gè),從而節(jié)省了數(shù)千美元。”

對(duì) HPC 技能的要求很高

一直以來,采用 HPC 的大障礙之一就是其所需的獨(dú)特的內(nèi)部技能,而 HPC 服務(wù)并不能神奇使這種障礙消失。Gartner 的 Dekate 表示:“許多 CIO 將許多工作負(fù)載遷移到了云上,他們看到了成本的節(jié)約、敏捷性和效率的提升,因此相信在 HPC 生態(tài)中也可以達(dá)成類似的效果。一個(gè)普遍的誤解是,他們可以通過徹底地免去系統(tǒng)管理員,并聘用能解決其 HPC 工作負(fù)載的新的云專家,從而以某種方式優(yōu)化人力成本。”對(duì)于 HPC 即服務(wù)來說更是如此。

“但是 HPC 并不是一個(gè)主流的企業(yè)環(huán)境。” 他說。“你正在處理通過高帶寬、低延遲的網(wǎng)絡(luò)互聯(lián)的高端計(jì)算節(jié)點(diǎn),以及相當(dāng)復(fù)雜的應(yīng)用和中間件技術(shù)棧。許多情況下,甚至連文件系統(tǒng)層也是 HPC 環(huán)境所獨(dú)有的。沒有對(duì)應(yīng)的技能可能會(huì)破壞穩(wěn)定性。”

但是超級(jí)計(jì)算技能的供給卻在減少,Dekate 將其稱為勞動(dòng)力“老齡化”,這是因?yàn)檫@一代開發(fā)人員將目光投向了新興的初創(chuàng)公司,而不是學(xué)術(shù)界或使用 HPC 的更老套的公司。因此,HPC 服務(wù)供應(yīng)商正在盡其所能地彌補(bǔ)差距。IBM 的 Turek 表示,許多 HPC 老手將總是想運(yùn)行他們自己精心調(diào)整過的代碼,并需要專門的調(diào)試器和其他工具來幫助他們?cè)谠贫藢?shí)現(xiàn)這一目標(biāo)。但是,即使是 HPC 新手也可以調(diào)用供應(yīng)商構(gòu)建的代碼庫,以利用超級(jí)計(jì)算的并行處理能力。第三方軟件提供商出售的交鑰匙軟件包可以減少 HPC 的許多復(fù)雜性。

埃森哲的 Tung 表示,該行業(yè)需要進(jìn)一步加大投入才能真正繁榮。她說:“HPCaaS 已經(jīng)創(chuàng)建了具有重大影響力的新功能,但還需要做的是使它易于被數(shù)據(jù)科學(xué)家、企業(yè)架構(gòu)師或軟件開發(fā)人員使用。這包括易用的 API、文檔和示例代碼。它包括解答問題的用戶支持。僅僅提供 API 是不夠的,API 需要適合特定的用途。對(duì)于數(shù)據(jù)科學(xué)家而言,這可能是以 Python 形式提供,并容易更換她已經(jīng)在使用的框架。價(jià)值來自于使這些用戶能夠通過新的效率和性能最終使他們的工作得到改善,只要他們能夠訪問新的功能就可以了。” 如果供應(yīng)商能夠做到這一點(diǎn),那么 HPC 服務(wù)才能真正將超級(jí)計(jì)算帶給大眾。

本文標(biāo)題:超算即服務(wù):超級(jí)計(jì)算機(jī)如何上云
網(wǎng)站URL:http://www.muchs.cn/news21/203821.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供品牌網(wǎng)站建設(shè)、網(wǎng)站收錄網(wǎng)站設(shè)計(jì)公司、關(guān)鍵詞優(yōu)化、域名注冊(cè)軟件開發(fā)

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)

成都做網(wǎng)站