2022-10-04 分類: 網(wǎng)站建設(shè)
幾十年前,高性能計(jì)算(HPC)只有一些科研人員、科學(xué)家和工程師等使用,作為解決困難數(shù)學(xué)問題的經(jīng)濟(jì)實(shí)惠且可擴(kuò)展的方法。但隨著云計(jì)算、物聯(lián)網(wǎng)和大數(shù)據(jù)等技術(shù)的發(fā)展,HPC越來越受到行業(yè)的廣泛歡迎,而其在數(shù)據(jù)中心領(lǐng)域的應(yīng)用也越來越多。許多企業(yè)組織需要借助HPC來處理復(fù)雜的計(jì)算任務(wù),例如金融風(fēng)險(xiǎn)建模、政府資源跟蹤、航天器飛行分析以及許多其他“大數(shù)據(jù)”項(xiàng)目。
根據(jù)研究機(jī)構(gòu)Intersect360 Research對全球HPC市場的分析結(jié)果顯示,2020-2014年間HPC將以7.1%的高復(fù)合增長率增長。
HPC結(jié)合了硬件、軟件、系統(tǒng)管理和數(shù)據(jù)中心設(shè)施,以支持大量互連的計(jì)算機(jī)協(xié)同工作來執(zhí)行單臺(tái)計(jì)算機(jī)無法單獨(dú)完成的過于復(fù)雜的共享任務(wù)。一些企業(yè)可能會(huì)尋求租賃或購買他們的HPC,而其他企業(yè)可能會(huì)選擇在自己的數(shù)據(jù)中心內(nèi)構(gòu)建HPC基礎(chǔ)設(shè)施。
通過了解HPC基礎(chǔ)設(shè)施的主要要求和限制因素,您可以確定HPC是否適合您的業(yè)務(wù)以及如何大限度地發(fā)揮它的價(jià)值。
什么是高性能計(jì)算(HPC)?
一般而言,HPC 是使用大型且功能強(qiáng)大的計(jì)算機(jī)來有效處理數(shù)學(xué)密集型任務(wù)。盡管存在 HPC“超級(jí)計(jì)算機(jī)”,但除了大的企業(yè)外,其他所有企業(yè)往往無法觸及此類系統(tǒng)。
相反地,大多數(shù)企業(yè)可以將HPC作為一組配置成在集群中運(yùn)行的相對便宜、緊密集成的計(jì)算機(jī)或節(jié)點(diǎn)進(jìn)行實(shí)施。此類集群使用分布式處理軟件框架(例如Hadoop和MapReduce)通過在多臺(tái)聯(lián)網(wǎng)計(jì)算機(jī)之間劃分和分配計(jì)算任務(wù)來解決復(fù)雜的計(jì)算問題。集群中的每臺(tái)計(jì)算機(jī)都只處理自己的問題或數(shù)據(jù)集部分,然后軟件框架將其重新集成以提供完整的解決方案。
分布式HPC架構(gòu)為組織帶來了一些權(quán)衡。最直接的好處包括可擴(kuò)展性和成本管理。Hadoop等框架只能在一臺(tái)服務(wù)器上運(yùn)行,但組織也可以將它們擴(kuò)展到數(shù)千臺(tái)服務(wù)器。這使得企業(yè)能夠使用價(jià)格較低的現(xiàn)成計(jì)算機(jī)來構(gòu)建HPC基礎(chǔ)架構(gòu),以滿足其當(dāng)前和未來的需求。Hadoop還具有容錯(cuò)能力,可以檢測故障系統(tǒng)并將其從集群中分離出來,將這些故障作業(yè)重定向到可用系統(tǒng)。
構(gòu)建HPC集群在技術(shù)上很簡單,但HPC部署可能會(huì)帶來業(yè)務(wù)挑戰(zhàn)。即使能夠隨著時(shí)間的推移管理、擴(kuò)展和添加節(jié)點(diǎn),但是采購、部署、運(yùn)營和維護(hù)數(shù)十、數(shù)百甚至數(shù)千臺(tái)服務(wù)器的成本——以及支持它們的網(wǎng)絡(luò)基礎(chǔ)設(shè)施——也可能成為一筆巨大的財(cái)務(wù)投資。加上許多企業(yè)對HPC的需求也有限,很難讓HPC集群保持忙碌,而企業(yè)在HPC上投入的資金和培訓(xùn)成本要求部署能夠處理業(yè)務(wù)任務(wù)以實(shí)現(xiàn)成本效益。
只有對用例、利用率和投資回報(bào)指標(biāo)有透徹的了解,才能獲得成功的HPC項(xiàng)目。
實(shí)施HPC需要什么?
在商業(yè)數(shù)據(jù)中心實(shí)施HPC集群的三個(gè)主要要求包括計(jì)算硬件、軟件層和容納所有這些的設(shè)施。更準(zhǔn)確的要求取決于HPC部署的規(guī)模。
計(jì)算要求。構(gòu)建HPC集群需要服務(wù)器、存儲(chǔ)和不應(yīng)共享日常業(yè)務(wù)流量LAN的專用網(wǎng)絡(luò)。理論上,您可以在單臺(tái)服務(wù)器上實(shí)施Hadoop等HPC軟件,這可以幫助員工學(xué)習(xí)和獲得HPC軟件和作業(yè)調(diào)度方面的經(jīng)驗(yàn)。但是,基于Hadoop的典型HPC集群至少需要使用三臺(tái)服務(wù)器:主節(jié)點(diǎn)、工作節(jié)點(diǎn)和客戶端節(jié)點(diǎn)。
您可以用多個(gè)主節(jié)點(diǎn)擴(kuò)展該簡單模型,每個(gè)主節(jié)點(diǎn)支持多個(gè)工作節(jié)點(diǎn),這意味著典型的HPC部署由多個(gè)服務(wù)器(通常虛擬化以增加集群可用的有效服務(wù)器數(shù)量)組成。專用集群網(wǎng)絡(luò)還需要高帶寬TCP/IP網(wǎng)絡(luò)設(shè)備,例如千兆以太網(wǎng)、NIC 和交換機(jī)。服務(wù)器和交換機(jī)的數(shù)量取決于集群的大小,以及每臺(tái)服務(wù)器的能力。
剛接觸HPC的企業(yè)通常從擴(kuò)展到幾個(gè)機(jī)架的有限硬件部署開始,然后再擴(kuò)展到集群。您可以通過投資具有充足處理器和存儲(chǔ)空間的高端服務(wù)器來限制服務(wù)器和交換機(jī)的數(shù)量,從而提高每臺(tái)服務(wù)器的計(jì)算能力。
軟件要求。成熟的堆棧必須能夠隨時(shí)支持HPC集群管理功能套件。Bright Cluster Manager和OpenHPC等軟件堆棧通常包含各種用于集群管理的工具,例如:
配置工具 監(jiān)控工具 系統(tǒng)管理工具 資源管理工具 MPI 庫 數(shù)學(xué)庫 編譯器 調(diào)試器 文件系統(tǒng)一些組織可能會(huì)采用HPC框架(例如Hadoop框架)來管理他們的HPC。Hadoop包括HDFS 文件系統(tǒng)、Hadoop Common、MapReduce和YARN等組件,它們提供了許多與上面所列相同的功能。
HPC項(xiàng)目需要輸出結(jié)果,這種結(jié)果可以通過可視化、建?;蚱渌麍?bào)告軟件的形式提供給管理員。能夠可視化Hadoop數(shù)據(jù)的工具包括Hunk、Platfora和Datameer等,以及Jaspersoft、Pentaho和BIRT等開源工具;Cognos、MicroStrategy和QlikView等商業(yè)智能工具;而Rshiny、D3.js和Highcharts等圖表庫能夠可視化非Hadoop框架的輸出。
設(shè)施要求。設(shè)施通常會(huì)成為HPC部署過程中大的限制因素。要實(shí)施HPC,您需要物理空間和重量支撐來容納額外的服務(wù)器機(jī)架、運(yùn)行它們的電源以及足夠的冷卻能力來管理熱量。一些企業(yè)可能根本沒有空間和冷卻基礎(chǔ)設(shè)施來支持大量額外的服務(wù)器。
超融合基礎(chǔ)設(shè)施系統(tǒng)可以大限度地減少物理計(jì)算占用空間,但HCI具有高功率密度,可能導(dǎo)致機(jī)架“熱點(diǎn)”和其他冷卻挑戰(zhàn)。用于HPC部署的完整計(jì)算機(jī)機(jī)架最多可包括72臺(tái)刀片式服務(wù)器和5臺(tái)架頂式交換機(jī),總重量高達(dá)1800磅,需要高達(dá)43 kW的電量支持。
HPC部署需要對數(shù)據(jù)中心設(shè)施進(jìn)行仔細(xì)評估,并對系統(tǒng)電源和冷卻要求與容量進(jìn)行詳細(xì)判斷。如果設(shè)施不足以進(jìn)行HPC部署,您必須尋求內(nèi)部HPC的替代方案。
應(yīng)對HPC實(shí)施挑戰(zhàn)
計(jì)算挑戰(zhàn)。盡管HPC硬件很常見且隨時(shí)可用,但您可以使用模塊化高密度服務(wù)器來解決計(jì)算限制。模塊化設(shè)計(jì)使服務(wù)器易于擴(kuò)展和更換。您可以使用帶有專用高速LAN的專用高性能服務(wù)器來實(shí)現(xiàn)好性能,這使您能夠通過定期的技術(shù)更新周期和額外投資來隨時(shí)間更新HPC程序。
軟件挑戰(zhàn)。HPC軟件方面的主要挑戰(zhàn)在于管理軟件組件版本和互操作性,即確保修補(bǔ)或更新一個(gè)組件不會(huì)對其他軟件組件的穩(wěn)定性或性能產(chǎn)生不利影響。解決這一問題的關(guān)鍵在于,將測試和驗(yàn)證作為HPC軟件更新過程的核心部分。
設(shè)施挑戰(zhàn)。處理裝滿服務(wù)器和網(wǎng)絡(luò)設(shè)備的額外機(jī)架所需的可用物理數(shù)據(jù)中心空間、電源和冷卻問題,限制了許多希望實(shí)施HPC的組織。對于這一點(diǎn),服務(wù)器升級(jí)或許可以提供幫助。通過部署更大、功能更強(qiáng)大的服務(wù)器來支持更多的VM,您可以有效地添加 HPC“節(jié)點(diǎn)”,而無需添加更多物理服務(wù)器。此外,在同一物理服務(wù)器內(nèi)對VM進(jìn)行分組可以緩解網(wǎng)絡(luò)問題,因?yàn)閂M可以在服務(wù)器內(nèi)進(jìn)行通信,而無需通過LAN傳輸流量。
您也可以尋求查看第三方支持,例如托管以獲得額外空間。托管使您的組織能夠在提供商的數(shù)據(jù)中心租用空間并使用該提供商的電力和冷卻設(shè)施。然而,托管通常需要一項(xiàng)可能跨越數(shù)年的昂貴的長期合同義務(wù)。
電力成本也會(huì)影響HPC部署的長期成本,因此請?jiān)u估本地電力的可用性和成本??紤]平衡的三相配電基礎(chǔ)設(shè)施和先進(jìn)的配電設(shè)備——例如智能PDU和開關(guān)PDU——以提高電源效率。不間斷電源裝置支持HPC集群服務(wù)器的有序運(yùn)行,以大限度地減少數(shù)據(jù)丟失。
添加高密度服務(wù)器機(jī)架會(huì)給數(shù)據(jù)中心的空氣處理系統(tǒng)增加相當(dāng)大的冷卻負(fù)荷。當(dāng)額外的冷卻功能不可用時(shí),可以評估托管或云選項(xiàng),或考慮先進(jìn)的冷卻技術(shù),例如HPC機(jī)架的浸入式冷卻。
HPC擁抱云?
包括AWS、Google Cloud Platform和Microsoft Azure在內(nèi)的幾家公有云提供商都在為面臨構(gòu)建和運(yùn)營HPC挑戰(zhàn)的企業(yè)提供HPC服務(wù)。公有云克服了個(gè)體企業(yè)面臨的規(guī)模和成本挑戰(zhàn),這也使得它們成為了部署HPC任務(wù)的理想選擇。云可以提供:
貫穿全球可用數(shù)據(jù)中心的幾乎無限擴(kuò)展; 各種專用CPU、GPU、現(xiàn)場可編程門陣列和快速互連硬件功能,可優(yōu)化機(jī)器學(xué)習(xí)、可視化和渲染等任務(wù)的工作性能; 成熟且隨時(shí)可用的HPC服務(wù),例如Amazon EMR上的Azure CycleCloud和Apache Hadoop,可減輕本地IT人員的學(xué)習(xí)曲線和支持負(fù)擔(dān); 即用即付的成本模型,使企業(yè)只需在實(shí)際使用這些云服務(wù)和資源時(shí)才為HPC付費(fèi)。執(zhí)行頻繁和適度HPC任務(wù)的企業(yè)可以選擇構(gòu)建和維護(hù)有限的HPC集群,以實(shí)現(xiàn)本地?cái)?shù)據(jù)處理項(xiàng)目的便利性和安全性,但對于其內(nèi)部無法支持的、偶爾要求更高的HPC項(xiàng)目,他們可能仍會(huì)轉(zhuǎn)向公有云。
文章標(biāo)題:數(shù)據(jù)中心部署HPC基礎(chǔ)設(shè)施的首要考慮因素
本文鏈接:http://muchs.cn/news26/201426.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供自適應(yīng)網(wǎng)站、關(guān)鍵詞優(yōu)化、微信小程序、網(wǎng)站營銷、做網(wǎng)站、外貿(mào)建站
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容