《數位之牆》HPE 攜手NVIDIA 提供加速AI 訓練之全新整合方案

	回到首頁
		個人．家庭．數位化 - 數位之牆

關於本站

1996(2)

產業動態	HPE 攜手NVIDIA 提供加速AI 訓練之全新整合方案

正平公關	本新聞稿發佈於2023/11/22，由發布之企業承擔內容之立場與責任，與本站無關

• 專為生成式AI打造的超級運算解決方案，透過AI/ML軟體堆疊簡化模型開發流程，協助客戶加速推動生成式AI與深度學習專案，包含大型語言模型及深度學習推薦模型 • HPE推出已預先配置與測試的AI訓練解決方案，整合AI/ML軟體、業界領先的超級電腦、加速運算（accelerated compute）、網路、儲存及服務，為首個採用四個NVIDIA Grace Hopper GH200超級晶片的系統

■ 發布／輪播新聞稿

新聞稿直達14萬電子報訂戶刊登新聞稿：按此

Hewlett Packard Enterprise（NYSE: HPE）宣佈推出專為大型企業、研究機構和政府機構所設計之生成式AI的超級運算解決方案，透過使用私有資料集加速AI模型的訓練和調校。此解決方案包括一個軟體套件，讓客戶能夠訓練和調校模型，以及開發AI應用程式。此外還包括液冷式超級電腦、加速運算、網路、儲存和服務，協助企業加速實現AI價值。

「為推動創新並於研究中取得重大突破，全球領先的公司和研究機構都在訓練與調校AI模型。然而，要有效率地實現這一目標，他們需要專為此打造的一套解決方案，」HPE執行副總裁暨HPC、AI和實驗室部門總經理Justin Hotard表示。「為支援生成式AI，組織需要使用能提供超級電腦專用效能與規模的永續性解決方案，以支援AI模型訓練。我們很高興能擴大與NVIDIA的合作，提供一AI原生整合方案，協助加速AI模型訓練並取得成果。」

此生成式AI的超級運算解決方案關鍵元件為用於建立AI應用程式、客製化預建模型以及開發和修改程式碼的軟體工具。該軟體更與採用世上最快超級電腦強大架構的HPE Cray超級運算技術進行整合，並搭載NVIDIA Grace Hopper GH200 超級晶片支援。此解決方案提供前所未有的規模與效能以滿足大型AI工作負載的需求，例如大型語言模型（LLM）訓練以及深度學習推薦模型（DLRM）訓練。在此系統上使用HPE機器學習開發環境（HPE Machine Learning Development Environment），僅需少於3分鐘內即能對開源700億參數LIama 2模型進行微調1，為客戶加速價值創造時間。藉由NVIDIA技術支援，此先進的超級運算能力可將系統效能提升2至3倍2。

「生成式AI正在改變科學發展和每個產業，」NVIDIA超大規模與高效能運算部門副總裁Ian Buck 表示。「HPE攜手NVIDIA推出搭載NVIDIA GH200 Grace Hopper超級晶片的AI訓練和模擬整合解決方案，為客戶實現生成式AI專案所需效能。」

功能強大的AI整合解決方案
此整合式超級運算解決方案是針對AI專門打造，並內建AI 相關功能，提供以下端對端技術及服務：

• AI/ML加速軟體：由三個軟體工具組成的套件，將協助客戶訓練和調校AI模型，並創建自己的AI應用。
o HPE機器學習開發環境（HPE Machine Learning Development Environment）：機器學習軟體平台，整合常用的ML架構並簡化資料準備，協助客戶加速開發及部署AI模型。
o NVIDIA AI Enterprise：透過安全性、穩定性、易管理性及支援，協助組織加速邁向領先的AI。其提供廣泛的框架、預訓練模型及簡化AI生產的開發與部署流程。
o HPE Cray程式設計環境（HPE Cray Programming Environment）：此軟體套件專為程式設計師提供開發、移植、除錯和調校程式碼所需的完整工具。
• 擴充性設計：基於HPE Cray EX2500百萬兆級系統，搭載領先業界的NVIDIA GH200 Grace Hopper超級晶片。此解決方案可以擴充至數千個GPU，且所有節點都支援單一AI工作負載，以加速價值創造。
• 適用於即時AI的網路：HPE Slingshot Interconnect提供一個開放式且基於乙太網路的高效能網路，專為支援百萬兆級的工作負載所設計。此可調整的互連技術採用的是HPE Cray技術，透過超高速的網路連線，大幅提升整個系統的效能。
• 一應俱全的簡易性：此解決方案配有HPE Complete Care Services，由全球專家提供設定及安裝，並支援整個生命週期，以簡化AI應用。

超級運算與AI的未來將更加永續
AI工作負載大幅增長，到2028年預計將消耗資料中心20千瓦的電力3。客戶需採用可提高能源效率的解決方案，以將碳足跡的影響降至最低。

能源效率是HPE運算計畫的核心，相較於採用氣冷的解決方案，該計劃提供具有液冷功能的解決方案能將每千瓦效能提高20%，並將耗電量降低15% 4。

如今，HPE提供的全球前十大最高效超級電腦中，大部分都採用直接液冷（direct liquid cooling, DLC）技術。此技術亦應用於生成式AI的超級運算解決方案中，不僅能有效地冷卻系統，同時降低運算密集型應用程式的能耗。

HPE在此領域的獨特優勢，協助組織運用最強大的運算技術推動其AI目標發展並降低能源使用。

供貨狀況

參考資料
• HPE擴展適用於AI和HPC的HPE Cray超級運算解決方案組合
• NVIDIA Grace Hopper超級晶片架構白皮書

資料來源
1 使用32個HPE Cray EX 2500節點並搭載128個NVIDIA H100 GPU，以97%的擴展效能成功在3分鐘以內對一個包含1,000萬標記的語料庫進行70億參數的Llama 2模型微調。在擴展運行間，模型微調代碼和訓練參數並未最佳化。

2 標準 AI 基準測試，BERT 和 Mask R-CNN，使用開箱即用、未經調整的系統，包含HPE Cray EX2500 超級電腦，其配備新的HPE Cray超級運算EX254n刀鋒，並搭載四個NVIDIA GH200 Grace Hopper超級晶片。獨立運行的測試顯示，與 MLPerf 3.0 發佈之結果相比，基於 A100 的系統，包含兩個 AMD EPYC 7763 處理器和四個具有 NVLINK 互通性的 NVIDIA A100 GPU之效能提高 2至3 倍。

3 施耐德電機，《AI顛覆：資料中心設計的挑戰與指引》（白皮書110）, Avelar, Victor Donovan, Patrick Lin Paul Torell, Wendy and Torres Arango, Maria A.,：https://download.schneider-electric.com/files?p_Doc_RefSPD_WP110_EN&p_enDocTypeWhite+Paper&p_File_NameWP110_V1.1_EN.pdf

4 根據HPE於2023年4月的內部效能測試，針對氣冷式與直接液體冷卻的HPE Cray XD2000進行比較。使用 SPEChpc™2021、小型、MPI + OpenMP、64 個等級、每台伺服器 14 個執行緒的基準估算結果，氣冷系統為每千瓦 6.61效能，直接液體冷卻系統為每千瓦7.98效能，相差 20.7%。在同一基準測試中，氣冷系統的底盤功率為 4539 瓦，直接液體冷卻系統的底盤功率為 3862 瓦，相差 14.9%。

- 新聞稿有效日期，至2023/12/22為止

聯絡人　：曾小姐
聯絡電話：02-23418301
電子郵件：joyce@accessus.biz

上一篇：TikTok宣布推出「AI 生成內容」標籤、盤點防止虛假訊息的安全措施
 下一篇：2023年台灣醫療科技展，艾立斯科技HIS系統，助力醫療院所數位轉型

搜尋本站