NVIDIA 的 GH200 Grace Hopper 超級芯片平臺顯著推動了加速計算和生成式 AI 的發(fā)展。該平臺將全球最強大的 GPU 與適應性最強的 CPU 結合在一起。NVIDIA GH200 的可擴展設計可以管理復雜的生成式 AI 任務,包括大型語言模型 (LLM)、推薦系統(tǒng)、矢量數(shù)據(jù)庫、圖神經網絡 (GNN)等。那么NVIDIA GH200 究竟是什么呢?下面一起了解一下關于 NVIDIA GH200 你需要知道的一切。
NVIDIA 創(chuàng)始人兼首席執(zhí)行官黃仁勛表示:“數(shù)據(jù)中心需要專門的加速計算平臺來滿足對生成式 AI 日益增長的需求。” GH200 的設計正是滿足了這一需求。黃仁勛指出:“該 GPU 提供了出色的內存技術和帶寬,可提高吞吐量,允許 GPU 連接和聚合性能而不會受到影響,并且具有可輕松跨數(shù)據(jù)中心部署的服務器設計。”
革命性的內存和帶寬
GH200 的架構樹立了新的高性能計算 (HPC) 標準。它將先進的 Hopper GPU 和靈活的 Grace CPU 集成到單個超級芯片中,并通過高速、內存一致的NVIDIA NVLink Chip-2-Chip (C2C) 互連進行連接。
GH200 Grace Hopper 超級芯片的核心是 NVLink-C2C 互連,可提供 900GB/s 的雙向 CPU-GPU 帶寬,是傳統(tǒng)加速系統(tǒng)中 PCIe Gen5 連接性能的七倍。此外,互連功耗降低了五倍以上。
NVLink-C2C 允許應用程序直接利用 Grace CPU 的高帶寬內存來超額使用 GPU 的內存。GH200 提供高達 480GB 的 LPDDR5X CPU 內存,當與 96GB HBM3 或 144GB HBM3e 結合使用時,Hopper GPU 可以訪問高達 624GB 的高速內存。
主要特點和初始基準
NVIDIA Grace CPU 的主要屬性包括:
與標準 x86-64 平臺相比,每瓦性能提高一倍
72 個 Neoverse V2 Armv9 內核,配備高達 480GB 的服務器級 LPDDR5X 內存,具有糾錯碼 (ECC)
與八通道 DDR5 設計相比,帶寬增加高達 53%,而每 GB 每秒的功耗僅為八分之一
基于全新 Hopper GPU 架構構建的 H100 Tensor Core GPU 具有多項創(chuàng)新功能:
通過全新第四代 Tensor Core 實現(xiàn)極快的矩陣計算,支持更廣泛的 AI 和 HPC 任務
與上一代 NVIDIA A100 相比,全新 Transformer Engine 可將 AI 訓練速度提高 9 倍,將 AI 推理速度提高 30 倍
通過安全的多實例 GPU (MIG) 分區(qū),將 GPU 劃分為獨立且大小合適的實例,從而提高較小工作負載的服務質量
總結來說,GH200 性能強大,但由于發(fā)布時間不長,綜合基準測試數(shù)據(jù)仍然有限。不過,讓我們回顧一下一些初步結果。
初始基準:GH200 與其競爭對手的比較
經過測試的 GH200 系統(tǒng)具有 72 個內核、一塊 Quanta S74G 主板、480GB RAM 和 960GB + 1920GB SAMSUNG SSD 驅動器。這些初步基準測試強調了 CPU 性能,但沒有功耗數(shù)據(jù),但它們揭示了值得注意的結果。
GH200 Grace CPU 在標準HPCG 內存帶寬基準測試中實現(xiàn)了 41.7 GFLOPS 。
NVIDIA GH200 運行 HPCG 基準測試的結果
另一個重要的結果來自NWChem 基準測試,GH200 以 1403.5 秒的成績獲得第二名。
NVIDIA GH200 運行 NWChem 基準測試的結果
GH200 Grace CPU 的整體性能令人稱贊,在所有基準測試中都取得了可觀的幾何平均值。
研究員 Simon Butcher進行了一系列 GPU 基準測試,比較了NVIDIA 發(fā)布的PyTorch ResNet50 訓練方案的性能。使用 150GB ImageNet 2012 數(shù)據(jù)集,訓練運行了 90 個 epoch,大約一個小時。GH200 在這些測試中表現(xiàn)出色。
NVIDIA 還發(fā)布了一些可能引起人們興趣的性能比較。
結論
NVIDIA GH200 Grace Hopper 超級芯片提供處理 TB 級數(shù)據(jù)的大規(guī)模 AI 和 HPC 應用程序所需的性能。無論您是科學家、工程師還是管理大型數(shù)據(jù)中心,這款超級芯片都能滿足需求。
展望未來,NVIDIA 推出了GH200 的繼任者:Grace Blackwell B200,即下一代數(shù)據(jù)中心和 AI GPU。
隨著對 GPU 資源的需求不斷激增,尤其是對于人工智能和機器學習應用的需求,確保這些資源的安全性和易于訪問變得至關重要。
捷智算平臺的去中心化架構旨在使全球尚未開發(fā)的 GPU 資源的訪問變得民主化,并高度強調安全性和用戶便利性。讓我們來揭秘捷智算平臺如何保護您的 GPU 資源和數(shù)據(jù),并確保去中心化計算的未來既高效又安全。