通過 NVIDIA H800 Tensor Core GPU,在每個工作負(fù)載中實現(xiàn)出色性能、可擴展性和安全性。使用 NVIDIA? NVLink? Switch 系統(tǒng),可連接多達(dá) 256 個 H800 來加速百億億級 (Exascale) 工作負(fù)載,另外可通過專用的 Transformer 引擎來處理萬億參數(shù)語言模型。與上一代產(chǎn)品相比,H800 的綜合技術(shù)創(chuàng)新可以將大型語言模型的速度提高 30 倍,從而提供業(yè)界領(lǐng)先的對話式 AI。
變革 AI 訓(xùn)練
H800 配備第四代 Tensor Core 和 Transformer 引擎(FP8 精度),與上一代產(chǎn)品相比,可為多專家 (MoE) 模型提供高 9 倍的訓(xùn)練速度。通過結(jié)合可提供 400 GB/s GPU 間互連的第四代 NVlink、可跨節(jié)點加速每個 GPU 通信的 NVLINK Switch 系統(tǒng)、PCIe 5.0 以及 NVIDIA Magnum IO? 軟件,為小型企業(yè)到大規(guī)模統(tǒng)一 GPU 集群提供高效的可擴展性。
在數(shù)據(jù)中心級部署 H800 GPU 可提供出色的性能,并使所有研究人員均能輕松使用新一代百億億次級 (Exascale) 高性能計算 (HPC) 和萬億參數(shù)的 AI。
實時深度學(xué)習(xí)推理
AI 正在利用一系列廣泛的神經(jīng)網(wǎng)絡(luò)解決范圍同樣廣泛的一系列商業(yè)挑戰(zhàn)。出色的 AI 推理加速器不僅要提供非凡性能,還要利用通用性加速這些神經(jīng)網(wǎng)絡(luò)。
H800 進(jìn)一步擴展了 NVIDIA 在推理領(lǐng)域的市場領(lǐng)先地位,其多項先進(jìn)技術(shù)可將推理速度提高 30 倍,并提供超低的延遲。第四代 Tensor Core 可加速所有精度(包括 FP64、TF32、FP32、FP16 和 INT8)。Transformer 引擎可結(jié)合使用 FP8 和 FP16 精度,減少內(nèi)存占用并提高性能,同時仍能保持大型語言模型的準(zhǔn)確性。
百億億次級高性能計算
NVIDIA 數(shù)據(jù)中心平臺性能持續(xù)提升,超越摩爾定律。H800 的全新突破性 AI 性能進(jìn)一步加強了 HPC+AI 的力量,加速科學(xué)家和研究人員的探索,讓他們?nèi)硇耐度牍ぷ鳎鉀Q世界面臨的重大挑戰(zhàn)。
H800 還采用 DPX 指令,其性能比 NVIDIA A800 Tensor Core GPU 高 7 倍,在動態(tài)編程算法(例如,用于 DNA 序列比對 Smith-Waterman)上比僅使用傳統(tǒng)雙路 CPU 的服務(wù)器快 40 倍。
加速數(shù)據(jù)分析
在 AI 應(yīng)用開發(fā)過程中,數(shù)據(jù)分析通常會消耗大部分時間。原因在于,大型數(shù)據(jù)集分散在多臺服務(wù)器上,由僅配備商用 CPU 服務(wù)器組成橫向擴展式的解決方案缺乏可擴展的計算性能,從而陷入困境。
搭載 H800 的加速服務(wù)器可以提供相應(yīng)的計算能力,并利用 NVLink 和 NVSwitch 每個 GPU 3 TB/s 的顯存帶寬和可擴展性,憑借高性能應(yīng)對數(shù)據(jù)分析以及通過擴展支持龐大的數(shù)據(jù)集。通過結(jié)合使用 NVIDIA Quantum-2 InfiniBand、Magnum IO 軟件、GPU 加速的 Spark 3.0 和 NVIDIA RAPIDS?,NVIDIA 數(shù)據(jù)中心平臺能夠以出色的性能和效率加速這些大型工作負(fù)載
內(nèi)置機密計算
當(dāng)今的機密計算解決方案基于 CPU,對于 AI 和 HPC 等計算密集型工作負(fù)載來說,這些解決方案遠(yuǎn)遠(yuǎn)無法滿足需求。NVIDIA 機密計算是 NVIDIA Hopper? 架構(gòu)的內(nèi)置安全功能,該功能使 H800 成為 NVIDIA 率先推出的具有機密計算功能的加速器。用戶可以在獲取 H800 GPU 出色加速功能的同時,保護(hù)使用中的數(shù)據(jù)和應(yīng)用的機密性和完整性。它創(chuàng)建了基于硬件的可信執(zhí)行環(huán)境 (TEE),用于保護(hù)并隔離在單個 H800 GPU、節(jié)點內(nèi)多個 H800 GPU 或單個 MIG 實例上運行的整個工作負(fù)載。在 TEE 內(nèi),GPU 加速應(yīng)用的運行可以保持不變,且不必對其進(jìn)行分區(qū)。用戶可以將適用于 AI 和 HPC 的 NVIDIA 軟件的強大功能與 NVIDIA 機密計算提供的硬件信任根的安全性相結(jié)合。
為大規(guī)模 AI 和高性能計算提供出色的性能
Hopper Tensor Core GPU 將為 NVIDIA Grace Hopper CPU+GPU 架構(gòu)提供支持,該架構(gòu)專為 TB 級加速計算而構(gòu)建,可為大型 AI 和 HPC 提供 10 倍的性能。NVIDIA Grace CPU 利用 Arm? 架構(gòu)的靈活性來創(chuàng)建 CPU 和服務(wù)器架構(gòu),該架構(gòu)是專門針對加速計算而從頭開始設(shè)計的。Hopper GPU 與 Grace CPU 搭配,使用 NVIDIA 超快速的芯片間互連技術(shù),可提供 900GB/s 的帶寬,比 PCIe 5.0 快 7 倍。與當(dāng)今運行最快的服務(wù)器相比,這種創(chuàng)新設(shè)計將 GPU 的聚合系統(tǒng)顯存帶寬提高 30 倍,并且會將運行數(shù)萬億字節(jié)數(shù)據(jù)的應(yīng)用性能提高 10 倍。
注:與 NVIDIA 產(chǎn)品相關(guān)的圖片或視頻(完整或部分)的版權(quán)均歸 NVIDIA Corporation 所有。