深度學習訓練
當今的 AI 模型面臨著對話式 AI 等更高層次的挑戰,這促使其復雜度呈爆炸式增長。訓練這些模型需要大規模的計算能力和可擴展性。
NVIDIA A800 Tensor Core 借助 Tensor 浮點運算 (TF32) 精度,可提供比 NVIDIA Volta 高 20 倍之多的性能,并且無需更改代碼;若使用自動混合精度和 FP16,性能可進一步提升 2 倍。與 NVIDIA? NVLink?、NVIDIA NVSwitch?、PCIe 4.0、NVIDIA? InfiniBand? 和 NVIDIA Magnum IO?SDK 結合使用時,它能擴展到數千個 A800 GPU。
2048 個 A800 GPU 可在一分鐘內成規模地處理 BERT 之類的訓練工作負載,這是非常快速的解決問題速度。
對于具有龐大數據表的超大型模型(例如深度學習推薦模型 [DLRM]),A800 80GB 可為每個節點提供高達 1.3TB 的統一顯存,而且吞吐量比 A800 40GB 多高達 3 倍。
NVIDIA 的領先地位在MLPerf 這個行業級 AI 訓練基準測試中得到印證,創下多項性能紀錄。
深度學習推理
A800 引入了突破性的功能來優化推理工作負載。它能在從 FP32 到 INT4 的整個精度范圍內進行加速。多實例 GPU (MIG) 技術允許多個網絡同時基于單個 A800 運行,從而優化計算資源的利用率。在 A800 其他推理性能增益的基礎之上,僅結構稀疏支持一項就能帶來高達兩倍的性能提升。
在 BERT 等先進的對話式 AI 模型上,A800 可將推理吞吐量提升到高達 CPU 的 249 倍。
在受到批量大小限制的極復雜模型(例如用于自動語音識別用途的 RNN-T)上,顯存容量有所增加的 A800 80GB 能使每個 MIG 的大小增加一倍,并提供比 A800 40GB 高 1.25 倍的吞吐量。
NVIDIA 產品的出色性能在MLPerf 推理測試中得到驗證。A800 再將性能提升了 20 倍,進一步擴大了這種性能優勢。
高性能計算
為了獲得新一代的發現成果,科學家們希望通過仿真來更好地了解我們周圍的世界。
NVIDIA A800 采用雙精度 Tensor Core,實現了自 GPU 推出以來高性能計算性能的巨大飛躍。結合 80GB 的超快 GPU 顯存,研究人員可以在 A800 上將 10 小時雙精度仿真縮短到 4 小時以內。HPC 應用還可以利用 TF32 將單精度、密集矩陣乘法運算的吞吐量提高高達 10 倍。
對于具有超大數據集的高性能計算應用,顯存容量增加的 A800 80GB 可在運行材料仿真 Quantum Espresso 時將吞吐量提升高達 2 倍。極大的顯存容量和超快速的顯存帶寬使 A800 80GB 非常適合用作新一代工作負載的平臺。
高性能數據分析
數據科學家需要能夠分析和可視化龐大的數據集,并將其轉化為寶貴見解。但是,由于數據集分散在多臺服務器上,橫向擴展解決方案往往會陷入困境。
搭載 A800 的加速服務器可以提供必要的計算能力,并能利用大容量顯存、超過 2 TB/s 的顯存帶寬以及通過 NVIDIA? NVLink? 和 NVSwitch? 實現的可擴展性,處理這些工作負載。通過結合 InfiniBand、NVIDIA Magnum IO?和 RAPIDS?開源庫套件(包括用于執行 GPU 加速的數據分析的 RAPIDS Accelerator for Apache Spark),NVIDIA 數據中心平臺能夠加速這些大型工作負載,并實現超高的性能和效率水平。
在大數據分析基準測試中,A800 80GB 提供的見解吞吐量比 A800 40GB 高兩倍,因此非常適合處理數據集大小急增的新型工作負載。
為企業提高資源利用率
A800 結合MIG 技術可以更大限度地提高 GPU 加速的基礎設施的利用率。借助 MIG,A800 GPU 可劃分為多達 7 個獨立實例,讓多個用戶都能使用 GPU 加速功能。借助 A800 40GB,每個 MIG 實例可分配多達 5GB,而隨著 A800 80GB 顯存容量的增加,此大小可翻倍至 10GB。
MIG 與 Kubernetes、容器和基于服務器虛擬化平臺的服務器虛擬化配合使用。MIG 可讓基礎設施管理者為每項作業提供大小合適的 GPU,同時確保服務質量 (QoS),從而擴大加速計算資源的影響范圍,以覆蓋每位用戶。
注:與 NVIDIA 產品相關的圖片或視頻(完整或部分)的版權均歸 NVIDIA Corporation 所有。