數據中心 GPU 在未來幾年仍將保持重要地位 - 如今仍有 K80 在運行生產工作負載 - 而隨著 NVIDIA 強調每個新系列 GPU 的優勢,用于推銷這些顯卡的術語也會隨著時間而改變。
那么,有哪些可靠的指標可用于比較不同架構和層級的 GPU,以決定哪一種是運行工作負載最具成本效益的方式?我們將考慮核心數量、FLOPS、VRAM 和 TDP。本指南可幫助您根據實際需求對顯卡進行公平比較。
一、核心數量
您分析的顯卡可能有幾種不同類型的核心:
CUDA 核心:最通用的核心,適用于各種計算任務。
張量核:針對某些機器學習計算進行了優化。
光線追蹤 (RT) 核心:對于游戲而言比大多數 ML 更為重要,這些核心專門用于模擬光的行為。
原始核心數量是一個很好的信號,但并不是全部。不同的顯卡有不同類型的核心——有些有更多張量核心,有些有更多 CUDA 核心——而新架構的顯卡也可能有某些類型核心的新一代。正確的比較需要一個更標準化的指標:FLOPS。
二、FLOPS
FLOPS 代表每秒浮點運算次數,是 GPU 性能的關鍵衡量標準。
不過,還有一個復雜的因素。GPU 性能的測量精度各不相同。精度是指計算中每個數字的大小,從 8 位整數到 64 位雙精度浮點值。
數字格式和相應的位的使用
更高精度的數字格式的計算需要更多的處理能力。但這正是 Tensor 核心發揮作用的地方。Tensor 核心可以進行混合精度計算,它們在大多數計算中使用較低的精度,然后以更高的精度驗證結果。比較相同精度上相同核心類型的 FLOPS,以便在 GPU 之間進行適當的同類比較。
例如,在最高精度(FP64)下,NVIDIA 的頂級 A100 GPU 在標準 CUDA 核心上達到 9.7 teraFLOPS,但其 Tensor 核心在相同精度下將該性能提高了一倍,達到 19.7 teraFLOPS。
精度越低,FLOPS 數量越高。例如,以下是 A10 和 A100 GPU 在不同精度下的計算能力比較。
不同精度下 A10 和 A100 的每秒操作數比較
三、VRAM
VRAM(視頻隨機存取存儲器)是顯卡的板載內存。VRAM 之于 GPU 相當于 RAM 之于 CPU。它存儲模型權重等數據,以便在模型推理等計算過程中快速訪問。
模型服務最重要的因素是 GPU 擁有的 VRAM 數量。為了快速調用,模型權重必須存儲在 VRAM 中,因此 VRAM 容量限制了模型大小。
并非所有 VRAM 都等效。還有三個因素需要考慮:
總線大小衡量一次可傳輸到 VRAM 和從 VRAM 傳輸的數據量。總線越大,模型權重加載速度越快。
時鐘速度衡量 VRAM 處理數據的速度,時鐘速度越高,內存讀寫速度越快。
GDDR和HBM是兩種不同類型的 VRAM。HBM(高帶寬內存)通常提供更高的帶寬和更低的功耗,但制造成本比 GDDR(圖形雙倍數據速率)內存更高。最近的 100 層卡(如 A100 和 H100)使用 HBM。
更糟糕的是,并非所有同級別的 GPU 都具有相同數量的 VRAM。例如,A100 有 40GB 和 80GB 版本。因此,在配置 GPU 之前,請確保它具有足夠數量的 VRAM 來運行您的模型。
四、TDP
TDP 代表熱設計功耗,指的是 GPU 在運行時設計的最大功耗(瓦特數)。高端顯卡的 TDP 通常比低端顯卡高,但這并不是完美的對應關系。
數據中心根據多種因素來為 GPU 計算時間定價,但顯卡的 TDP 是其中之一。電力需要花錢,而且還會產生熱量,而消除熱量則需要花費更多錢。因此,TDP 較高的顯卡的運營成本也較高,這將影響您作為最終用戶為計算時間支付的價格。
總結:選擇你的 GPU
過去十年,數據中心 GPU 的發布已經達到二十多種,為了避免眾多GPU 之間的選擇,您可以直接找捷易科技進行定制化購買服務。