技術路徑:通用與定制的平衡
在AI芯片的發展過程中,通用性和定制化像是兩個互相拉扯的作用力,衍生出一系列的芯片架構。其中,GPU和ASIC分別是通用性和定制化的代表架構,也有著各自的優勢和局限。
“GPU架構提供了大量數據并行結構,因此能夠提供大量的AI并行計算,適用于AI訓練等。ASIC等定制化AI芯片針對特定的應用場景進行芯片優化,能夠取得更高的計算能效,但通用性相對較弱。”賈天宇表示。
好在,隨著芯片技術的發展,通用性與定制化已不再壁壘森嚴。一方面,英偉達在GPU架構中引入了Tensor Core(張量計算核心),一種專門針對深度學習應用而設計的專用ASIC單元,使GPU更加適合深度學習。與此同時,定制化芯片也逐步增加了通用計算單元,并引入可編程或部分可編程的架構,增強芯片的場景覆蓋能力。
“過去被認為只具備專用性的ASIC或DSA(領域專用架構),現在不僅含有用于AI加速計算的專用單元,還含有與英偉達GPU中CUDA Core類似的通用計算單元,同樣可以實現對各種指令的處理。因此,無論是GPU、ASIC或DSA架構,云端AI芯片企業在架構設計中需要關注的是通用和專用計算單元的搭配,以便應對AI計算持續演變帶來的挑戰。”昆侖芯科技向記者表示。
“鑒于大模型對于大算力的顯著需求,以及模型訓練算子的多樣性,具有大算力、通用性的芯片將是大算力應用的首選。在現存的技術方案中,GPU是能夠提供算力和開發生態的選擇。然而,由于GPU的功耗過高,類GPU架構的定制化大算力AI芯片也將存在市場,滿足對于芯片計算能效的提升需求。”賈天宇指出。
而通用與定制的“配比”,要根據具體場景設計。昆侖芯科技表示,在通用性、易用性和性能之間實現平衡,需要在實際設計中結合需求。除了單一技術或者算力指標,更要注重產品的綜合競爭力是否均衡。百度的AI應用場景,為昆侖芯提供了驗證和調優機會。就大模型而言,昆侖芯在產品定義上已經做了布局,昆侖芯2代AI芯片相較昆侖芯第1代產品大幅優化了算力、互聯和性能,在百度內外部的大模型場景中都有落地,昆侖芯在研的下一代產品將為大模型和AIGC等應用提供更佳的性能體驗。
“硬件和場景是雙輪驅動的,場景催生新的技術方案,新的技術促使場景更好發展。大模型作為一個趨勢場景,其需求定義清楚了,設計和實現技術就會水到渠成。”昆侖芯科技告訴記者。
另外,無論是通用芯片還是定制芯片,抑或是通用、專用計算單元兼而有之,設計環節之后的制造、封裝環節,也將作用于AI芯片的性能提升。
“無論GPU還是定制化AI芯片路線,Chiplet、3D堆疊等先進集成與封裝技術將成為進一步提升大模型計算能力的重要技術手段,也將在未來AI芯片發展中起到重要作用。”