算力需求:對于AI芯片的要求全面拉升
4年的時間、1500倍的參數量提升,大型語言模型展現出強勁的擴張態勢。2018年,OpenAI推出第一代生成式預訓練語言模型GPT-1,擁有1.17億個參數。2019年推出的GPT-2擁有12億參數,是GPT-1的10倍多。一年后面世的GPT-3,參數量達到1750億個,是GPT-2的100多倍,預訓練數據量高達45TB。ChatGPT正是基于GPT-3.5——一個基于GPT-3的微調版本。
與參數量一起飆漲的,是大模型的算力需求。燧原科技創始人、董事長兼CEO趙立東向《中國電子報》表示,以ChatGPT為代表的生成式AI模型為了實現高質量的內容生成,具備兩大特性:參數規模巨大的模型、海量的訓練數據集。因此,大模型在底層算子支撐、系統架構方案、軟件生態支持方面都和原先的決策式AI模型有著顯著的區別,需要芯片廠商打造更加領先的系統級軟硬件方案,并在技術和產品層面打破原有的路線與壁壘。
“反映到算力芯片角度,主要有三方面的需求:一是分布式計算能力,包括數據并行、模型并行、流水并行等分布式計算方案,計算效率尤其關鍵。二是大容量高帶寬的內存方案,在每個AI芯片內部有效提升數據處理能力和算力利用率,結合HBM以及CXL等新型存儲技術進一提升本地存儲能力和算力利用率。三是更高的單芯片計算能力,以降低整體系統復雜度,并降低TCO成本。”趙立東說。
昆侖芯科技也向記者表示,伴隨著ChatGPT的迭代,大模型算法對算力的要求不斷提高,而算力的核心就是人工智能芯片。“大模型對計算的要求主要體現在三個方面,一是算力,二是互聯,三是成本。大模型的熱潮也將加速AI芯片技術的創新和進步,包括芯片架構、算法優化、功耗控制等方面的提升。AI芯片公司可以在這些方面進行研發和創新,不斷提高產品競爭力。”
除了在已有的AI芯片路徑持續迭代調優,獲得更優的算力、效率、功耗、成本。大模型強烈的高算力需求,也呼喚芯片電路與架構層面的進一步創新。北京大學集成電路學院研究員賈天宇向《中國電子報》指出,大模型技術的出現和普及,將進一步推動AI芯片的發展,拉升多方應用產業對于AI芯片的需求,對于提升AI芯片的重要性和不可或缺性有積極的意義。但同時應認識到,支持大模型計算的AI芯片算力需求高、設計復雜度高,其設計要求和門檻也隨之提升。
“由于傳統芯片技術發展的限制,當前芯片設計的電路與架構面臨著存算力瓶頸、能效瓶頸、設計復雜度瓶頸等多方面挑戰。如何解決算力需求和芯片設計瓶頸之間的矛盾還需要多方的創新和技術進展。”