AMD ROCm 7開源軟件堆棧即將發布,挑戰NVIDIA CUDA市場地位
關鍵詞: AMD ROCm 7 開源軟件堆棧 AI推理性能 CUDA壟斷
近日,AMD正加速推進其開源軟件堆棧ROCm 7的發布計劃,旨在打破英偉達(NVIDIA) CUDA在AI領域的長期壟斷。根據外媒報道,AMD已在GitHub上發布了ROCm 7的版本標簽(release tag),包括HIP(Heterogeneous-Compute Interface for Portability)、AOMP與ROCm Libraries,標志著該軟件堆棧已接近最終版本,預計將在未來數周內正式推出。
性能飛躍,AI推理最高提速3.5倍
在早些時候的Advancing AI活動上,AMD公布了ROCm 7的效能數據。據介紹,ROCm 7相較于上一代ROCm 6,在AI推理效能上最高可提升3.5倍,部分工作負載的訓練性能提升甚至可達3.8倍,顯著優化了在AMD Instinct系列GPU上的AI計算效率。
這一顯著提升得益于ROCm 7集成了最新算法與模型,以及針對AMD GPU硬件的深度優化。
特別值得一提的是,基于CDNA 4架構的Instinct MI355X GPU在DeepSeek R1測試中,FP8吞吐量表現比NVIDIA B200高出30%。盡管這項數據目前仍僅為AMD公布的內部測試結果,尚未經第三方驗證,但已足以展示AMD在AI計算領域的雄心壯志。若該數據屬實,將意味著AMD在特定AI推理場景下實現了對當前頂級競品的性能超越。
開源特性與完整框架支持,挑戰CUDA壟斷
NVIDIA的CUDA軟件棧因其硬件獨占性和高度集成的生態系統,長期以來在AI領域占據主導地位,形成了上下游高度綁定的市場格局,使得其他競爭者難以切入。AMD此次強調ROCm 7的開源特性,旨在提供更完整的框架支持、硬件兼容性與開發工具,力圖打破CUDA的市場壁壘。
ROCm 7不僅支持最新算法和模型,還擴展了對AMD銳龍AI處理器和Radeon顯卡的兼容性,包括對MI350系列GPU的適配,并新增了對Ubuntu 24.04.3 LTS和Rocky Linux 9的系統兼容性支持。
此外,該套件還提供了對PyTorch 2.7、TensorFlow 2.19.1、ONNX Runtime 1.22.0、JAX 0.6.0、Triton 3.3.0、vLLM等一系列主流AI框架的支持,進一步提升了其在大規模AI部署中的可擴展性與穩定性。
NVIDIA CUDA在AI領域的這種壟斷并非不可動搖,尤其是面對來自中國市場的強烈需求,AMD正通過增強框架與全新算法,以及持續的性能優化,正逐步縮小與英偉達的差距,但其挑戰依然嚴峻。開發者對CUDA的依賴性,使得他們在遷移到其他平臺時面臨顯著的學習曲線。
責編:Luffy
