AMD ROCm 7开源软件堆栈即将发布,挑战NVIDIA CUDA市场地位

AMD ROCm 7开源软件堆栈即将发布,挑战NVIDIA CUDA市场地位

  • 2025-09-18
  •  118

关键词: AMD ROCm 7 开源软件堆栈 AI推理性能 CUDA垄断

近日,AMD正加速推进其开源软件堆栈ROCm 7的发布计划,旨在打破英伟达(NVIDIA) CUDA在AI领域的长期垄断。根据外媒报道,AMD已在GitHub上发布了ROCm 7的版本标签(release tag),包括HIP(Heterogeneous-Compute Interface for Portability)、AOMP与ROCm Libraries,标志着该软件堆栈已接近最终版本,预计将在未来数周内正式推出。

性能飞跃,AI推理最高提速3.5倍

在早些时候的Advancing AI活动上,AMD公布了ROCm 7的效能数据。据介绍,ROCm 7相较于上一代ROCm 6,在AI推理效能上最高可提升3.5倍,部分工作负载的训练性能提升甚至可达3.8倍,显著优化了在AMD Instinct系列GPU上的AI计算效率。

这一显著提升得益于ROCm 7集成了最新算法与模型,以及针对AMD GPU硬件的深度优化。

特别值得一提的是,基于CDNA 4架构的Instinct MI355X GPU在DeepSeek R1测试中,FP8吞吐量表现比NVIDIA B200高出30%。尽管这项数据目前仍仅为AMD公布的内部测试结果,尚未经第三方验证,但已足以展示AMD在AI计算领域的雄心壮志。若该数据属实,将意味着AMD在特定AI推理场景下实现了对当前顶级竞品的性能超越。

开源特性与完整框架支持,挑战CUDA垄断

NVIDIA的CUDA软件栈因其硬件独占性和高度集成的生态系统,长期以来在AI领域占据主导地位,形成了上下游高度绑定的市场格局,使得其他竞争者难以切入。AMD此次强调ROCm 7的开源特性,旨在提供更完整的框架支持、硬件兼容性与开发工具,力图打破CUDA的市场壁垒。

ROCm 7不仅支持最新算法和模型,还扩展了对AMD锐龙AI处理器和Radeon显卡的兼容性,包括对MI350系列GPU的适配,并新增了对Ubuntu 24.04.3 LTS和Rocky Linux 9的系统兼容性支持。

此外,该套件还提供了对PyTorch 2.7、TensorFlow 2.19.1、ONNX Runtime 1.22.0、JAX 0.6.0、Triton 3.3.0、vLLM等一系列主流AI框架的支持,进一步提升了其在大规模AI部署中的可扩展性与稳定性。

NVIDIA CUDA在AI领域的这种垄断并非不可动摇,尤其是面对来自中国市场的强烈需求,AMD正通过增强框架与全新算法,以及持续的性能优化,正逐步缩小与英伟达的差距,但其挑战依然严峻。开发者对CUDA的依赖性,使得他们在迁移到其他平台时面临显著的学习曲线。

责编:Luffy


来源:电子工程专辑

Baidu
map