华为首次展出“算力核弹”真机，获评镇馆之宝

（文/观察者网吕栋）

7月26日，观察者网在世界人工智能大会（WAIC 2025）现场了解到，华为首次展出了昇腾384超节点真机，并且获评“WAIC镇馆之宝”。在展台上，华为还全方位展现了昇腾算力底座的创新能力、训练及推理解决方案、开源开放的软硬件生态，以及在互联网、运营商、金融、能源、教育科研等千行万业的丰富实践。

图源：观察者网

在当下，大模型训练和推理对算力需求的爆炸式增长，但传统计算架构面临资源利用率低，故障频发等挑战，难以支撑AI技术的代际跃迁，这就算力集群的系统工程能力提出更高要求。

今年5月，在鲲鹏昇腾开发者大会上，华为推出了昇腾384超节点，由12个计算柜和4个总线柜构成。这个体积庞大的“算力核弹”，成功实现业界最大规模的384个NPU卡高速总线互联。根据现场介绍，昇腾超节点具备超大带宽、超低时延、超强性能的三大优势，包括多款训练和推理产品。

相比英伟达NVL72等行业超节点方案，昇腾超节点最关键的创新，在于彻底打破了传统以CPU为中心的冯诺依曼架构，既“主从架构”，创新提出了“全对等架构”，凭借高速互联总线的关键突破，把总线从服务器内部扩展到整机柜、甚至跨机柜，最终将CPU、NPU、DPU、存储和内存等资源全部互联和池化，这样就能去除掉繁多的中转环节，从而实现真正的点对点互联，进而实现更大的算力密度和互联带宽。

纵观国内，目前使用全国产芯片构建超节点，还能全面超越英伟达NVL72的，只有华为。昇腾384超节点通过全新高速网络MatrixLink全对等互联，形成一台超级“AI服务器”，它的算力总规模达300Pflops，是英伟达NVL72的1.7倍；网络互联总带宽达269TB/s，比英伟达NVL72提升107%；内存总带宽达1229TB/s，比英伟达NVL72提升113%；单卡推理吞吐量跃升到2300 Tokens/s。

更重要的是，通过最佳负载均衡组网等方案，昇腾超节点还能进一步扩展为包含数万卡的Atlas 900 SuperCluster超节点集群，未来可以支撑更大规模的模型演进。

观察者网获得的性能测试数据显示，在昇腾超节点集群上，LLaMA3等千亿稠密模型性能相比传统集群提升2.5倍以上；在通信需求更高的Qwen、DeepSeek等多模态、MoE模型上，性能提升可达3倍以上，较业界其他集群高出1.2倍，在行业中处于领先地位。

“单芯片制程从7纳米到5纳米、3纳米、2纳米，每代性能提升不超过20%，总体能提升50%左右。华为通过高效的超节点系统，提升了芯片算力利用率。在硬件什么也没有改变的情况下，通过系统工程的优化，资源的高效调度，一定程度弥补了芯片工艺的不足。”华为专家曾对观察者网表示。

昇腾384超节点架构

自2019年以来，昇腾不仅在芯片等根技术领域深耕，还持续扩展产业生态，提供好用易用的软件、工具和平台，实现AI技术和行业场景深度融合。目前业界已基于昇腾适配和开发超过80个大模型，在基础大模型方面多个技术方向均有积累，如讯飞星火认知、DeepSeek、Qwen、鹏城、LLaMA等。同时，昇腾联合2700+行业合作伙伴，共同孵化了超过6000+个行业解决方案，使能百模千态，加速行业智能化。