
上市后的仅 15 天, 摩尔线程,便将首个大行为径直指向了生态的中枢——建造者。
在这次首届、亦然国内首个聚焦全功能 GPU 的建造者大会中,围绕着MUSA这个要道词,新品可谓是目接不暇:
一个全新 GPU 架构:花港,密度辅助 50%,遵守辅助 10 倍。
三款新芯片:华山、庐山、长江,永诀聚焦 AI 训推一体、图形渲染和智能 SoC。
一个智算集群:夸娥万卡集群(KUAE2.0),定位国产自主研发的 AI Foundry。
两款硬件居品:专为建造者打造的 AIBOOK 和 AICube。
这并非脱落的居品更新,而是摩尔线程用一套从云到端、从算力到生态的组合拳。

在长达 2 个多小时的发布中,最直不雅的感受就是,摩尔线程,仍是把国产 GPU推向了下一个 level。
接下来,咱们就从最最最中枢的全新 GPU 架构花港为早先,对这次建造者大会一酌量竟。
MUSA,仍是成了全功能 GPU 架构的代名词
什么是 MUSA?
它的全名叫作念Meta-computing Unified System Architecture,是摩尔线程自主研发的元筹备联算筹备架构。
该何如和会?不错说,从芯片架构、提醒集、编程模子,到软件运行库及驱动智商框架,齐属于 MUSA 的规模。

历经五年的发展,MUSA 仍是完满界说了全功能 GPU 从芯片联想到软件生态的合资技能轨范,何况支握 AI 筹备、图形渲染、物理仿真和科学筹备、超高清视频编解码等全场景高性能筹备。
如若纵不雅 MUSA 硬件架构这几年的迭代,从苏堤、春晓、曲院,再到平湖,每一次的升级齐是在探索着 GPU 算力的范畴。

最新发布的第五代全功能 GPU 架构花港,亦是如斯:
算力密度辅助 50%:在同等芯单方面积下,可部署更多筹备单元;
筹备能效辅助 10 倍:单元瓦特质能大幅优化,为大规模智算集群提供绿色底座;
新增 FP4 筹备:从 FP4、FP6、FP8 到 FP16、BF16 乃至 FP64,好意思满全精度端到端筹备,遮蔽 AI、HPC、图形等全场景需求;
支握十万卡集群:通过 MTLink 高速互联,为超大规模模子考验铺平谈路。
尤为值得神情的是,花港在低精度筹备上的深度优化。架构新增了 MTFP6/MTFP4 及搀和低精度端到端加快技能,专为改日 AI 主流场景——低比特考验与推理而生。
在 Attention 机制的要路线径上,花港原生支握矩阵 rowmax 筹备,大幅辅助搀和精度 SIMT 朦拢量,并内置在线量化 / 反量化、立时舍入等硬件加快才气,为下一代 Transformer 引擎(如 MT Transformer Engine)提供底层撑握。

如果说硬件架构是才气的基石,那么软件栈,就是将这些才气交到建造者手中的具体旅途。
除了架构自己以外,摩尔线程这次还同步推出了 MUSA 软件栈 5.0,构建从编译器、算子库到 AI 框架的全栈用具链:
AI 框架浅近适配:除 PyTorch、PaddlePaddle 外,新增对 JAX、TensorFlow 的支握;
考验生态彭胀:在 Megatron、DeepSpeed 基础上,新增强化学习考验框架 MT VeRL;
推理引擎丰富:深度优化自研 MTT 推理引擎与 TensorX,同期适配 SGLang、vLLM、Ollama 等新兴推理框架;
中枢库极致优化:muDNN 好意思满 GEMM/FlashAttention 效率超 98%,通讯效率达 97%,编译器性能辅助 3 倍;
编程谈话改进:推露面向 AI+ 渲染和会的 muLang,兼容 TileLang、Triton,原生支握 MUSA C,并发布 GPU 中间暗示谈话 MTX 1.0,辅助建造者调优解放度。
更要道的是,摩尔线程文告将舒服开源 MATE 算子库、MUTLASS、MT DeepEP 通讯库、KUAE 云原生用具包等中枢组件,向建造者社区灵通底层才气,加快生态构建。
不丢丑出,MUSA 并未将自身定位为单纯的 AI 加快器,而所以"全功能 GPU "为锚点,将 AI 才气深度镶嵌图形渲染、物理仿真、量子筹备等高价值垂直场景。
这种从通用底座向产业纵深延迟的架构玄学,使其区别于纯粹的大模子考验卡,而更接近英伟达 CUDA 生态早期"以通用可编程性撬动多元应用"的策略旅途。
不错说,MUSA 不仅是中国首个全功能 GPU 架构,更是对"下一代 AI 基础次序应长什么样"的一次系统性回复——
它不再只是算力的提供者,而是多模态智能、具身智能乃至物理 AI 期间的要道使能平台。在这沿途理上,摩尔线程的架构改进,已不仅是技能冲破,更是对改日 AI 产业景色的一次主动界说。
而围绕着新升级的 MUSA,摩尔线程这次还祭出了更多重磅居品。
三个新芯片,两个新硬件,一个万卡集群
领先基于花港架构,摩尔线程发布了两款芯片路线。
第一个就是聚焦在 AI 训推一体及高性能筹备的 GPU ——华山。

它的中枢亮点不错转头为:
全精度支握:从 FP4 到 FP64,遮蔽低精度考验与高精度科学筹备;
MTFP4/MTFP6 搀和低精度加快:Attention 筹备从 BF16 向 FP8 以致 FP6 演进,大幅辅助 Transformer 朦拢;
硬件级优化:原生支握矩阵 rowmax 筹备、在线量化 / 反量化、立时舍入等算法,专为大模子考验定制;
新一代异步编程模子:支握常驻核函数、线程束特化,极大辅助并行效率。
何况从浮点算力、访存宽带、访存容量和高速互联宽带等维度来看,华山正在追逐英伟达的系列居品。

华山的推出,璀璨着摩尔线程稳当具备撑握万亿参数大模子考验的才气,为国产 AI 基础次序补上要道一环。
如果说华山主攻 A 算力,那么接下来的 GPU ——庐山,则专为图形筹备而生。

比较上一代居品,其 AI 筹备性能辅助了惊东谈主的 64 倍,3A 游戏渲染性能辅助 15 倍。
庐山引入了AI 生成式渲染架构(AGR)和硬件光追引擎,支握 DirectX 12 Ultimate。这意味着,国产显卡稳当迈入"光追 +AI 渲染"的新范式,不单是是"算"画面,更是"生成"画面。
除此以外,在端侧,摩尔线程还初次推出了智能 SoC 芯片——长江。

据了解,长江芯片不局限于传统 PC 或行状器,而是面向具身智能、车载、AI 筹备结尾等端侧场景,提供 50 TOPS 的异构 AI 算力。
有了芯片,当然要有承载的载体。
基于长江芯片,摩尔线程这次还发布了两个相配亮眼的硬件居品。
领先就是MTT AIBOOK。
这个算力本是特意为 AI 学习与建造者打造的个东谈主智算平台,运行基于 Linux 内核的 MT AIOS 操作系统,具备多系统兼容才气,并预置完满 AI 建造环境与用具链,通过捏造化和安卓容器,可无缝运行 Windows 与安卓应用。
如斯一来,你就不错径直在上头跑大模子、搞 Agent 建造。

MTT AIBOOK 内置的智能体小麦,还支握 2K 高清渲染、腹地大模子(如 MUSAChat-72B)、端侧 ASR/TTS,这就让它从用具酿成了超等个体助手。

何况 MTT AIBOOK 还预装了智源悟界 Emu3.5 多模态模子,开箱即可文本生图、剪辑图像。
除此以外,针对端侧场景,摩尔线程还推出了桌面上的 AI 小钢炮——AICube。
它更像是一个高性能的 AI 筹备魔方,让建造者在桌面上就能简易得回算力支握,措置复杂的推理任务。

终末,亦然最重磅的——夸娥(KUAE 2.0)万卡智算集群;毕竟在大模子领域,万卡集群是公认的入场券。
摩尔线程这次文告,其万卡集群在 Dense 大模子上的算力控制率(MFU)达 60%,在 MOE 大模子上达 40%,有用考验时候占比朝上 90%。
最硬核的音信是:摩尔线程已完满复现了 DeepSeek V3 的 FP8 考验。 依靠 S5000 对低精度算子的优化,其自研 FP8 GEMM 算力控制率高达 90%。

在这次大会上,摩尔线程还前瞻性地显露了下一代高密硬件基石—— MTT C256 超节点。
这款居品摄取了筹备与交换一体化的高密联想。它的出现,是为了系统性地辅助万卡集群在超大规模智算中心里的能效比和考验遵守。

这个量级的阐发,意味着它仍是具备了正面硬刚国外主流 Hopper 架构 AI GPU 的底气,是改日超大规模大模子考验和及时推理的国产轨范谜底。
何况就在最近,摩尔线程还和硅基流动(SiliconFlow)策划文告:
基于硅基流动高性能推理引擎,两边已在摩尔线程 MTT S5000 GPU 上告成完成对 DeepSeek V3 671B 满血版大模子的深度适配与性能考证。
在 FP8 低精度推理技能加握下,MTT S5000 单卡实测 Prefill 朦拢冲破 4000 tokens/s,Decode 朦拢超 1000 tokens/s,创下现时国产 GPU 在大模子推理场景下的新高。
这一效率不仅刷新了国产 GPU 的推感性能基准,更传递出一个要道信号:
在老练软件工程体系(如 MUSA 架构与硅基流动推理引擎)的协同优化下,国产算力硬件正从"能跑"迈向"跑得快、跑得稳、跑得值"。
换句话说:单元算力的有用控制率,正在成为国产 AI 芯片确实落地的要道见解——而摩尔线程,这次交出了一份高分答卷。
生态,生态,还得看生态
在公共算力竞争日益尖锐化的今天,单一芯片的性能上风已不及以构建护城河。
确实的壁垒,在于软件生态、硬件协同、场景落地与建造者信任的概括才气。
摩尔线程深谙此谈,它的选用也相配明晰:不走局部替代路线,而所以" MUSA 架构 + 国产 GPU+ 全场景居品"三位一体,打造一个从底层提醒集到表层应用的完满生态闭环。
这不仅包括东谈主才生态,更涵盖繁茂的软件建造生态——从自研编译器、高性能算子库,到对主流 AI 框架的浅近适配,摩尔线程提供了开释算力所需的全套软件用具链;同期,通过 AIBOOK 等面向建造者的硬件进口居品,让建造者能够遍地随时接入并高效使用 MUSA 算力,确实好意思满软硬协同、端云一体的全场景遮蔽。
但除此以外,建造者和建造生态,亦是其中相配要道的一环。
这就是摩尔线程打造摩尔学院(MUSA 建造者的成长平台)的原因了。

限制 2025 年 12 月,摩尔学院仍是汇注了 20 万名建造者。摩尔线程的方向更强大:培育百万规模的 MUSA 建造者社群。
为此,他们不仅提供了从初学到专家的专科课程,还把根扎到了东谈主才起源——走进天下 200 所高校。通过产教和会、策划推行室以及"繁星盘算"等竞赛,摩尔线程正在从象牙塔驱动,培养属于我方的、懂国产架构的原生代建造者。
这也印证了中国工程院院士、清华大学筹备机系证据郑伟民的不雅点:"国产 GPU 的要道,在于要从能跑到沸腾用。"
合座来看,当别东谈主还在争论"国产 GPU 能不行用"时,摩尔线程仍是通过从软件栈用具、硬件进口到东谈主才培育的全链路布局,让建造者问出另一个问题:"我的下一个技俩,能不行全在 MUSA 生态里完成?"
这,不祥才是确实的冲破。
一键三连「点赞」「转发」「留心心」
迎接在指摘区留住你的念念法!
— 完 —
� � 点亮星标 � �
科技前沿进展逐日见