上市 15 天后,摩尔的线索指向 Nvidia 内部

出品|虎秀科技群作者|万祖山编辑|苗振清头像|当摩尔之线在资本市场的热度下降时,摩尔之线又重新回到了人们对行业的关注。摩尔线程于12月20日召开首届“MUSA开发者大会”,发布了新一代全功能GPU架构“华罡”、基于“华罡”架构的人工智能推广与训练一体化芯片“华山”、高性能图形渲染专用芯片“庐山”。摩尔线程创始人张建中还宣布了“夸鹅万卡智能计算集群”以及即将推出的MTT C256超级节点配置计划。如果说以上还属于“可预见”的技术迭代范围,那么MTX中间语言、光刻计算库、量子计算融合框架sica等技术其实是完全出乎意料的。当然,可以说这些技术并不是第一个由 Moore Threads 提出。事实证明,最后这些元素或多或少都出现在GTC大会上。不过,从国内GPU企业的规模来看,全方位构建生态系统的勇气值得称赞。对于站在“感性评价”与“理性评价”交汇点的摩尔线程来说,本次开发者大会也向外界发出了一个明确的信号:无论业界看法如何,我们坚持构建一条类似于NVIDIA CUDA、以MUSA为中心的环保护城河。它会与 NVIDIA 竞争吗?首先我们来说说本次开发者大会上最让我惊讶的技术:MTX中间语言。它是 MUSA 5.0 软件堆栈的一部分。关注Moore Threads的人或多或少都知道MUSA的architecture.unified版本。这包括芯片架构、指令集编程模型和软件。摩尔Th自主研发的全栈技术体系阅读涵盖软件运行时库和驱动程序框架的内容。在之前的版本中,MUSA 主要致力于扩展其编程生态系统,使其兼容更多编程语言或改进其运算符库。此次呈现的“中间语言MTX”尚属首次出现。让我简单解释一下什么是MTX中间语言。其主要特点是兼容不同代GPU的指令架构,这样开发者无需为每一代新的GPU重新适配代码,大大降低了开发者的适配成本,同时为上层软件生态提供了稳定的基础支撑。让我们用一个更直观的例子。 NVIDIA CUDA 生态系统的基本组成部分之一就是这种中间语言技术,NVIDIA 将其命名为“PTX”。通过利用 PTX 中间语言,开发人员为图灵编译的代码2018 年的架构芯片也可以通过动态编译驱动程序在 Blackwell 2025 芯片上运行。那么创造这种“中间语言”很难吗?我必须说这是非常困难和耗时的。以NVIDIA的PTX为例,自2007年随CUDA 1.0一起发布以来,大多数版本都需要在支持的硬件中添加专门的指令(例如Tensor Core相关指令),同时保持对之前版本的支持。这种兼容性最终形成了成熟的“高级语言→P”编译环节“TX→硬件二进制指令”。对于开发者来说,没有理由因为PTX中间语言的存在而拒绝CUDA。因为在NVIDIA之前还没有一家芯片厂商考虑过“未来兼容性”的问题。但是,毫无疑问,中间语言的开发对于国产GPU厂商来说比NVIDIA要困难得多。因此,直到今天我也绝对不会想到国产制造商会这样做。今天开盘,据张建中在发布会上的说法,摩尔线程自主研发的MTX将于明年上半年向开发者推出。与Nvidia 18年的努力相比,人们会期望摩尔的Thread MTX不如第一个好用,但迈出这一步的勇气仍然相当令人印象深刻。因此,“不做生态”是政治正确的事情。新架构,重大改进。摩尔线程已经推出了四代GPU架构,从2022年发布基于MUSA统一架构的“苏迪”开始,而这次发布的“花岗”架构基本上可以认为是升级最为显着的一代。首先是计算性能的显着提升。基于新一代指令集的“花港”架构,算力密度较上一代“平湖”提升50%。同时,功率效率iciency 得到显着优化,支持从 FP4 到 FP64 的全精度端到端计算。其次,支持异步编程和超大规模互连。新一代异步编程模型可以更好地优化调度和Patask扩展,并通过我们的专利MTLink高速互连技术支持将智能计算集群扩展至超过100,000个卡。值得注意的是,在开发者大会上,张建中还透露,下一代“花岗”架构将融入AI生成的渲染结构,并将全面兼容DirectX 12 Ultimate。由此,我们基本可以断定,采用摩尔线程的消费级显卡未来肯定会重演,很可能是基于“花岗”架构的产品。在“消费显卡”利基市场最艰难的道路上,摩尔线程还没有放弃。以此为基础的“花港”架构,摩尔线程今天推出了两款芯片,名为“庐山”和“华山”。首先我们来说说“庐山”,它的定位是“AI训练与推送一体化”的芯片。除了上面提到的新一代异步编程和全精度张量计算单元之外,该芯片的特殊之处还在于它可以适应不同的“类以太网协议”以及不同的可扩展交换机。这意味着“庐山”芯片不仅可以与MTlink配合使用,还支持国内其他厂商的协议。据张建中现场介绍,庐山支持扩容多达1024个超级节点。尽管Moore Thread痴迷于构建自研生态系统,但公平地说,它并没有改变自己的道路。另一款芯片“庐山”用于高性能图形渲染,其图像性能与MMT S80进行对比。集成AI生成渲染后,AI计算性能提升64倍,UtiTE统一渲染架构将几何处理性能提高了16倍,新的硬件光线追踪引擎将光线追踪性能提高了50倍。除了芯片之外,“夸鹅万卡智能计算集群”也在本次MUSA开发者大会上正式推出。该集群具备全功能、全精准通用计算能力,可实现高效稳定的万卡规模AI训练和推理。今年生态极限不断扩大,国内GPU产业的历史也逐渐从“可用”转向“好用”。尤其是H200对华出口禁令解除后,国内专业人士更加惊慌。对于芯片“易用性”的问题,摩尔线程的回答依然聚焦在“生态”二字,不仅注重实现生态独立,还积极探索生态极限。例如,在今天的开发者大会上据了解,摩尔线程发布了“长江”SoC。该芯片主要用在终端侧。 CPU+GPU+NPU的组合可提供高达50TOPS的异构AI算力。张建中介绍,摩尔线程计划推出基于“阳江”SoC的MT机器人、MTT E300 AI芯片模组、快鹅智能计算集群的智能解决方案。这种结合表明,该解决方案最重要的特点是能够从边缘到边缘再到云调整计算能力。据报道,MT机器人被用于农业场景。另外值得注意的是,摩尔线程还在基于这款SoC开发一款名为“MTT AIBOOK”的AI计算笔记本电脑,并计划未来推出迷你MTT AI Cube计算设备。在体现智能方面,除了MT Robot之外,摩尔线程还推出了MT Lambda嵌入式智能仿真训练平台。该平台在术语上类似于 Nvidia 的 Isaac Sim的定位,但并不完全相同。 MT Lambda的核心聚焦于“完全集成”,旨在将物理引擎、渲染引擎和AI引擎深度集成,打破传统嵌入式智能研发中“开发、仿真、训练”分离的问题,提升研发效率。此外,MT Lambda可以直接在MT Robot中实现,形成软硬件的高效协作。从Moore Thread在Embodied Intelligence领域的生态延伸到现在的“计算”相关产业,Moore Thread已经成为“全栈软硬件架构+全场景产品”。我们可以看到,它正在试图通过“设计,每一步拓展生态边界,同时每一步都面临真正的挑战”来占据自己的位置。从某种程度上来说,这是一次回归 NVIDIA 的旅程。最终,答案还需要时间来检验摩尔线索能否构建新的生态。面对后者过去二十年积累的生态霸权,加州在该国的护城河。本文来自虎秀,原文链接:https://www.huxiu.com/article/4819257.html?f=wyxwapp
特别提示:以上内容(包括图片和视频,如有)由自有媒体平台“网易账号”使用。本平台由用户上传、发布,仅提供信息存储服务。
注:以上内容(包括图片、视频,如有)由网易号社交媒体平台用户上传发布,仅提供信息存储服务。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注