OCP算力2025大会:超级节点“扩容”是活动焦点

本文作者:鲍一龙 来源:Hard AI OCP 2025世界峰会发出了明确信号:“规模化”架构已成为构建AI数据中心基础设施的中心主题。 10月20日,摩根士丹利亚太团队发布研究报告发现,整个行业正在奔向更大、更密集的“扩展”架构,以满足对AI驱动的计算能力永无休止的需求。研究报告指出,投资重点应从通用服务器组件转向能够支持超级节点架构的核心技术提供商。会议明确了四大关键技术趋势及其主要受益者。大型机箱:AMD Helios超宽机箱架构发布,促使机柜内部元件升级,纬创、纬创是主要受益者。更高功率:800V 直流 (VDC) 电源解决方案将成为下一代标准,彻底改变数据中心电源电力和分配架构。台达电子 (Delta) 和 Bizlink 处于领先地位。改进的冷却:两兆瓦 (2 MW) 液冷配电装置 (CDU) 越来越受欢迎,Google 的 Deschutes 解决方案也受到广泛关注。更快的网络:人工智能优化的以太网和CPO交换(ESUN)技术正在兴起,将为智邦等网络设备供应商提供升级机会。总体而言,整个行业都在为未来几年千兆瓦级AI数据中心集群的到来做准备,能够提供更密集、更高效解决方案的企业将在下一轮增长中占据核心地位。双宽机架开启了扩展的新时代。 “放大”意味着信息能力的增强和机箱形式的革命。AMD 与 Helios 进行了合作,与 Meta、Wiwynn 和其他制造商合作。在使用特定规格时最重要的特性ORW(开放式机架宽),是 ORV3 传统型(21 个普尔加达)的双锚。当今的高性能芯片具有极高的浮点运算(FLOP)密度。要在低延迟环境中连接更多计算核心,必须将它们放置在同一个扩展域中。在当前铜连接的技术限制内,这只能通过更大的背板或中板来实现,这也导致了更大的机柜。 Mehta认为,未来需要实现解耦,并且机架功率密度将持续下去。短期内将会增加,但随着光学技术的出现以及铜互连的限制的消除,最终会下降。 Helios 机架预计将于 2026 年下半年开始向 Meta、Oracle 和 OpenAI 等主要客户发货。根据供应链研究,纬颖科技是Meta的顶级ODM合作伙伴,纬创资通是GPU模块的顶级ODM合作伙伴,板和开关托盘,大多数 PCB 需要 M9 级 CCL 材料。同时,这种超宽、坚固的机柜对底盘、导轨等机械部件提出了更高的要求。这有利于 Chenbro 和 King Slide 等提供商。 800伏直流电源架构引领下一代高效千兆瓦人工智能工厂。随着机柜功率密度的增加,传统的电源架构不再受支持。 800V直流(VDC)电源解决方案是整个活动的焦点,被认为是为下一代千兆瓦级人工智能工厂提供动力的关键技术。与传统50V架构相比,800V直流解决方案在相同规格的铜缆上可多传输150%的电力,并可提高约5%的电力使用效率(PUE)。在具体进展方面,台达电子展示了成熟的解决方案,包括 1.2 MW 固态变压器(SST,已投入使用)生产且设计容量超过 3 MW)、800 V 电子熔断器 (eFuse)、90 kW DC-DC 电源架和 12 kW 配电板。与当前设计相比,新方法预计将使每瓦功率的价值增加一倍以上。 BizLink 等电气互连供应商也将受益于更严格规格的需求,例如液冷母线。据研究报告称,800V DC 解决方案预计将于 2027 年下半年在 NVIDIA 的 Rubin Ultra 平台上首次亮相,重点将放在大型液冷系统上。散热是决定算力能否稳定产生的生命线。会议上展示的技术路径非常清晰,从现在的混合冷却演进到全液冷。具体来说:GB300现状:已进入量产的GB300计算托盘采用混合冷却方案(85%液冷/15%风冷),每个计算托盘只有 6 组快速更换连接器 (QD)。良率不再是市场关注的中心fallen VR200预览:下一代VR200平台完全水冷,并将每个计算托盘的快换连接器数量增加到14组。目前正在进行生产和机柜级测试,预计将于 2026 年第三季度末发货。 大型 CDU:Google 开源了 2 兆瓦 (MW) 冷却剂分配单元 (CDU) 设计,支持高达 80 PSI 的压力,为高端冷板设计提供了潜力。 BOYD、酷冷至尊、台达电子、英维克等展示了相关产品。该报告引用了 Promersion 的预测,即浸入式液体冷却的临界点预计将在 2028 年出现,尽管冷板技术将继续主导市场直到 2030 年。我在这里。网络技术不断优化以满足人工智能需求。除了扩展解决方案之外,在节点内,提高高速节点之间的互连(水平扩展)也是利用人工智能集群性能的关键。研究报告指出,为提高网络性能而推出的以太网解决方案(ESUN)和CPO交换机被广泛用于AI数据网络优化。然而,这些产品的可靠性、适用性和成本仍然是影响其广泛使用的重要因素。查看具体进展:智邦和天弘展示了他们最新的基于Broadcom Tomahawk 6 ASIC的1.6T网络交换机产品,预计将于2026年底或2027年初上市,尽早开始申请。智邦还展示了基于Tomahawk 6 ASIC和IRIS光波长开关的概念验证CPO开关。根据Meta发布的研究,其51.2T CPO(共封装光)交换机的年下降率ALFR仅为0.34%,远优于可插拔光模块的1.58%。虽然可靠性优势显而易见,但成本和维护无能力仍然是采用的关键。与此同时,有源布线 (AEC) 正在成为一种经济高效的解决方案,并且其在横向扩展网络中的份额不断增加。 Meta 的 GB300 机柜采用了 AEC,这一趋势预计将继续让 BizLink 等供应商受益。总体而言,2025年OCP世界峰会发出了非常明确的信号。 AI基础设施军备竞赛已进入“巨型”阶段,大规模扩张是整个活动的中心主题。
特别提示:以上内容(包括图片、视频,如有)由自媒体平台“网易号”用户上传。它将被加密并发布。本平台仅提供信息存储系统服务。
注:以上内容(包括图片和视频,如有)由网易号用户上传发布,网易号是一个仅提供信息存储服务的社交媒体平台。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注