计算、存储、互连,是算力网络图谱中的重要基础设施。GPU始终是算力聚光灯下的绝对主角,而数据的“流转”则离不开互连。以GPU为代表的算力每两年就会有上百倍的快速进步,但互连带宽却远远落后于算力成长。互连带宽跟不上,就会限制集群的计算速度。从芯片内部的高速互连,到GPU集群间的高速网络,国产方案需实现多维度突破,构建开放生态。AI基础设施里的“交通系统”在数据中心里,服务器之间需要低功耗、高效存储访问和高互连密度来实现海量数据交换。奇异摩尔联合创始人兼产品和解决方案副总裁祝俊东向澎湃科技介绍,AI基础设施的发展就像规划一座城市。计算如同“工厂”,存储节点类比为“住宅”,计算规模较小时,两者“点对点”就近配套建设。随着规模持续扩大,这种零散的布局模式不再合理,于是形成了多个“工业区”和多个“住宅区”。在不同工业区和住宅区之间,“交通系统”的价值开始凸显——大量数据依托互连基础设施流转,如同城市中人口与物资的流动,“交通”的互连是否顺畅直接影响整体效率。大模型推动计算需求快速增长,GPU集群从万卡发展到十万卡。祝俊东表示,在AI基础设施中,互连基础设施便成为“木桶原理”中的关键短板,它直接决定了算力集群系统所能发挥的最终效能。“假设投资了10000P算力,这些算力的发挥取决于通信系统,如果互连做不好,10000P算力可能实际只能发挥100P。”成立于2023年的硅光与光电集成技术企业英伟芯创始人聂辉同样表示,以GPU为代表的算力每两年就会有上百倍的快速进步,互连带宽则远远落后于算力成长,每两年大约只有2-4倍的进步,算力和互连的发展极不对称。如果互连的带宽跟不上,就会限制集群的计算速度。因此,必须打通AI基础设施里的“国道、省道、乡道”,加速互连技术迭代。互连里的Scale Inside、Scale Up和Scale Out就像交通系统,所谓Scale Inside,就是依托高速互连提高单芯片计算能力,延续摩尔定律。Scale Up涉及当前火热的概念“超节点”,即通过互连GPU,在节点内部进行扩展,让一定数量的计算芯片能够计算一个任务,这对于互连的要求更高。英伟达的NVLink/NVSwitch就是GPU芯片之间的高速连接通道,推动数据和计算加速得出可执行结果。而Scale Out是将集群横向扩展到更多机柜,进一步扩大集群规模。“目前国内主流建设向十万卡集群进军,海外在建几十万卡集群,未来很有可能会突破百万。在这种情况下,要把这么多计算和存储节点连在一起,不仅需要最基础的高速互连,更需要像交通系统一样有效调度,这就是Scale Out通信系统需要解决的问题。”祝俊东表示,计算集群的扩大对互连基础设施的带宽、能耗、网络控制及网络协议提出了更高要求。在AI基础设施建设中,过去注意力多集中于计算环节。进入集群部署阶段后,网络的重要性更加凸显,但网络相关的核心软硬件仍以英伟达和博通等海外厂商产品为主。“计算、互连、软件生态是英伟达的三大护城河,它在互连上的投入很大,过去其他单一厂商的能力相对于英伟达存在2-3个代差。但现在大家对互连的重视程度越来越高,在基于数据中心或超大规模计算集群的互连上投入研发。”祝俊东表示,硬科技技术研发需要长时间积累,厚积才能薄发。目前奇异摩尔正在开发基于统一底层架构的AI网络全栈式互连产品及解决方案,期望打通Scale out、Scale up、Scale inside的多维度互连,实现统一协议传输、统一数据处理、统一调度,突破互连瓶颈。对于国产互连技术的发展,祝俊东认为需多维度突破。其一,异构混训要求实现系统协同,一方面要打通存储、计算与互连,计算、互连、存储、算法、系统不再是独立的单点设计,而是要通盘考虑,这一转变必然要求建设开放生态。其二,要在技术范式上探索创新,存储领域开发存算一体技术,计算领域短期聚焦并行架构、流式架构、算法演进,长期布局光计算技术。在互连领域,当前的互连以电为主,未来光与电的融合会越来越深,要探索CPO/OIO等光电高效结合的技术路径。探索光电融合新路径今年世界人工智能大会期间,曦智科技联合壁仞科技、中兴通讯推出了光跃LightSphere X分布式光互连光交换GPU超节点解决方案,获得大会2025 SAIL奖(卓越人工智能引领者奖)。据报道,该算力方案即将落地在上海仪电的国产算力集群。目前,光互连技术正在从实验室走向数据中心。另据《解放军报》报道,目前,阿里云、谷歌云、亚马逊AWS等全球各大云计算巨头已纷纷宣布在其新一代数据中心和AI基础设施中加速部署基于硅光子技术的800G/1.6T光模块,逐步淘汰传统的铜缆和可插拔光模块。从事光电行业近30年的聂辉介绍,当前数据中心内部有两种互连技术,一是传统铜互连,这种互连技术的速度也在提升,但仍是短距互连场景;二是可实现光电转换的光模块,它由激光器、探测器、调制器等构成,每个器件都是一颗小芯片,再使用光纤,从而精密加工耦合而成。目前国内光模块市场红火,“最近这几年,国内光模块厂商都爆单了。因为AI的数据量两三年就有几十倍成长,所以对光模块提出了大量需求。”但有业内人士表示,光模块的光芯片、激光器、探测器、调制器基本从国外进口,尽管国内产值大,但仍属加工业,主要产值仍在国外芯片领域。同时,光模块制造步骤复杂,制造成本和良率需要进一步优化,带宽也有待提升。为了提高集成度,“比光模块更先进的技术是集成化的CPO技术,它可以大幅提高带宽密度,传输带宽从每秒1.6Tb发展到3.2Tb,并迅速迭代到更高带宽,单位功耗也能进一步下降。”聂辉介绍,在光互连场景下,数据从电信号转成光信号并在光纤内传输,接着再转成电信号,进入下一个计算节点,光纤通讯带宽高、损耗低,可提高传输能力。聂辉曾在朗讯贝尔实验室开发光电器件,2015年加入了英特尔研发硅光芯片,目前带领英伟芯攻克人工智能和数据中心领域传统光模块集成度低、体积大、功耗高、成本高等瓶颈问题,通过晶圆级异质集成技术,将光电器件材料与硅基晶圆结合。聂辉介绍,国外芯片巨头企业正在升级换代,开发下一代OIO/CPO技术,国内光模块厂家、先进封装企业、通信企业、初创公司都在布局下一代光互连技术。在英伟达强力推动下,光互连上下游产业链逐渐完善,其GPU、互连场景和生态系统支撑起了4万亿美元市值。国内各类厂家独自开发,产业链尚不清晰,尚未形成现成的光电芯片代工厂。光和电的耦合不断加深,关键技术挑战之一是工艺协同适配,光和电的制造工艺存在本质差异,如何实现高效结合成为行业亟待突破的难题。“目前国内光互连生态尚未成熟,这是未来需要努力的地方。我们作为初创企业,既要做设计和工艺集成,还要跟国内的生态链一起把技术打磨出来。目前来看,走通硅光、光电集成、先进封装这三步,需要2-3年研发时间。”中科创星创始合伙人米磊认为,随着AI算力需求爆发,传统芯片将会面临物理瓶颈,光子技术是唯一能提供超高带宽、超低功耗互连与计算的下一代解决方案。他提出了“米70定律”,光子技术作为以人工智能为代表的新一轮科技革命中的关键技术,具有极强的“头雁”效应,将占据未来产业成本的70%。我国既要在电子芯片领域尽快补短板,也要尽早在光子芯片等新赛道布局发力,抓住新一轮科技革命和产业变革的机遇。
© 版权声明
文章版权归作者所有,未经允许请勿转载。