随着人工智能,特别是大语言模型(LLM)的飞速发展,算力需求正以前所未有的速度呈指数级增长。模型参数量从千亿跃升至万亿规模,驱动着AI基础设施从单卡计算向大规模分布式集群演进。在这一演进过程中,Scale-up(纵向扩展)互联技术,即在单一计算节点或机柜内实现海量加速器(如GPU)的高效互联,成为突破算力瓶颈、提升训练效率的关键。本文在深入剖析现代智算中心对Scale-up互联的独特需求,并详细阐述全向智感互联架构OISA(Omni-directional Intelligent Sensing Express Architecture)如何通过“减法”与“加法”的设计哲学,构建一个专为AI负载优化的、高效、低延迟的互联方案。
1、引言:Scale-up互联在智算时代的核心价值
通往通用人工智能(AGI)的道路上,Scaling Law(扩展定律)揭示了一条核心路径:通过“大模型、大数据、大算力”的协同扩展,持续探索模型能力的上限。从GPT-3的1750亿参数到GPT-4等模型的万亿级别参数,训练所需的算力也从PFlops/day级别跃升至EFlops/day级别。这种算力的需求不仅体现在绝对值上,更对算力集群的“密度”和“效率”提出了前所未有的挑战。
在当前智算基础设施的构建中,存在两种核心的扩展范式:Scale-out(横向扩展)与Scale-up(纵向扩展)。Scale-out通过网络连接海量独立计算节点以实现集群规模的理论上无限增长,是构建超大规模算力池的基础。然而,随着模型复杂度与规模的急剧提升,分布式训练中频繁的梯度同步与参数聚合等操作使得传统架构下的跨节点通信延迟与带宽瓶颈日益凸显。因此,行业焦点愈发转向构建一套高性能的Scale-up架构,它通过在单个节点或紧密耦合的机柜(即“超节点”)内利用高速互联技术,将大量GPU塑造成一个统一且强大的计算单元。一个设计精良的Scale-up互联架构的核心价值,主要体现在它构建了一个高带宽、低延迟的内部通信域,从而最大化地降低了通信开销。这带来了多维度的关键优势,包括实现计算与存储资源的准线性扩展,将众多GPU及其HBM内存整合成一个单一资源池,为张量并行与专家并行等高级模型切分策略提供了必要支撑;同时,其远低于跨节点网络的内部通信延迟,对All-Reduce、All-to-All等集合通信原语的执行效率帮助明显,直接决定了GPU的有效计算时间占比。
此外,通过在机柜内实现高密度部署,显著提升了单位空间的算力输出,进而优化了数据中心的占地、电力与冷却等总体拥有成本。由此可见,现代Scale-up互联已不再是服务器内部组件的简单连接,而是承载万亿参数模型内部海量数据交换的、不可或缺的“神经系统”。
2、现代AI工作负载对Scale-up互联的苛刻需求
为了设计出高效的智算集群Scale-up互联协议,必须首先理解其承载的AI工作负载,特别是大模型训推任务,其流量模型和性能要求与传统数据中心网络有着本质区别。
2.1 以GPU视角:需要一个高性能、内存语义的总线扩展
从GPU计算架构师的视角审视,理想的Scale-up互联架构在本质上应被视为一个“扩展总线(Extended Bus)”,其行为模式与传统网络的范畴区别还是很大的。这种设计的核心在于其必须具备丰富的语义支持能力,能够原生处理多样化的内存操作。在这种场景下,该互联协议需要无缝地支持用于细粒度同步和跨GPU原子操作的同步内存语义(如Cacheline-to-Cacheline交互),同时也要高效处理用于梯度和激活值交换的异步DMA模式(如HBM-to-HBM的大块数据搬移)。最终目标是提供一个统一的接口来处理这些通信模式,从而显著降低上层软件栈的复杂性。
在此总线扩展的范式下,对性能的要求也变得极为苛刻,尤其体现在延迟、可靠性和效率三个维度。首先,网络的性能评估必须超越平均延迟,而聚焦于极低且可预测的长尾延迟。在All-Reduce等紧密同步的集合通信操作中,整体计算的推进速度受限于最慢的通信路径,任何延迟抖动都会直接转化为GPU的空等周期,严重侵蚀计算效率。其次,该架构必须提供绝对无损的传输。与依赖TCP等上层协议进行纠错的传统以太网不同,Scale-up互联承载的是内存级事务,任何数据丢包都可能导致计算崩溃。因此,其可靠性机制必须内建于链路层,以实现快速、对上层透明的故障恢复。另外,这一切高性能的实现都必须以极高的有效带宽为基础,要求协议的转发头开销尽可能小,从而最大化数据负载在物理带宽中的占比,确保无论是大块数据还是小消息的传输都能维持极高的链路利用率。
2.2 以Switch视角:一个确定性、高并发的专用互联系统
从交换系统的角度来看,GPU Scale-up互联的流量模型与通用数据中心网络存在根本性的差异。其最显著的特征在于流量的单一性与确定性。在一个封闭的超节点内,通信路径是固定的GPU端口到GPU端口,物理拓扑在部署时即已固化,因此交换芯片可以依赖静态路由表进行转发,完全无需传统网络中如BGP等用于动态拓扑发现的复杂路由协议或用于二层寻址的MAC地址学习机制。然而,这种路径上的简单性却伴随着流量并发度的极端挑战。在执行All-Reduce、All-to-All等集合通信操作时,系统内部分GPU会近乎同步地向其他节点发送数据,形成一种“全员全开”的流量风暴,导致交换芯片的所有端口瞬间达到线速满载,这对芯片内部的交换矩阵容量和缓冲区管理策略构成了极为严峻的考验。
除了流量路径和并发度的特异性,报文长度的巨大动态范围也为交换芯片设计带来了另一重挑战。GPU互联流量天然地呈现出双峰分布特征:一类是承载模型参数或中间结果的大尺寸数据报文,长度可达数千字节;另一类则是用于握手和控制的短报文,如读请求或写响应,其长度通常在64字节左右。这种报文尺寸的巨大差异意味着交换芯片的性能瓶颈不再仅仅是吞吐带宽(Gbps),更在于其报文处理速率(PPS)。特别是在处理大量小报文的场景下,PPS能力直接决定了网络的延迟和效率。
以上只是Scale-up需求中的一小部分,综合来看,这些独特的流量特征共同定义了Scale-up互联的本质:一个需要具备互联扩展性,但在行为上更趋近于片上网络(NoC)的“总线化系统”。它对低延迟、高带宽和无损传输的要求,叠加其确定性、高并发的流量模式。
3、OISA的设计哲学:“减法”与“加法”
3.1 物理层基座:拥抱成熟的以太网PHY生态
为应对AI工作负载对互联架构提出的独特挑战,中国移动与产业界启动开放的全向智感互联标准(Omni-directional Intelligent Sensing Express Architecture,OISA)的协议制定工作,核心设计哲学可精炼地概括为一种先“减”后“加”的双重策略。其“减法”在于系统性地剥离传统网络协议栈中为通用性而设计的冗余部分,例如动态路由、MAC学习等复杂机制。这些机制在AI集群的确定性流量模型下不仅毫无必要,反而会引入额外的延迟和硬件复杂度。通过此番精简,OISA构建了一个极致轻量化的协议基础。在此基础上,OISA继而施行其“加法”策略,即在精简后的协议栈上,有针对性地集成专为AI工作负载设计的硬件加速引擎和高级运维特性,从而实现对性能的深度优化,最终打造出一个既简约又强大的专用互联解决方案。
OISA协议栈被设计为事务层、数据层和物理层的三层结构,其在物理层(PHY)基于成熟的以太网PHY生态,因为它使OISA在当前条件下能够受益于以太网充分的供应链,从而确保了成本效益与部署的可靠性。除此之外,以太网PHY能够继承其在前沿SerDes技术上的持续突破,包括从112Gbps PAM4演进至224Gbps PAM4甚至更高,进而支撑起从800Gbps到未来1.6Tbps的端口速率演进路线图。通过将物理层的复杂性与风险外包给最成熟的生态系统,OISA得以将自身宝贵的研发资源聚焦于真正形成差异化优势的数据链路层和事务层,专注于为AI负载进行深度协议优化,从而实现了高投入产出比,并加速了整个解决方案的产品化进程。
3.2 OISA的“减法”:精简至上,为效率而生
为适应Scale-up网络的独特需求,OISA重点对协议栈进行系统性重构,以一个仅包含事务层、数据层和物理层的垂直整合架构,从而将报文头部开销压缩至20字节左右,极大地提升了传输效率。这种简化逻辑进一步延伸至路由与寻址机制,在Scale-up的确定性拓扑中,OISA采用基于唯一GPU ID的静态路由,彻底消除了对ARP、MAC地址学习BGP以及OSPF等复杂动态协议的依赖,不仅简化了交换芯片的设计,更确保了转发延迟的稳定与可预测性。
最后,在实现无损传输这一核心目标上,OISA采用一种更为精细高效的、基于缓存感知的主动流控技术。该机制通过“先确认后发送”的原则,确保发送端在获得接收端缓冲区可用“信用”后才传输数据,杜绝因缓冲区溢出而导致的报文丢失,构筑其绝对无损的互联系统。
3.3 OISA的“加法”:专为AI负载的深度优化
在精简的协议基础上,OISA通过一系列针对性的“加法”操作,集成了多项专为AI应用场景设计的关键功能,从而实现了性能与可靠性的深度优化。通过建立一套分层协同的可靠性机制,以“链路修复优先”的原则确保数据传输的绝对完整。数据层则具备基于Go-Back-N等协议的快速重传能力,能够对CRC校验错误等物理链路问题进行快速、对上层透明的恢复。
在此可靠的互联基础之上,OISA最具变革性的创新在于其集合通信硬件加速(CCA)能力。通过在交换芯片内部署计算单元(ALU),OISA将分布式训练中最耗时的All-Reduce等规约计算从GPU卸载至交换芯片内,实现了数据的计算卸载。这使得原本需要在多个GPU间进行多轮次数据交换的复杂操作,转变为一次高效的基于交换芯片的聚合与广播,理论上可将通信复杂度从指数级别降至近乎常数时间,极大地释放了宝贵的GPU计算资源和互联带宽。为进一步提升链路效率,OISA还在端侧引入了概率性报文聚合优化,通过智能聚合发往同一目的地的小尺寸控制报文,显著降低了协议头开销,提升了有效带宽与系统的PPS处理能力。
除了对数据平面的极致优化,OISA同样注重在大规模集群环境下的运维与管理能力,为此构建了一套统一抽象且分层递进的运维框架。该框架始于与现有运维体系兼容的基础端口统计,为多租户和云化场景下的资源隔离与问题定位提供了坚实基础。更进一步,OISA支持在芯片内部对业务流进行实时的延迟与带宽利用率感知,这种性能洞察能力可以将互联拥塞等状态信息反馈给上层的集合通信库或任务调度器,从而实现动态的流量调度与任务布局优化,有效抑制长尾延迟。通过在数据报文中携带路径状态,为实现更高级的智能互联感知与自愈能力铺平道路。
4、总结与展望
智算时代的浪潮将算力基础设施推向了一个新的高度,Scale-up互联作为构建高性能AI超节点的核心技术,其重要性日益凸显。它所面临的挑战不再是通用网络连接,而是如何构建一个行为类似内存总线、性能极致、且为AI负载深度优化的专用互联系统。
OISA协议的设计思路为此提供了一个清晰的范例。它立足于成熟的以太网PHY生态,通过“减法”剥离了传统网络的复杂与冗余,实现了协议的轻量化和低延迟;又通过“加法”创新性地集成了集合通信硬件加速、分层可靠性保障、精细化运维监控以及端侧互联优化等关键特性。这一系列环环相扣的设计,共同构筑了一套全面且极具前瞻性的技术解决方案。
展望未来,由OISA等技术构建的高效超节点,将作为强大的“计算单元”形成更大规模的AI算力集群。同时,互联技术的创新必须与上层软件(如并行计算框架、集合通信库、AI编译器)进行更深度的软硬件协同设计,才能将硬件的潜力发挥到极致。以OISA为代表的开放互联标准,将持续推动AI基础设施的演进,为通往通用人工智能的漫漫征途铺设坚实的算力基石。
作者:李锴
单位:中国移动研究院
来源: 中移科协
科普中国公众号
科普中国微博

帮助
中移科协 