作者黄湘红段跃初
在科技浪潮中,AI无疑是那颗最耀眼的明星。从日常的智能语音助手,到复杂的图像识别、自动驾驶,AI的身影无处不在,深刻改变着我们的生活和工作方式。然而,你是否想过,这看似无形的AI,背后却隐藏着一个庞大而关键的支撑体系——电力。强大的AI需要强大的电源支援,这绝非一句简单的口号,而是关乎AI未来发展的核心命题。
AI的发展历程,堪称一部不断突破极限的传奇。从早期简单的算法模型,到如今拥有数十亿乃至数万亿参数的大型语言模型,AI的能力实现了质的飞跃。以GPT-3为例,这个拥有1750亿个参数的语言模型,能够生成近乎人类水平的文本,在自然语言处理领域掀起了轩然大波。而OpenAI训练一次GPT-3,大约需要消耗1287兆瓦时的电力,这一数字令人咋舌,却也直观地展现了AI对电力的巨大需求。
AI对电力的高需求,根源在于其复杂的运算过程。AI模型的训练,本质上是对海量数据的深度分析和学习。以图像识别任务为例,AI需要对大量的图像数据进行特征提取、分类和识别。在这个过程中,每一张图像都包含着数以万计的像素点,而AI要做的,就是从这些像素点中找出关键特征,并建立起相应的模型。这一过程涉及到复杂的矩阵运算、卷积运算等,需要消耗大量的计算资源,而计算资源的背后,正是源源不断的电力支持。
再以语音识别为例,AI需要对语音信号进行实时处理和分析。语音信号是一种连续的模拟信号,AI要将其转换为数字信号,并进行特征提取、模式匹配等操作,才能准确识别出语音内容。这一过程同样需要强大的计算能力,而电力则是维持计算设备运行的动力源泉。
AI技术的发展,推动着AI芯片不断迭代升级。从最初的通用处理器(CPU),到专门为AI设计的图形处理器(GPU)、张量处理单元(TPU)等,AI芯片的性能得到了极大提升。然而,随着芯片性能的提升,其功耗也在急剧增加。
以NVIDIA的GPU为例,早期的GPU功耗相对较低,如GTX 1080Ti的功耗约为250W。但随着技术的发展,新一代的GPU功耗大幅攀升。NVIDIA最新的Blackwell架构旗舰产品B200 GPU,单芯片热设计功耗(TDP)已达到1000W,特定高规格版本甚至可达1200W。这与上一代H100 GPU约700W的TDP相比,实现了显著的跃升。同样,AMD的MI300X加速器功耗也达到了750W ,而以高能效比著称的Groq LPU,当前芯片功耗也达到了500W,并计划在年内推出基于4纳米工艺的新芯片以进一步优化性能与功耗。
单芯片功耗的飙升,直接传导至整个服务器系统和数据中心机柜层面。以搭载8颗H100 GPU的NVIDIA DGX H100服务器为例,其系统最大功耗高达10.2kW。而进入Blackwell时代,情况更为严峻。由两颗B200 GPU和一颗Grace CPU组成的GB200超级芯片,总功耗高达2700W。一台标准的DGX B200服务器(集成8颗B200),总功耗已达到惊人的14.3kW。为了实现极致算力密度,NVIDIA推出的NVL72整机柜方案,集成了72颗B200 GPU,使得单个机柜的总功耗一举突破100kW,甚至达到120kW。这彻底颠覆了传统数据中心单个机柜30 - 40kW的设计上限,对从机柜PDU(电源分配单元)到整个数据中心的供配电链路提出了革命性的要求。
为了满足AI对电力的高需求,数据中心在电源架构和散热技术上不断创新。在电源架构方面,多模组冗余成为标配。为保证AI训练任务7x24小时不间断运行的高可靠性要求,AI服务器普遍采用N N或N 1的冗余模式。例如,戴尔PowerEdge XE9680服务器,配置了多达四个2800W的可热插拔电源模块,采用2 2或3 1冗余,确保在单个电源故障时系统仍能全功率运行;浪潮AI服务器NF5468A5支持3 1或2 2冗余配置,其后继机型NF5688M6更是支持最多安装6个电源模块,采用3 3冗余模式。
同时,开放计算项目(OCP)定义的通用冗余电源(CRPS)规范已成为行业主流。CRPS规范统一了电源模块的物理尺寸和接口,其热插拔设计极大地方便了数据中心的运维工作。在有限的1U空间内,电源功率从传统的550W、800W、1200W,一路跃升至2000W、2800W,如今3000W至3200W的电源模块已成为AI服务器的主流配置,并正在向5500W甚至8000W演进。
在散热技术方面,随着AI芯片功耗的增加,传统的风冷散热方式已难以满足需求,液冷技术正逐渐成为主流。液冷技术通过液体介质带走热量,散热效率更高,能够有效降低芯片温度,保证服务器的稳定运行。例如,一些数据中心采用了直接液冷技术,将冷却液直接喷淋到芯片上,实现了高效散热。
AI的发展,也促使能源行业不断创新。一方面,为了满足AI对电力的巨大需求,可再生能源如太阳能、风能等得到了更广泛的应用。AI芯片全球龙头公司的创始人黄仁勋曾表示,AI的尽头是光伏和储能。这一观点得到了众多业内人士的认同,因为可再生能源具有清洁、可持续的特点,能够为AI的发展提供长期稳定的电力支持。
另一方面,储能技术的发展也与AI息息相关。由于太阳能、风能等可再生能源具有间歇性和不稳定性,储能设备能够在能源过剩时储存能量,在能源短缺时释放能量,保证电力供应的稳定性。例如,特斯拉的Powerwall家用储能系统,以及大型的抽水蓄能电站等,都在能源存储和调节方面发挥着重要作用。
此外,AI技术也在能源领域得到了广泛应用,实现了能源的高效利用。通过对能源数据的实时监测和分析,AI能够优化能源分配,提高能源利用效率。例如,一些智能电网项目利用AI技术,实现了对电力负荷的精准预测和调度,减少了能源浪费,提高了电网的稳定性。
AI与电力,正处于一种相互促进、协同发展的关系中。电力是AI发展的基石,为AI提供了强大的动力支持;而AI则为电力行业的创新和发展提供了新的技术手段,推动着能源的高效利用和可持续发展。在未来,随着AI技术的不断进步,我们有理由相信,电力与AI的融合将更加紧密,为人类社会的发展带来更多的惊喜和变革。
来源: 科普文讯