在刚刚过去的春天,我们见证了新世纪以来规模最大的科技狂欢。用“雨后春笋”来形容这几个月人工智能(AI)的发展都会显得过于保守,“大爆炸”可能是更合适的形容——就连原百度总裁、行业大牛、公认“最有干劲”的陆奇博士也说自己“(论文和代码)跟不上了,实在是太多了。”

回想2022年11月30日,新时代的大门突然打开。OpenAI公司发布了ChatGPT,人们惊觉AI重现了AlphaGo的辉煌——而且这次更全面。以GPT-3为代表的生成式人工智能似乎拥有了全面的语言处理能力,而 MidJourney、Stable Diffusion则让绘画不再是人类独有的手艺。接下来的几个月,大语言模型(LLMs,Large Language Models)成了人尽皆知的关键词,微软、谷歌、脸书(Meta)这些互联网巨头重新站回风口浪尖。

国内企业也纷纷发力。百度的“文心一言”、商汤的“日日新”、阿里的“通义”、腾讯的“混元”、华为的“盘古”都亮了相。到5月,各种企业和教学科研机构院校发布的大模型已经超过 30 种,大有“构建新时代 IT 底座”的豪情,真可称得上“日日工业革命,夜夜文艺复兴”。

当然,AI的未来并非没有隐忧。彭博社在2023年3月初的一篇文章中说,谷歌公司每年的用电总量中,有10%~15%是被AI项目吃掉的。这大约相当于亚特兰大50万人整整一年的生活用电量。根据国际数据公司(IDC)的预测,目前AI的能源消耗占全球能源消耗的约3%;2年以后的2025年,这个数字将猛增到15%,与之伴随而来的是对环境的巨大影响。

从这个意义上说,能源是AI的第一个底座。也许AI在造福全人类之前,先会撞上能源之墙。

01

这些能源是怎么被AI吃掉的?

可是,AI为什么会这么耗电?这就牵扯到它的另一个底座:算力。AI是计算密集型技术,在ChatGPT 这样的应用中更是如此。它需要大量算力,自然也需要大量能源。

掀起最近的AI浪潮的,是深度学习(Deep Learning)技术,它会构建分成多层的人工神经网络(即深度神经网络),其中每个神经元都有自己的可调节参数。大语言模型往往意味着数十亿、上百亿甚至更多的参数,这是获得良好结果的保证;而在此基础上,还需要庞大的数据集,来教会模型如何做出正确的反应。支撑这两者的,就是强大的计算能力。

算力、数据和算法是AI的三要素,缺一不可。发布之初,ChatGPT 的背后是GPT-3 模型。这个模型包含了1750亿个参数,使用了45T的数据来训练,训练一次的算力需求大约是 3640 PF-day——也就是说,如果使用每秒钟运算1000万亿次的计算设备,完成一次训练需要3640天。

这还只是训练而已。把AI模型放在现实环境中来回答问题或者采取行动——这被称为“推理”——比训练更耗能。根据芯片巨头英伟达的估计,GPT-3这样的模型,会有80%到90%的成本花在推理而非训练上。

AI的训练和推理之所以需要这么多算力,主要有三方面原因:数据集的膨胀、参数的增长,以及模型的收益递减规律。大致上,数据越多,模型学到的就越多,这和人类的学习类似;而和人类学习不同的是,当在更大的数据集上多次迭代学习时,消耗的能量也会迅速增加。

模型参数增加时,人工神经元之间的连接会呈指数增加,所需的计算量和能量也会飙升。在先前的一个测试案例里,模型的参数数量增加了4倍,而耗能增加了18000倍。

更糟糕的是,模型并不是越大越好,它也同样存在性价比问题。2019年,美国艾伦人工智能研究所(AI2)的研究人员发表了一篇论文,证明了大模型的边际收益递减现象:2017年发布的 ResNeXt 模型和它2015年的原版相比,所需算力增加了35%,但准确率只提高了0.5%。

然而,在找到最优平衡前,人们还是得努力堆算力。OpenAI 公司发表的一篇文章说,从2012年到现在,用于人工智能的计算量增加了30万倍,即大概每过100天,AI的计算量就翻一番。

这大概是AI时代的新摩尔定律。

02

算力:AI时代的摩尔定律

1965年,英特尔公司的联合创始人戈登·摩尔(Gordon Moore)提出了一条经验规律,认为集成电路上可容纳的晶体管数量将会以每两年翻倍的速度增长。这意味着,每过20年,同样大小的集成电路上,晶体管的数量将增加1000倍;每过40年,则是 100万倍。

今天我们所在的信息时代,就建立在摩尔定律的基础上。它一直是计算机技术发展的重要推动力。

从某种意义上说,摩尔定义带来的推动力只是“外因”。计算机技术的发展还需要一点“内因”的影响——它来自人类的天性:玩。

“游戏”和“拥有”的渴望一直刻在我们的基因里,早在“人”这个物种还没有诞生时便是如此。计算机刚被发明出来没有多久,游戏就成了它的重要用途。早在1952 年,美国计算机科学家阿瑟·塞缪尔(Arthur Samuel)就在一台IBM计算机上写出了第一个跳棋程序。后来,他还创造了“机器学习”一词。今天,这个词和“人工智能”经常一起出现。1966年,美国计算机科学家、图灵奖得主肯·汤普森(Kenneth Thompson)为了能继续玩自己开发的“星际旅行”游戏,干脆写了一个操作系统,还顺手设计了一门编程语言。那个操作系统就是后来的Unix。今天计算机上的Linux 和macOS操作系统、手机上的Android和iOS操作系统都可以算成它的近亲。而那门编程语言,就是大名鼎鼎的C语言。

1982年,IBM 推出了个人计算机(PC)。PC游戏的出现顺理成章。更快的硬件会催生更强大的软件,更强的软件会逼迫硬件升级,两者像藤蔓般纠缠在一起。1992年,大受欢迎的3D游戏《德军总部3D》诞生。在3D游戏中,画面渲染计算的难度并不大,但是对计算速度的要求很高。在这类游戏中,环境和角色都是用许多多边形构建起来的。它们的形状和位置取决于顶点的3D坐标。显卡需要对许多顶点执行矩阵乘法与除法运算,才能确定这些模型该如何在平面的屏幕上准确呈现;然后,还需要对每个像素做一番计算,才能确定每个像素的颜色。这些计算需要很快的速度,因为3D游戏往往是移步换景的。

幸好,这些计算难度不高,而且彼此大都是独立的。所以,专门用于显示的显卡应该擅长完成这些并行计算,并能快速传输数据。这样的需求,让计算机显卡的核心图形处理器(GPU) 走上了和计算机CPU不同的道路。GPU可以专为图像处理优化。

在进入新世纪后,摩尔定律失效的苗头越来越明显。加工工艺逐渐接近物理极限,晶体管越来越小,越来越难以制造和集成,散热和电力供应也越来越成问题。于是,多核心逐渐成为主流的解决方案;无论是CPU还是GPU,都朝着多核心的方向一路狂奔。

紧接着,比特币就出现了。

以比特币为代表的加密货币是被计算出来的,这个过程叫做“挖矿”。挖矿需要大量的并行计算能力,每秒钟要执行数百万次。在加密货币价格上涨的日子里,“挖矿”成了利润丰厚的商业活动,为了追求更多的财富,狂热的“矿主”甚至把显卡买到缺货——而这样的需求又进一步刺激了对算力突破的需求。

芯片厂商最初研发GPU的时候,怎么可能会想到,很多年后,这些“游戏装备”竟然被拿来“挖矿”了呢?

03

技术自有安排

没想到的事情,又何止这么一件?

2010年,美国空军买了大约2000台索尼公司生产的PlayStation3游戏主机。这是要让飞行员们通过玩儿游戏来训练吗,还是干脆就是军官们想玩儿游戏了?

都不是。

在物理学家卡纳(Guarav Khanna)的一番操作之后,这些游戏主机被连在一起,成了一台专门用于处理高分辨率卫星图像的超级计算机。它的浮点运算性能比当时市场上的最强显卡还要强至少30倍。即使是10多年后的现在,最强的消费级显卡也只能勉强达到它的1/5。

这显然也是索尼公司和游戏玩家们没想到的事情。不过,倒也不难理解。游戏主机本来就是为了游戏优化的——PlayStation3 使用的芯片,有独立的CPU和GPU协同工作,能利用8个核心来完成双重任务,还可以在所有核之间共享信息。

如今,AI也需要这些能力。今天AI的主要技术是深度学习,而深度学习的基本思想是“联结主义”:尽管神经网络中的单个神经元不具备智能,但大量神经元连接在一起,往往就会“涌现”出智能。关键是神经元数量要多,神经网络规模要大——模型能力的提升关键之一,就是网络规模的变化。

显然,网络规模越大,对计算能力的需求就越高。今天的大型神经网络通常使用 GPU 来计算。因为神经网络所使用的算法,往往会涉及到大量的参数,它们会在每一次训练迭代时更新。要更新的内容越多,对内存带宽的要求就越高,而 GPU 的优势之一就是内存带宽。而且,神经网络的训练算法往往在神经元级别上相对独立且简单,所以还可以利用GPU的并行计算能力来加速处理。

这当然不是显卡的设计用途。但是误打误撞地,显卡成了 AI 时代的基础设施。正是游戏和加密货币,在一定程度上帮助后来的AI打下了这样的“算力底座”。从某种意义上说,这是技术自己的安排。

04

技术总是出人意料

今天,AI已经开始推动社会和工业变革。若是没有显卡,也许我们不会这么快看到AI走进生活。而显卡,源自人们的热情和创新精神,特别是对游戏和加密货币的追逐。这大概算是个有点意外的开端。

著名科学作家里德利(Matt Ridley)在其名作《自下而上》里说,技术创新和生物的演化一样,没有特定的方向,只有在经过一番优胜劣汰之后,最合适的技术才会发展壮大。而某种技术一旦成为主流,又会不断地自我改进。技术像是变成了一种独特的生物,有了自己的发展方向。随着技术进步,那些受到欢迎的技术会继续累积,发展速度会变得越来越快。

凯文·凯利(Kevin Kelly)也有些相似的观点。他在《科技想要什么》中谈到,科技的发展不是线性的,而是充满了曲折和反复;科技的演进往往复杂而不确定,未来的发展往往出乎人们的意料。

所以,AI的耗能问题,也许会有出乎意料的解法。现在人们已经开始尝试让AI不那么耗电,如降低精度、模型压缩、模型裁剪等技术;也在积极探索可再生能源技术的应用,来提供更环保的能源。这当然是个好的开始。

把这个问题留给 AI 来探索,也许会有令人惊喜的答案吧!

作者|猛犸 哈尔滨理工大学

审核|于旸 腾讯安全玄武实验室负责人

来源: 科普中国新媒体

内容资源由项目单位提供