在刚刚过去的春天，我们见证了新世纪以来规模最大的科技狂欢。用“雨后春笋”来形容这几个月人工智能（AI）的发展都会显得过于保守，“大爆炸”可能是更合适的形容——就连原百度总裁、行业大牛、公认“最有干劲”的陆奇博士也说自己“（论文和代码）跟不上了，实在是太多了。”

回想2022年11月30日，新时代的大门突然打开。OpenAI公司发布了ChatGPT，人们惊觉AI重现了AlphaGo的辉煌——而且这次更全面。以GPT-3为代表的生成式人工智能似乎拥有了全面的语言处理能力，而 MidJourney、Stable Diffusion则让绘画不再是人类独有的手艺。接下来的几个月，大语言模型（LLMs，Large Language Models）成了人尽皆知的关键词，微软、谷歌、脸书（Meta）这些互联网巨头重新站回风口浪尖。

国内企业也纷纷发力。百度的“文心一言”、商汤的“日日新”、阿里的“通义”、腾讯的“混元”、华为的“盘古”都亮了相。到5月，各种企业和教学科研机构院校发布的大模型已经超过 30 种，大有“构建新时代 IT 底座”的豪情，真可称得上“日日工业革命，夜夜文艺复兴”。

当然，AI的未来并非没有隐忧。彭博社在2023年3月初的一篇文章中说，谷歌公司每年的用电总量中，有10%~15%是被AI项目吃掉的。这大约相当于亚特兰大50万人整整一年的生活用电量。根据国际数据公司（IDC）的预测，目前AI的能源消耗占全球能源消耗的约3％；2年以后的2025年，这个数字将猛增到15％，与之伴随而来的是对环境的巨大影响。

从这个意义上说，能源是AI的第一个底座。也许AI在造福全人类之前，先会撞上能源之墙。

01 这些能源是怎么被AI吃掉的？

可是，AI为什么会这么耗电？这就牵扯到它的另一个底座：算力。AI是计算密集型技术，在ChatGPT 这样的应用中更是如此。它需要大量算力，自然也需要大量能源。

掀起最近的AI浪潮的，是深度学习（Deep Learning）技术，它会构建分成多层的人工神经网络（即深度神经网络），其中每个神经元都有自己的可调节参数。大语言模型往往意味着数十亿、上百亿甚至更多的参数，这是获得良好结果的保证；而在此基础上，还需要庞大的数据集，来教会模型如何做出正确的反应。支撑这两者的，就是强大的计算能力。

算力、数据和算法是AI的三要素，缺一不可。发布之初，ChatGPT 的背后是GPT-3 模型。这个模型包含了1750亿个参数，使用了45T的数据来训练，训练一次的算力需求大约是 3640 PF-day——也就是说，如果使用每秒钟运算1000万亿次的计算设备，完成一次训练需要3640天。

这还只是训练而已。把AI模型放在现实环境中来回答问题或者采取行动——这被称为“推理”——比训练更耗能。根据芯片巨头英伟达的估计，GPT-3这样的模型，会有80%到90%的成本花在推理而非训练上。

AI的训练和推理之所以需要这么多算力，主要有三方面原因：数据集的膨胀、参数的增长，以及模型的收益递减规律。大致上，数据越多，模型学到的就越多，这和人类的学习类似；而和人类学习不同的是，当在更大的数据集上多次迭代学习时，消耗的能量也会迅速增加。

模型参数增加时，人工神经元之间的连接会呈指数增加，所需的计算量和能量也会飙升。在先前的一个测试案例里，模型的参数数量增加了4倍，而耗能增加了18000倍。

更糟糕的是，模型并不是越大越好，它也同样存在性价比问题。2019年，美国艾伦人工智能研究所（AI2）的研究人员发表了一篇论文，证明了大模型的边际收益递减现象：2017年发布的 ResNeXt 模型和它2015年的原版相比，所需算力增加了35%，但准确率只提高了0.5%。

然而，在找到最优平衡前，人们还是得努力堆算力。OpenAI 公司发表的一篇文章说，从2012年到现在，用于人工智能的计算量增加了30万倍，即大概每过100天，AI的计算量就翻一番。

这大概是AI时代的新摩尔定律。

02 算力：AI时代的摩尔定律

1965年，英特尔公司的联合创始人戈登·摩尔（Gordon Moore）提出了一条经验规律，认为集成电路上可容纳的晶体管数量将会以每两年翻倍的速度增长。这意味着，每过20年，同样大小的集成电路上，晶体管的数量将增加1000倍；每过40年，则是 100万倍。

今天我们所在的信息时代，就建立在摩尔定律的基础上。它一直是计算机技术发展的重要推动力。

从某种意义上说，摩尔定义带来的推动力只是“外因”。计算机技术的发展还需要一点“内因”的影响——它来自人类的天性：玩。

“游戏”和“拥有”的渴望一直刻在我们的基因里，早在“人”这个物种还没有诞生时便是如此。计算机刚被发明出来没有多久，游戏就成了它的重要用途。早在1952 年，美国计算机科学家阿瑟·塞缪尔（Arthur Samuel）就在一台IBM计算机上写出了第一个跳棋程序。后来，他还创造了“机器学习”一词。今天，这个词和“人工智能”经常一起出现。1966年，美国计算机科学家、图灵奖得主肯·汤普森（Kenneth Thompson）为了能继续玩自己开发的“星际旅行”游戏，干脆写了一个操作系统，还顺手设计了一门编程语言。那个操作系统就是后来的Unix。今天计算机上的Linux 和macOS操作系统、手机上的Android和iOS操作系统都可以算成它的近亲。而那门编程语言，就是大名鼎鼎的C语言。

1982年，IBM 推出了个人计算机（PC）。PC游戏的出现顺理成章。更快的硬件会催生更强大的软件，更强的软件会逼迫硬件升级，两者像藤蔓般纠缠在一起。1992年，大受欢迎的3D游戏《德军总部3D》诞生。在3D游戏中，画面渲染计算的难度并不大，但是对计算速度的要求很高。在这类游戏中，环境和角色都是用许多多边形构建起来的。它们的形状和位置取决于顶点的3D坐标。显卡需要对许多顶点执行矩阵乘法与除法运算，才能确定这些模型该如何在平面的屏幕上准确呈现；然后，还需要对每个像素做一番计算，才能确定每个像素的颜色。这些计算需要很快的速度，因为3D游戏往往是移步换景的。

幸好，这些计算难度不高，而且彼此大都是独立的。所以，专门用于显示的显卡应该擅长完成这些并行计算，并能快速传输数据。这样的需求，让计算机显卡的核心图形处理器（GPU）走上了和计算机CPU不同的道路。GPU可以专为图像处理优化。

在进入新世纪后，摩尔定律失效的苗头越来越明显。加工工艺逐渐接近物理极限，晶体管越来越小，越来越难以制造和集成，散热和电力供应也越来越成问题。于是，多核心逐渐成为主流的解决方案；无论是CPU还是GPU，都朝着多核心的方向一路狂奔。

紧接着，比特币就出现了。

以比特币为代表的加密货币是被计算出来的，这个过程叫做“挖矿”。挖矿需要大量的并行计算能力，每秒钟要执行数百万次。在加密货币价格上涨的日子里，“挖矿”成了利润丰厚的商业活动，为了追求更多的财富，狂热的“矿主”甚至把显卡买到缺货——而这样的需求又进一步刺激了对算力突破的需求。

芯片厂商最初研发GPU的时候，怎么可能会想到，很多年后，这些“游戏装备”竟然被拿来“挖矿”了呢？

03 技术自有安排

没想到的事情，又何止这么一件？

2010年，美国空军买了大约2000台索尼公司生产的PlayStation3游戏主机。这是要让飞行员们通过玩儿游戏来训练吗，还是干脆就是军官们想玩儿游戏了？

都不是。

在物理学家卡纳（Guarav Khanna）的一番操作之后，这些游戏主机被连在一起，成了一台专门用于处理高分辨率卫星图像的超级计算机。它的浮点运算性能比当时市场上的最强显卡还要强至少30倍。即使是10多年后的现在，最强的消费级显卡也只能勉强达到它的1/5。

这显然也是索尼公司和游戏玩家们没想到的事情。不过，倒也不难理解。游戏主机本来就是为了游戏优化的——PlayStation3 使用的芯片，有独立的CPU和GPU协同工作，能利用8个核心来完成双重任务，还可以在所有核之间共享信息。

如今，AI也需要这些能力。今天AI的主要技术是深度学习，而深度学习的基本思想是“联结主义”：尽管神经网络中的单个神经元不具备智能，但大量神经元连接在一起，往往就会“涌现”出智能。关键是神经元数量要多，神经网络规模要大——模型能力的提升关键之一，就是网络规模的变化。

显然，网络规模越大，对计算能力的需求就越高。今天的大型神经网络通常使用 GPU 来计算。因为神经网络所使用的算法，往往会涉及到大量的参数，它们会在每一次训练迭代时更新。要更新的内容越多，对内存带宽的要求就越高，而 GPU 的优势之一就是内存带宽。而且，神经网络的训练算法往往在神经元级别上相对独立且简单，所以还可以利用GPU的并行计算能力来加速处理。

这当然不是显卡的设计用途。但是误打误撞地，显卡成了 AI 时代的基础设施。正是游戏和加密货币，在一定程度上帮助后来的AI打下了这样的“算力底座”。从某种意义上说，这是技术自己的安排。

04 技术总是出人意料

今天，AI已经开始推动社会和工业变革。若是没有显卡，也许我们不会这么快看到AI走进生活。而显卡，源自人们的热情和创新精神，特别是对游戏和加密货币的追逐。这大概算是个有点意外的开端。

著名科学作家里德利（Matt Ridley）在其名作《自下而上》里说，技术创新和生物的演化一样，没有特定的方向，只有在经过一番优胜劣汰之后，最合适的技术才会发展壮大。而某种技术一旦成为主流，又会不断地自我改进。技术像是变成了一种独特的生物，有了自己的发展方向。随着技术进步，那些受到欢迎的技术会继续累积，发展速度会变得越来越快。

凯文·凯利（Kevin Kelly）也有些相似的观点。他在《科技想要什么》中谈到，科技的发展不是线性的，而是充满了曲折和反复；科技的演进往往复杂而不确定，未来的发展往往出乎人们的意料。

所以，AI的耗能问题，也许会有出乎意料的解法。现在人们已经开始尝试让AI不那么耗电，如降低精度、模型压缩、模型裁剪等技术；也在积极探索可再生能源技术的应用，来提供更环保的能源。这当然是个好的开始。

把这个问题留给 AI 来探索，也许会有令人惊喜的答案吧！

作者｜猛犸哈尔滨理工大学

审核｜于旸腾讯安全玄武实验室负责人

来源: 科普中国新媒体

内容资源由项目单位提供

技术演进的意外结果：游戏与加密货币怎么就成了AI的“算力底座”？

01

这些能源是怎么被AI吃掉的？

02

算力：AI时代的摩尔定律

03

技术自有安排

04

技术总是出人意料

科普中国系列品牌网站

入驻科普号

合作机构