要说近期AI圈什么最火,绝对非ChatGPT莫属。这个基于OpenAI最新大语言模型GPT-4的史上最强聊天机器人,几乎从诞生第一天起就已「火爆出圈」,成为了从用户到资本竞相追逐的香饽饽,几乎每天都会占据AI新闻的头条。

ChatGPT的横空出世,离不开背后大语言模型GPT-4的支撑,这个坐拥全球海量用户数据,汇聚高效训练算法的大模型,堪称过去数年来形形色色大模型中的扛鼎之作。

图片来源:pixabay

大模型这个名字本身足够直白。这里的「大」指的是机器学习模型的规模,最主要的量度是模型包含的参数量。

实际上,自谷歌于2017年首次提出Transformer模型以来,大模型就开始走上了一条快速发展之路。与以往的大模型相比,ChatGPT可以通过学习自然语言中的逻辑和上下文关系,做到近乎实时地完成对话生成和机器翻译等语言处理任务。

一、BERT首开先河

以Transformer的面世为契机,谷歌在接下来的很长时间里都走在了大模型领域的前列。

2018年,谷歌发布基于Transformer的BERT,成为NLP大模型发展的里程碑和分水岭。在参数量方面,BERT 12层模型参数量达到1.1亿,24层模型更是达到了3.4亿。与传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练相比,BERT采用新的掩码语言建模(MLM),能生成深度的双向语言表征。

新方法带来了立竿见影的性能提升,BERT在11个NLP任务中获得了最好的SOTA结果,几乎把能刷的榜单刷了个遍,引发业界震动。

BERT的问世,在全球范围内迅速掀起了一股大模型的狂潮。越来越多的科技巨头开始在大模型上发力,而BERT的3.4亿参数,仅仅是个起点。

从十亿,到万亿

2019年,OpenAI推出了15亿参数的GPT-2,具备生成连贯文本和初步的阅读理解、机器翻译等功能。紧接着,英伟达发布了威震天(Megatron-LM),参数达到83亿;谷歌推出T5模型,参数达到110亿;微软推出「Turing-NLG」模型,参数量增至170亿。

从十亿级到百亿级,大模型在一年内迈出了重要步伐。之后,大模型进一步跃升,完成了从百亿到千亿、万亿参数的三次飞跃。OpenAI于一段时间后推出了1750亿参数的GPT-3,它不仅能写文章、回答问题、翻译,还具备多轮对话、敲代码、进行数学计算等多种能力。

随后,谷歌发布了Switch Transformer架构,将语言模型的参数量扩展到了1.6万亿,再次刷新了大模型的参数纪录。后来,谷歌大脑的Jeff Dean与斯坦福大学副教授、基础模型创始人Percy Liang等人发表论文,指出大模型具有「涌现」效应,通过扩大模型参数,让大模型获得之前不具备的新能力,这一过程是不可预测的。该论文为大模型参数进一步扩大提供了理论依据。

除了国外科技企业,国内企业和科研机构也投入大量资源。百度发布了预训练大模型文心ERNIE 1.0,后来将其应用到搜索业务,赋予搜索相关性、深度问答和内容理解等功能。

随后,中国AI学界推出了第一个超大规模预训练模型「悟道」。不久后,1.75万亿参数的「悟道 2.0」问世,在预训练模型架构和微调算法上实现了理论创新,在多个AI性能测试榜单上取得了领先地位。

目前,华为、阿里巴巴、浪潮等国内企业都相继推出了自己的大模型,一时间已成百花齐放、遍地开花之势。

三、AI新赛道前途无量

最近,IDC发布《2022中国大模型发展白皮书》。数据显示,自2020年起,国内大模型数量骤增,仅2020年到2021年,便从2个增至21个,和美国量级同等,大幅领先于其他国家。

IDC预测,2026年中国人工智能软件及应用市场规模将达到211亿美元,对于开发门槛高、应用场景复杂多样、对场景标注数据依赖等问题,大模型可能成为最有效的解决方法。

而针对模型规模过大,训练成本太高等问题,国内外的企业和研究机构正朝着专一化、精细化的应用落地方向不断探索。

由于大模型「一次开发,终身使用」的特性,后续应用无需投入大量标注数据及从头训练调参,应用效率明显提升。另一方面,大模型的出色泛化能力,也为其在不同领域大展身手创造了条件。

放眼未来,可以预见的是,千亿万亿级参数的「巨无霸」不再是高高在上的庞然大物,而会化作一个个天才作家、画家、音乐家和诗人,为人类文明添砖加瓦。

文章由科普中国-星空计划(创作培育)出品,转载请注明来源。

作者:管心宇 科普作者

审核:于旸 腾讯玄武实验室负责人

来源: 星空计划

内容资源由项目单位提供