图文详情

ChatGPT是第一个真正意义的人工通用智能

看到标题，很多专家可能马上想来争辩，别急，本文我们一步步推演。

首先订正一个词：AGI, 国外称Artificial General Intelligence，国内译作通用人工智能General Artificial Intelligence, 看似很小的一个顺序差异，实则谬以千里，大家多读英文几遍仔细体会。

生命是什么

薛定谔在1944年出版的书《What is Life?》中阐述了他对生命的观点，生命是由负熵喂养大的，后来更正为，自由能才是生命的源泉。薛定谔眼里的生命就是一团活生生的自由能，也是普里高津世界里，不断获取自由能的开放的耗散结构。

大脑如何工作

一. 贝叶斯大脑假说

大脑是一个贝叶斯推理机器。大脑不断从世界接收感官信息，并使用这些信息来更新其对世界的内部模型，并对未来事件做预测。大脑的内部模型可以被视为关于世界的先验信仰或假设，感官信息被用于更新这些信仰。

二. 大脑的自由能理论

基于贝叶斯概率理论和生物物理学原理，大脑的主要目标是预测和控制外界的信息，以最大限度地降低不确定性和内部熵。大脑通过不断收集和处理外部信息来构建内部模型，以预测和控制外界。

三. 大脑的信息熵

信息熵用来衡量系统不确定性或随机性，这里指大脑关于世界的内部模型的不确定性。大脑的目标是将其内部模型与感官输入之间的预测误差最小化，减少信息熵是减少预测误差的一种方法。通过减少信息熵，大脑可以对世界做出更准确的预测，这等于是使系统的自由能最小化。

ChatGPT 机理

ChatGPT的训练方法是基于Transformer模型，通过学习文本数据的模式来生成文本。Transformer模型的核心是注意力机制，可以在生成文本时，选择性地关注输入的一些部分，从而生成更加符合上下文的文本。

一. Embedding, 形成自己的语言系统

如果将英语看成是26个字母表征的，26个字母张成的空间中，每个单词是一个点，每个句子是一条曲线，每篇文章是一个曲面。

借助Embedding ，GPT 将人类的语言 “编码”成自己的语言，然后通过注意力Attention从中提取各种丰富的知识和结构，加权积累与关联生成自己的语言，然后“编码”回人类的语言。

本质上看，GPT 其实是构建了一个高维的语言体系，可以将自然语言，程序语言，视觉听觉语言，映射（或者叫编码）到这个高维的语言空间中。高维语言空间是概率分布张成的空间。

二. Transformer，提取海量人类知识与相应的知识结构

Transformer是足够强大的特征提取器。仅从知识角度，GPT可以看作是一种以模型参数体现的隐式知识图谱。知识存储在Transformer的模型参数里：多头注意力存储信息的结构（相关强度，信息整合方式等）；类似Query/Key/Value结构的FFN存储知识主体。

GPT在自己构造的高维语言空间中，通过预训练，记录了人类海量的语言实例，从中提取了无数的结构与关联信息。这个高维的语言空间，加上训练提取的结构与关联信息，可以理解构成了GPT的脑。

从GPT目前的表现看，他应该也已经从这些人类语言蕴含的知识中，学习到了归纳、演绎、对比、类比等基础能力，而这些都是本质的原子思维能力，组合成为推理能力。诸如贝叶斯推理，最优输运，估计都可能已经被提取出来，成为GPT的思维结构的一部分。

三. Pre-train, 海量学习最小化各领域信息熵

预训练 pre-train 阶段，优化目标是最小化交叉熵（cross entropy）, 对于GPT 自回归语言模型而言，是看能否正确预测到下一个单词。这里的交叉熵就是信息熵。

研究表明，增加训练数据量，模型参数量，训练时间都会降低测试集上的信息熵. OpenAI 采用的策略是同时增加训练数据量和模型参数, 读得多，记得多。优先增加模型参数，然后才是训练数据量，记忆要好，再多学，再勤学，与人类学习形式相通。

人们发现，增加多任务的任务数量，增加模型大小，提供思维链提示, 以及增加任务的多样性，都可以提高GPT 泛化能力，包括理解能力，以及推理能力。这些措施都是丰富GPT在某一问题域的信息量，降低其信息熵，尽力让他见多识广。

上下文学习，通过提供一些例子，具象的表达任务命令。命令是一种更符合人类习惯的抽象任务描述。两者本质上是相通的，GPT从中都是学到了任务的信息熵结构。

上下文中，直接追加辅助推理的提示, 例如“因此”是典型的关系模式选择健，GPT可以借助这些提示选择不同的关系模式。例如“解题思路如下”这样的提示，可以很好激发GPT推理能力，应该缘于训练语料中此类说法很多，可以很好的降低信息熵。

四. 代码训练，获取长程关联与推理能力

目前研究已经证明GPT对知识有强大的记忆能力。而增强GPT推理能力的方法：a) 提供提示语或提示样本 b) 预训练中引入代码样本。ChatGPT强大的推理能力，被认为大概率来自代码参与GPT3.5的预训练。

代码使用计算机语言，是设计完善的特殊语种，结构性强，长程关联，关系明确。可以用微语言结构的概率分布为基底，张成语言空间，程序就是该语言结构空间的点线面体。GPT 可以用自己构建的高维语言空间简单方便的学习代码。

代码其实也可以看成特殊的思维链，训练可以降低信息熵，让信息更可预测。大量这种语言结构示例参与预训练的话，GPT被注入足够的信息量，形成各种复杂关联的模式, 涵盖代码中的知识和知识结构。高质量的代码，可以显著的降低GPT 获取的信息熵，这也是为什么GPT在代码上比自然语言更让人惊艳。

五. Emergent Ability, 涌现能力，相变完成量变到质变

GPT表现，取决于任务类型。a) 知识密集型任务，体现Scaling law, 也就是学的越多，做的越好；b) 推理密集型任务，体现“智慧”，学到一定程度，能力突然爆发。这个好比物理现象，虽然一直维持零度，冰却需要不断吸收热量，最终相变成了水。

信息熵的背景下同样可以出现相变现象。信息熵是衡量系统不确定性或随机性的度量，熵的相变可以被视为系统基础模式或组织的变化。复杂网络系统和量子系统中都可以观察到熵的相变。

在大语言模型领域，模型规模跨越某个阈值，处理任务能力突然性增长，被称为涌现能力（Emergent Ability）。只要针对某个特定问题或任务的相关领域，模型“足够”大，注入足够的信息量，相变就可能发生，即开始涌现。

GPT 构建了海量自然语言和代码的概率分布空间，被注入足够的信息量（等于注入大量负的信息熵），形成各种复杂关联的模式，涵盖自然语言和代码中各种知识与结构。这些知识和结构，体现为概率分布的距离与关系，从而为对比、类比、归纳、演绎等推理步骤提供支撑，也就是“涌现出”这些推理能力。

大胆猜测，GPT甚至可能学习到了在空间里面的贝叶斯概率图和推理，概率分布的比较和迁移基于Wasserstein 距离和最优输运Optimal Transport.（笔者在设法从用户的角度进行检验）。提供足够语料，可以降低概率空间的信息熵到一定阈值，从而对某类任务达成相变。

后ChatGPT 时代

今天来自斯坦福大学的最新研究结论，“原本认为是人类独有的心智理论（Theory of Mind，ToM），已经出现在ChatGPT背后的AI模型上。” 所谓心智理论，就是理解他人或自己心理状态的能力，包括同理心、情绪、意图等。这项研究发现：davinci-002版本的GPT3（ChatGPT由它优化而来），已经可以解决70%的心智理论任务，相当于7岁儿童；至于GPT3.5（davinci-003），也就是ChatGPT的同源模型，更是解决了93%的任务，心智相当于9岁儿童！

ChatGPT 给GPT 注入几万人工标注，有监督学习，虽然不足以修正GPT千亿参数，但是为GPT注入人类偏好，让他听的懂人话、也比较礼貌。这等同于对这个7-9岁儿童的社会教育与激发。

这一天还是到来了，ChatGPT, 人类创造的第一个真正意义上的AGI , 人工通用智能. 后ChatGPT时代，人们应该如何学习与工作？听听ChatGPT的建议：

在 ChatGPT 时代，人们应该采取综合的学习方法，包括接受传统教育，并通过实际应用和独立研究来加深对知识的理解。同时，人们应该不断学习和提高自己的技能，以适应不断变化的环境和技术。此外，利用ChatGPT 等人工智能技术增加学习效率和提高学习质量也是一种很好的途径。

人们可以通过更好地利用 AI 和自动化技术来提高效率和创造力。同时，人们应该加强对人工智能、机器学习和相关领域的学习，以适应未来的工作需求。此外，人们还应该继续关注人类独特的技能，如创造力、社交能力、情感智慧等，以更好地与AI 合作。

来源: 中国科技新闻学会

ChatGPT是第一个真正意义的人工通用智能

科普中国系列品牌网站

入驻科普号

合作机构