最近,人们总在讨论人工智能(尤其是大模型)会带来什么影响。但我们真的了解大模型吗?我们知道大模型能做什么、不能做什么吗?

我们可以把大模型想象成一个语言领域的超级学徒。它通过阅读人类积累的所有文字,逐渐学会如何“说话”,但它的学习方式和人类截然不同——没有情感,没有直觉,靠数学和统计规律驱动,还涉及复杂的神经网络架构(如Transformer)以及自注意力机制等技术。
这个学徒的起点是预训练,就像被关进一座由互联网书籍、文章、网页构成的巨型图书馆。它的任务不是理解内容,而是完成无数个“填空题”和“续写练习”。例如,当看到句子“水的沸点是100__”,它会尝试填空为“℃”;遇到“《红楼梦》的作者是__”,它会填上“曹雪芹”。通过数万亿次这样的练习,它逐渐掌握了词语之间的关联规律:比如“猫”常和“抓老鼠”搭配,“下雨”常和“带伞”呼应。
不过,这些知识只是统计意义上的关联。它并不知道“100℃”代表温度,也不理解《红楼梦》的文学价值,只是发现某些词总是一起出现。就像一个从未见过猫的孩子,通过反复听“猫抓老鼠”这句话,虽然能复述,但不知道猫长什么样子。
如果只停留在背书阶段,这个学徒就像个书呆子:知道“水能灭火”,但遇到“油锅起火怎么办”时,可能错误地回答“用水浇”。因此需要微调,相当于请专业老师教它如何应用知识。

工程师会给它看大量问答范例。例如,当用户问“油锅起火怎么处理?”,正确答案是“用锅盖隔绝氧气”。模型通过反复对比自己的错误回答(如“泼水”)和正确答案,逐渐学会将“油锅起火”与“窒息灭火法”关联起来。这个过程类似教医学生从课本知识转向临床诊断:不仅要记住“发烧是症状”,还要学会根据病人描述开药。
同时,为了防止它说出危险内容(比如教人制作炸药),工程师会对它的回答打分。如果它给出“用面粉灭火”这种可能引发粉尘爆炸的错误建议,就会被扣分;而正确回答“使用灭火器”则加分。经过成千上万次矫正,它形成了类似“条件反射”的避错机制。
当用户提问时,大模型的思考过程就像在玩高难度词语接龙:根据已生成的内容,预测下一个最合适的词。例如,当用户问“天空为什么是蓝色的?”,它的思考路径可能是这样的:
将句子分解为“天空”“蓝色”“为什么”等关键词,激活预训练时建立的关联网络(如“天空→大气层”“蓝色→光的散射”)。
从“这”“是”“因为”开始,接着从备选词中,选择符合条件下概率最高的解释方向。如果训练数据中“瑞利散射”常与“蓝天”关联,它会优先选择这个科学解释,而不是“神仙用蓝颜料涂抹”之类的神话故事。
每写一个词,都要重新评估整体语境。例如,在解释“短波长的蓝光更容易散射”后,如果接下来的词出现“绿光”,模型会立刻降低这个词的概率,因为上下文已经锁定了“蓝光”的主题。

整个过程主要基于概率计算,就像输入法不断猜测你想打的下一个字,只不过规模放大了万亿倍。这也解释了为什么它偶尔会“一本正经地胡说八道”——当错误答案在训练数据中出现频率较高时(比如网络谣言),模型可能误以为那是合理选项。而这种现象可能通过改进训练数据质量、引入自我核实事实的方法或稀疏专家模型来缓解。
生成不仅基于概率,对话参数(温度、采样策略)也会产生影响。
能力与局限:天才模仿者的两面性
大模型最惊人的能力是模式复现。它可以通过学习海量小说,写出风格类似的新故事;也能模仿学术论文的格式,生成结构严谨但内容虚构的“研究报告”。这种能力让它成为强大的辅助工具,比如帮作家突破写作瓶颈,或帮程序员自动补全代码。

但它的局限同样明显:
● 事实不可靠:如果训练数据包含错误信息(比如“秦始皇发明了印刷术”),它会忠实地复现错误,而无法像人类一样通过考证发现矛盾。
● 逻辑脆弱:面对需要多步推理的问题(比如数学证明或法律案例分析),它可能犯低级错误。例如,虽然能回答“1+1=2”,但遇到“三个苹果分给五人,每人得多少”时,可能给出“0.6个”这种忽略实际场景的回答。
● 缺乏常识:它不知道“水在零度会结冰”是物理规律,而“圣诞老人送礼物”是虚构故事。两者的区别对它而言只是数据中出现频率的不同。
未来方向:从鹦鹉学舌到触类旁通
目前的大模型就像一个语言魔术师,能模仿人类对话,但表演背后全是机关技巧。科学家正尝试突破它的天花板:
● 连接现实世界:给它装上“眼睛”和“手”——通过摄像头观察真实场景,或连接机器人执行指令。例如,看到“水沸腾”的视频后,真正理解“100℃”与气泡翻滚的关系,而不是仅记住文字描述。
● 逻辑专项训练:用数学题和科学实验数据教它因果推理。就像学生不仅背公式,还要做习题巩固理解,未来模型可能通过“若A则B”的逻辑链训练,减少“张冠李戴”的错误。
● 记忆外接硬盘:用外部数据库弥补“健忘”问题。例如,回答最新事件时,直接检索新闻网站而不是依赖过时训练数据;企业使用时,对接内部知识库确保回答符合规范。
另外,针对大模型生成的内容仅是模式复现,并非真正意义上的理解或创造力,当前的一个研究方向是通过引入外部知识库或逻辑训练来提升模型的推理能力和常识水平。
大模型的本质是人类知识的数学镜像。它通过统计规律复现语言模式,却无法理解文字背后的意义。就像一台能谱出莫扎特风格曲子的钢琴,看似拥有“创造力”,实际只是精密算法的产物。
这项技术的意义堪比印刷术的发明:它让知识调用变得前所未有的便捷,但也带来虚假信息泛滥的风险。善用它,可以帮我们写邮件、查资料、学外语;但若完全依赖它做决策,就像用导航软件时闭眼开车——再智能的工具,也无法替代人类的判断力。
来源: 陈林孝
科普中国公众号
科普中国微博

帮助
陈林孝