近年来,随着生成式预训练模型(如GPT系列)的快速发展,通用人工智能(AGI)再次成为科学界的热点话题。然而,如何定义和评估AGI的能力,始终是一个悬而未决的问题。传统测试方法如“图灵测试”或任务导向型基准,因局限于语言交互或固定任务场景,已难以满足对AGI全面能力的衡量。近日,一项名为“通测”(Tong Test)的新型评估系统被提出,旨在通过模拟真实世界的动态环境,重新定义AGI的评估标准。

传统评估的局限:为何需要新标准?

自1950年图灵提出“模仿游戏”以来,能否通过人类对话“欺骗”测试者,长期被视为机器智能的“黄金标准”。然而,随着AI技术的演进,这一测试的局限性逐渐显现。例如,语言模型即便能流畅对话,也可能缺乏对物理世界的理解,或在复杂社会场景中无法做出符合人类价值观的决策。此外,现有基准测试(如图像分类数据集或机器人导航任务)多针对单一能力设计,难以评估AI的通用性和适应性。

更关键的是,人类智能的核心并非仅在于解决预设任务,而在于应对动态环境中的无限可能性。例如,一个家政机器人若仅能执行固定指令,却对突发状况(如婴儿哭泣或危险物品处理)束手无策,显然无法胜任真实场景的需求。这种“任务泛化”能力的缺失,正是当前AI与AGI之间的鸿沟。

通测:在虚拟世界中模拟真实挑战

“通测”的核心理念是构建一个高度仿真的虚拟环境,模拟真实世界的物理规则和社会互动(即DEPSI:动态具身物理及社会交互)。在这一环境中,AGI需完成无限生成的任务,并展示自我驱动、价值对齐、因果理解等关键能力。

1. 无限任务与自我驱动
与依赖固定数据集的传统测试不同,通测通过“解析图”(Parse Graph)技术动态生成任务。例如,从“初始状态”(如桌上有一杯水)到“目标状态”(如将水倒入花盆),系统可自动生成千变万化的场景组合。AGI需像人类一样,在无明确指令时主动发现问题并生成解决方案,例如发现植物缺水后主动浇水。这种“自我驱动”能力,是区分AGI与狭义AI的重要标志。

2. 价值对齐:AI的“道德指南针”
若AI仅追求任务效率而忽视伦理,可能引发严重后果。通测首次将“价值系统”纳入评估框架,要求AGI在行动中体现与人类社会的价值观对齐。例如,在模拟家庭场景中,AGI需权衡“服从指令”与“安全优先”的冲突——当孩子要求玩剪刀时,能否拒绝并妥善处理?这种价值判断能力,需通过心理学经典理论(如马斯洛需求层次)构建多层次评估体系。

3. 因果理解与具身交互
人类智能的另一个核心是理解“因果关系”。例如,知道“打翻水杯会导致地板湿滑”,并据此调整行动。通测通过设计需物理推理的任务(如搭建积木或避开障碍物),检验AI是否掌握基本因果逻辑。同时,AGI需以“具身化”形式(如虚拟化身或机器人)与环境互动,确保其能力可迁移到真实世界。

从实验室到现实:通测的意义与挑战

通测的提出,不仅为AGI研发提供了标准化评估工具,也为AI与人类社会的融合铺平道路。例如,在医疗、教育或家庭服务领域,通过通测的AGI能更安全、可靠地适应复杂需求。此外,该系统支持人类与AI的实时交互,例如通过虚拟现实(VR)设备参与测试场景,使评估过程更贴近真实应用。

然而,通测的落地仍面临挑战。首先,如何构建高度逼真且多样化的虚拟环境,需要跨学科合作(如计算机视觉、认知科学)。其次,价值系统的量化评估需平衡文化差异与普世伦理,避免陷入主观性陷阱。最后,确保测试结果的客观性与可重复性,仍需长期验证与迭代。

结语:重新定义智能的边界

从图灵测试到通测,AI评估的演变折射出科学界对“智能”认知的深化。AGI不仅是算法的跃进,更是对人类认知、价值观与物理世界的全方位模拟。通测的提出,标志着AI研究从“任务完成”转向“能力与价值并重”的新阶段。未来,随着这一系统的完善,我们或许将见证首个真正意义上的通用智能体,从虚拟世界走入现实生活。

来源: Engineering