观点丨OpenAI断供下的“危”与“机”:中国AI如何扬帆远航?
OpenAI“断供”有“危”也有“机”。大模型是西方发明的“轮子”,而今天的中国已经进入了“造车”时代。
(图片来源:视觉中国)
7月9日,OpenAI正式终止对不在其支持列表中的国家和地区(包括中国内地及中国香港)提供API服务,这对国内很多基于OpenAI大模型构建的创业应用生态无疑是一个巨大打击。虽然在OpenAI6月25日发布警告信的当日,国内大模型厂商就纷纷表态可提供免费的OpenAI迁移方案,但两个世界的“脱钩”状态似乎已经开启,越来越多基于大模型的商业链条开始被切断。
当然,“危”和“机”常常是并存出现,密不可分。针对OpenAI的“断供”,国内市场上同时也出现了另外一种声音,即把这个事件看成一种巨大的机遇,刚好可以借此机会培养国内的搜索引擎。
从“深蓝”到AlphaGo,再到今天的ChatGPT,人工智能走过了符号主义的知识封装、连接主义的知识学习,走到了今天的生成式泛化表达能力阶段,并开始参与到生产实践。OpenAI的GPT大模型作为人工智能的明星项目,我们听过太多追捧的声音,导致对其过度的神秘化,与之伴随的是自我矮化心理。此次的“断供”,也再次加重了这种心理。
其实,在北美市场,基础大模型的发展已经从Training(单一模型训练)发展为Serving(多元化、工业化、基础设施化)。我国人工智能的发展要如何摆脱依赖、实现优势破局、定义好自己的生态位?这需要找到我国技术的独特发展演化路径。
目前人工智能市场有两条核心路径,一种是无条件相信尺度定律(Scaling laws),相信只要把数据喂进去就会涌现机制。用算力和数据堆积给已有算法实践Transformer(一种序列化深度学习算法框架),这种路径是在已知知识结构里去寻找未知拼接的方法,能力有限,就像看着教科书学游泳一样,大概率会遇到模型基础理论的天花板。因为在已知中组合筛选获得的知识,一定概率上只能补齐现有知识拼图,但无法开辟新的知识蓝海。就像通过大量实验发现新的元素,可以补全门捷列夫发现元素周期表,但不能诞生量子力学对基本粒子的理论和元素生成公式,更不可能产生牛顿的“加速度”阿拉伯数字“零和无穷大”这样的观念革命的知识。
而当前,谷歌、微软、亚马逊、Hugging Face等云厂商已开始不再依赖单一大模型,而是跟更多系统架构配合,组成一个务实的AGI工程架构。6月,谷歌发布的大模型成熟度参考架构定义了从L0到L6 的分级,调用GPT直接使用单一大模型的能力仅是L0水平。加入提示词工程、精调模型LoRA的意图理解、向量数据库寻回私域数据的记忆、Agent规划拆解、plugin执行和反思等,通过合成数据逐步完善大模型成熟度到更高等级,这是人工智能市场的第二条路径。
可以这样类比,大模型是西方发明的“轮子”,而今天的中国已经进入了“造车”时代。蒸汽机虽然在英国诞生,但在北美将其装到木船上,造就了轮船业的辉煌。我国人工智能领域的发展,如何从“重新发明轮子”到快速引领智能产业的“造车运动”,需要抓住以下“CAB”基础问题的本质,才能实现高水平科技的自立自强和优势破局。
C、算力——自力更生策略:硬件芯片最早投入布局,英伟达在生态上的垄断和贸易禁运,给了国产芯片留出了独立发展空间。
A、算法——跟随融合的缠斗策略:人工智能最底层核心逻辑是以数学形态在论文上得以表达,包括数据处理的方法和数据集。甚至实践代码都在以科学共享的形式争相发表,科学无国界。为了更多引用,论文往往会以最快速度以跨国别的形式传播。奇绩创坛创始人兼CEO陆奇曾说过,从中关村到硅谷的距离是一个小时的时差——其实指的就是基础算法层级和开源技术框架。数据科学家们为了使自己研究成果尽快地发表,甚至跳过了像IEEE、CVPR大型顶会论文的审核机制,直接在arXiv网站上注册发表,学术论文开始以天为单位在更新。打破中美科技壁垒的不是“拿来主义”,而是高索引引用的论文,论文不仅提供研究方法路径,依赖的基础模型组件也提供了数据的流动,像指南一样。
B、数据——优势破局策略:硬件芯片遵循的摩尔定律仍是一个线性增长逻辑,但生成式合成数据遵循的却是幂律(Power Law)指数型增长,只有抓住数据工程的幂律才能超越硬件的发展速度。
▲合成数据(synthetic data)在自动驾驶、机器人等特定领域的应用中将发挥重要作用(图片来源:天云数据)
6月14日凌晨,OpenAI在官网宣布,美国陆军退役四星上将、前美国网络司令部司令、前国家安全局局长、前中央安全局局长Paul M. Nakasone(中曾根)加入董事会。毫无疑问,他的岗位职责瞄准了OpenAI两年来沉淀的提示数据。而据SBS等韩媒报道:三星刚引入ChatGPT还不到20天,就发生了3起机密数据泄漏事件,其中甚至涉及三星半导体设备的测量资料、产品良率等关键信息。
问题往往会导向答案,而获取信息的过程本身也是信息。无独有偶,近期英伟达大模型一下子跻身第一阵营,为什么?英伟达开源3400亿巨兽,训练数据方面值得一提的是,指令模型的训练是在98%的合成数据上完成的。Nemotron-4 340B指令模型,可以帮助开发者生成合成训练数据。这些多样化的合成数据,模仿了真实世界的数据特征,因而数据质量明显提升,从而提升了各领域定制LLM的性能和稳定性。
如何让国内AI领跑世界是一道综合考题:在产品线方向,不能“拿来主义”,不能被“卡脖子”,不能有明显短板且要有显著优势,才有可能在国际竞争中占据有利高地。此外,创新环境对于技术成长、人才培养、产业生态的形成也非常关键,除了企业,也需要政府、生态共同匹配发展进程。例如,在人才培养上,政府应该提早布局AI版的“蓝翔技校”。包括对AIGC内容再生产,培养新技能蓝领以改变算法生成的猜盲盒过程,打造人机交互的流水线。
从产业链破局方向上,AI Pin、Vision Pro等可穿戴的个人智能代理Personal Agent的出现,Figure具身机器人(Embodied AI)的探索,这些Edge AI的新兴都需要整合全新的智能硬件产业链。
类似AI Pin这样融合了电容触摸、HUD、手势识别、数模唤醒等成熟的硬件技术及大模型服务的载体,就可以发挥我国全产业链精密制造的优势,快速跨界迭代一批生成式人工智能的智能硬件。
要想加快推动我国人工智能的产业变革,也需要政府部门、教育机构、高校研究机构共同发力。例如政府可以充分发挥产业园区的优势,整合企业、高校、科研院所等上下游的创新资源产业链,协同攻关科技难题。
来源: 北京科技报社
内容资源由项目单位提供