图文详情

一、回望 AI 发展历史

人工智能是一个比较久远的话题，到今天这一轮的人工智能热潮中，它已经有了不少落地的场景。如果讲人工智能的发展，我们需要回望一下历史，从过去的历史发展规律可以看到人工智能在产业、学术、技术方面发展的一些规律。

人工智能是在 1956 年美国的达特茅斯会议上第一次被提出的。此时人工智能已经有了一些突破，比如 1958 年发明了改进的减枝算法，大大降低了对抗性搜索复杂度，让计算机能够和人类棋手做一些对决，使人工智能发展有了非常大的爆点；还有利用类脑的机理去做感知机算法也有了一些进展，尤其是在图像领域，上世纪 60 年代计算机的处理能力虽然非常弱，但也可以做一些简单识别。当时人工智能的先驱西蒙说到，再过 20 年机器或者人工智能算法就可以完成任何工作，所以，美国政府及相关的资助就进入了人工智能领域。1969 年，在麻省理工学院任教的人工智能奠基者之一的马文 ● 明斯基（Marvin Minsky），在他的著作《感知器》中对当时大家寄予厚望的感知器算法提出了质疑，证明了线性分类的感知器模型不能解决最基本的异或逻辑，存在很大缺陷。此后，人工智能进入了低潮，政府的关注点慢慢变少，这是一个从充满期望到一盆冷水的过程。

二、数据 + 算法 + 算力

当我们看到这一轮以大数据为代表的新人工智能算法革命出现时，又想到这是否又是一次“狼来了”，是不是另一个泡沫来袭的场景？和以往几次人工智能高潮不同，在这次人工智能的变化中，形成了数据、算法和算力三轮驱动的要素。第二次人工智能浪潮中，发明了专家系统的人工智能方法，基于小数据的专家知识。比如在医疗行业里，我们总结出一些规律放到机器里，对特定的疾病，机器可能具有超过一般医生的判断能力，这是基于专家知识的能力。随着互联网的发展，数据规模爆炸性增长，能不能设计新算法来理解这些海量数据中暗藏的规律？基于人工神经元网络的深度学习算法脱颖而出。深度学习算法可以随着数据规模的增大，学习的网络层次越来越深，性能越来越好，这是以前机器学习算法不具有的。因为有海量数据和运算复杂度极高算法的带动下，人工智能制造了一个对于大算力的需求。起点在 2009 年，GPU 被用来做深度学习训练。当时组织了一个 ImageNet 的图像分类比赛。数据中搜集了很多互联网图像数据，GPU加深度学习技术完胜传统基于图像特征提取的视觉领域经典算法。当深度学习被引入后，发现它有一个非常好的能力，就是利用复杂的神经元网络结构，通过大数据的学习，从中自动发现一些特征。人们把深度学习和 GPU 引入后就发生了一些魔幻效应，在各种模式识别的任务中将正确率提高了很多，不断打破记录。

最近有个新方法叫做预训练方法。人工智能的传统方法需要做标注，如果用计算机识别一个苹果，需要给它提供各种苹果的照片，若做的更好一点，可以把苹果的外围勾勒出来。有没有方法把数据放进去让它自己学习？在自然语言领域，研究人员提出了基于深度学习的预训练方法。其优点是不需要标注数据。因为语言有特点，语言之间有规律，机器阅读大量语言就可以总结出这种规律。利用预训练模型得到的语言模型用于自然语言领域的一些评测，包括问答、对话等场景 , 准确率得到了大幅度提升。从另一角度，预训练模型展示了它“可怕”的一面，处理的数据越多，模型参数越大，其效果也越好。这时我们就想能否把全世界的数据都给它，构成一个非常庞大的模型。

三、人工智能超级模型

2019 年开始，预训练模型可以消耗大量数据，利用现有人类知识可以在上面探索，现在模型参数规模已经到了万亿、10 万亿，甚至百万亿的水平。达摩院做的中文多模态预训练模型 M6，以前把文本输给它后可以做一些问答等模式；现在把各种模态给到它就可以是多模态地进行预训练。图 1 示出了一个超大规模预训练模型的应用场景，比如，我们在电商网站上看到一个产品描述，在百科全书上有一张照片，都可以放到模型里学习。再比如，在阿里电商的场景中，一个厂家如果要卖一件东西，能不能让它自动输出一个广告语？如果一个专业的零售行业专家写出一段不错的描述，吸引买家来买这件衣服，我们把历史数据交给计算机后，大模型就可以把关键点找到。你输出一张图后，计算机就可以自动配一段文字介绍，试着从买家角度把它的优点体现出来，配词也非常巧妙。这个计算机模型可以无限输出，每次输出不同。类似的，比如输入文字“棉衣外套”，大模型本身并不理解这句话的内容，而是它在数据模型里已经关联了每个字、词和图像，就可以生成很多的衣服链接给你；可以把很多想象不到的词放到里面，生成很多有意思的场景。

图 1 超大规模预训练模型的应用场景

当人工智能的数据、算法、算力达到一定程度后，就具备了普通人不具备的能力。比如给一个商品的文本描述就可以自动生成该商品造型设计，好像就有了设计师的能力；可以在文字里加入一些特别的描述点，还可以把商品做一定修改。如果这个技术不断发展，人机之间还可以进行很多交互，辅助设计师完成工作。当人工智能技术发展到今天，可以利用这样的场景解决以前我们想象不到的事情。

达摩院研发的另一个超大规模中文预训练语言模型 PLUG，如给它输出一段文字“西红柿炒萝卜”，就会自动生成这个菜品的做法；给它一小段小说的描述可以自动地把后面内容补齐，因为它读了很多本小说，可以把我们看不到的一些关联生成出来。大模型本身会给我们带来惊喜，因为大模型的参数人很难理解，机器和人不同的地方就是每次可以做不同输出，觉得这段文字写的不好可以不断换，从而得到不同结果。现在已经有人用这种深度学习大模型的技术写作。

以前讲人工智能算法，最后突破的是创造力，所有固定活动，比如机器替代了体力活动。当 IT 技术把很多东西数字化后，一些重复性脑力工作也可以被计算机替代。现在创造力是我们大脑或者人类最后的一块净土，人工智能算法与人的机理不同，通过对海量数据的学习从中找到一些规律，能够做类似于有创造力的工作。上面举的例子中，设计服装，以及给一段文本描述（可以是一段、一个主题）就可以写一部小说，都是创造力的表现；还可以作诗词歌赋，在大模型时代已经实现。

还有一些比较复杂的任务，VQA 是基于一张图片，给它一张图片可以提出一个问题，机器就可以回答它。比如，这张图第一个问题是“这个披萨有几块”，答案如果是 4 块就对了，其他任何说法就是错误的；第二个问题是“这是素的披萨吗？”就要理解里面有没有香肠等一些肉的东西，如果有就不是一个素的披萨。一个女生戴了一个很有意思的装饰——两根香蕉，如果问机器她戴了个什么？回答香蕉就对了。对图片的理解需要专业知识，对一些大家可能没有共同标准的，基于大家的共同答案有 80.83% 的准确率，在这个数据集上已经超过了人类的水平。所以，人工智能在这一轮的技术发展上，已经进入了非常有挑战性的领域，包括创造上、复杂问题的求解上，已经展现了它的能力。

四、从奥运会中的人工智能场景****看人工智能产业落地

以 2020 年东京奥运会为例。东京奥运会由于处于疫情非常严重的场景下，不可能有很多人到现场，当时用了一些技术解决了一些实际问题。比如现场把加油声通过云的方式，让很多机器人给运动员加油呐喊；在田径赛场上的服务机器人可以在赛场做一些规避，如规避运动员、现场障碍、工作人员，以及把扔出去的链球和标枪捡回到出发点，这是各种机器人在东京奥运会中的应用。此外还用到了实时运动追踪技术，如运动员跑 100 米时，每秒的速度、姿态、膝关节角度全程的情况都可以生成出来，将这些信息提供给教练员和运动员，可以有针对性地帮助他将来的训练。通过这种颜色图可以看到他们每个人实时速度情况，知道在哪个点加速，最后冲线获得第一名，这种在速度的场景下都可以发现，与以往奥运会带来了很大观感上的不同。人工智能技术可以在赛场做很多应用，但这些智能的应用要有一个非常庞大的平台，以满足算法、算力和海量数据的需要。

这届奥运会是历史上首次云上奥运会。在往届奥运会时，每个大的广播、电视机构都会派团队到现场，制作视频节目并通过卫星传播。由于疫情原因，所有的数据，如奥运赛场视频信号、运动员比赛信息都上了云，通过云的方式大大降低了视频制作人员一定要在现场的要求。以前需要昂贵的卫星通讯做数据传输，现在利用云技术，通过互联网和通讯光缆，在北京的演播室里就可以在线制作东京奥运会的视频节目，实时制作成电视信号传播。很多奥运会节目和内容通过互联网、云底座进行了这样一些信号数据交流。

技术的发展不是简单线性的人工智能，在这次大变化中，基于大数据场景下，和云之技术间产生了非常大的关联。东京奥运会赛场里由欢呼、捡球机器人组成了机器人盛会，有很多的人工智能技术场景；还有工作人员戴有很多设备可以实时监控，这些技术都与人工智能相关。但是从另一角度看，支撑这场盛会的基座就是有很大的算力平台，能够支撑海量多模态的数据进来，通过人工智能算法提升了赛事的观赏性，更及时地了解实时赛况，并对赛场中可能发生的各种情况进行预测并提供预案。

智能技术本身发展到今天已经不是泡沫，有很多落地场景。这些落地场景由于一些新技术迭代，可以看到很多有意思的现象发生，东京奥运会就是这样一个典型的案例。

我们再来看一个场景——“智能客服”，一方是真实客户；另一方是机器人。对话场景中有很多非常困难的挑战，它不是简单的一问一答，是迭代式的。问的两件事情之间有关联，需要对话机器人能够区分和判断。当两件事情发生转换时，不是预设问题的模板，客服就要有一定能力。以往很多的机器人算法都是预设模板来做一些简单扩充，如果做自由问答，对方怎么问你，怎么回答你，需要具有一些海量知识，甚至其他方面的知识来支撑这段对话往下进行。这当中也是多模态，涉及到语音的信号，语音形成文字后，需要对文字做理解，和后台关联的订单、结构化的数据做关联，在那个数据上做交互。它至少包含三种模态的数据，而且有很大的不可预知性，在这种不可预知性下，模型本身需要各种的场景数据都能够及时处理。智能客服的场景也具有上述几个特点，因为有多模态数据、很多丰富场景和不可预知的线条。在这个演示中有两条线，线条之间有一定模糊性。两个订单需要一定判断力，这都是需要具有海量模型算法能力去做的。

再举一个人工智能场景——“城市大脑”。计算机带来的一个最大能力就是把城市数字化。数字化规模最早只是发生在点上，比如办公室数字化、文件数字化，逐步扩展到流程数字化，现在我们很多流程的审批都用 IT 做的；把很多业务系统数字化，比如 ERP 软件、资源管理、财务等各方面都进行了数字化；现在还有很多采集设备，例如每个路口都有摄像头可以把各种交通信息、物理世界信息都数字化。当把它们都放在一起时，能不能将所有信息连在一起，让所有城市变得更加有效、更加绿色，让市民生活得到更好提升，这就是很大的愿景。我们利用人工智能技术赋能，在杭州把很多数字化串在一起，打通了众多环节。数字化规模到了一定量级，就可以产生从量变到质变的点。

物联网和互联网结合，即万物互联的场景下，在城市里将这些事情做起来就非常好。人工智能现在最大的变化是数字化水平的提高，比如很多路口都有摄像头，在很多环境监测点，这样海量的数据结合在城市里发生的事情，就可以产生不一样效果。杭州的停车场没有栏杆和收费员，自由出入方便，这是因为通过车牌识别把车辆的信息和个人账号挂钩，实现自动计费，提高了停车场的运行效率。

这些数字能力如何结合起来？举一个例子。智能路口和传统路口最大的不同点是可以看到红绿灯的时间，提升了路口通行效率。城市数字化后，城里的很多采集设备，例如某路口有一个高位摄像头，可以清楚看到路口全局，哪个方向大概有多少车，然后对这些信息进行综合分析；而交警只能平视看他周边车的情况，做一些局部优化。当城市被数字化，对每个路口历史上的交通信息都可以进行分析，结合人工智能技术，就可以把城市交通做很大优化。这是人工智能技术赋能城市管理的一个方面。

结合这样的变化可以看到，有几个维度支撑了这一轮的人工智能产业落地。人工智能曾经历过几次冬天，技术发展起来后，发现其在产业落地时有缺陷，解决不了大规模问题；投资进来后不能形成投资回报，一些关键的问题卡壳，很快就进入人工智能冬天。这一轮中，人工智能技术，尤其是海量数据、算法和算力“三轮”在一起，就找到了非常丰富的应用场景。从互联网产业开始，延伸到其他行业。尤其是基于大数据的人工智能。上面的几个例子，比如问答和写小说的例子都是基于海量数据，因为人不可能博览群书，但是人工智能算法可以将各种结构化的规律收集整理，所以可扩展性比以前算法更强。智能算法没有独立法人，可以和其他技术交集在一起，比如和连接的技术——通信技术、5G 技术进行海量接入，以及人与人、物与物、人与万物之间都可以互联。这些技术因为是基于数据的，万物互联数据打通后可以带来很丰富的场景。

再结合业务场景。这个系统里最重要的是利用一些人与人之间的沟通，协同在线就可以集合很多以前单点的能力。把云的技术和钉钉结合在一起，让整个组织能力通过数字化能力假设在云上。数据需要海量计算，现在人工智能算法对于算力的增长需求已经超过了摩尔定律，速度越来越快。从人工智能模型的复杂度，可以看出它的迭代速度非常快，人工智能产业落地这一轮最大的特点是基于这样几个点的连通，尤其是在城市、国家，以及整个社会数字化得到很大提升的基础上，通过大的运算平台，也就是云平台，把数据、人和物打通。

五、对未来的展望

人工智能落地还有一些其他场景，比如绿色云计算。人工智能的算法、算力、海量数据非常消耗资源，一个 GPU 的功率非常大。如打游戏的 GPU显卡接到电脑上，就需要接上水冷管道。当把巨大的运算量放到数据中心时，云本身已经把所有的计算集成在一起，从而节约了资源，提高了利用率。而服务器工作会产生非常大的热量，需要空调将机房里的热量带走，非常耗电。如果让计算中心的能源消耗做的更经济，就需要绿色的云计算。阿里巴巴的浸入式液冷技术可以把服务器放到一个惰性的、不导电的液体里，把热量带走，大大提高了数据中心的能源利用率。

总之，人工智能经历了三起两落，对未来智能技术的发展，现在有人说已经是第四次浪潮。智能技术落地产业已经开始，且趋势不可逆转，主要来自于智能技术结合海量大数据、大的算力平台，利用云平台、网络能力有丰富的场景。未来的技术怎么发展，让很多研究人员、行业人员和投资人员都有很多想法。最近有一个新的概念——元宇宙，它其中有很大的一点，在这这样一个完全的数字化世界中，谁去管理这个数字世界？这个数字世界里的万有引力怎么产生的？除了人以外其他的基础设施，以及其他的一些物，或者还有其他的数字生物在里面，它们之间怎么交互、生活？都需要人工智能技术。所以，人工智能未来的发展大有所为。我们短期内很容易对一件事情特别乐观，而长期内又很容易对一件事情悲观；我们对人工智能技术发展很容易乐观，现在很多技术很乐观地看能够很快实现，可能过于乐观。但是长期来看需要解决更多的实际问题，在人工智能产业落地中，建议大家做一个长期的乐观主义者，很多东西在未来都会被数字化，而数字化的将来就是智能化。

来源: 《中国人工智能学会通讯》

从云上奥运看智能技术产业落地

科普中国系列品牌网站

入驻科普号

合作机构