图文详情

传统数字人

既然要说数字人，首先要搞清楚到底什么是数字人。

在很多动画、电影以及游戏中，也可以做出类似的人物形象，数字人和这些人物形象有什么区别呢？

数字人——Digital human，也被称作virtual human。

早在二十世纪60年代，波音公司就开始在电脑中构建数字化的人体模型。这个“波音人”拥有人类的外形，能够模仿人类的常见动作，算是最早的数字人了。

利用这个“波音人”，工程师们就可以直接在电脑里对驾驶舱设计进行优化，让驾驶员的动作更加顺手，减少误触事件的发生。

除了成为人类的虚拟替身，数字人也在娱乐行业发挥了重要作用。比如在电影《复仇者联盟3：无限战争》里，大反派灭霸就是一个数字人。人们先通过建模构建出了灭霸的身体，然后对人类“动捕”演员进行动作捕捉，利用这些数据让灭霸的身体动起来。

数字人就是虚拟形象吗？

但波音人、灭霸，它们似乎和我们今天理解的数字人有些差别。

我们今天所说的数字人在不同的领域有不同的定义，我们不妨参考中国人工智能产业发展联盟发布的《2020虚拟数字人白皮书》。

白皮书里提到，虚拟数字人应该有以下三个特征：

首先，虚拟人可以是2D的也可以是3D的，但必须拥有人的外观。这一点很好理解，而且电影游戏中的人物也都能满足这一点。

第二点，它们要有人的行为，比如人类的语言、面部表情以及肢体动作。看起来，电影游戏中的虚拟形象也可以满足这一点。

但还有最关键的第三点要求，虚拟数字人要拥有人的思想。

这个说法比较抽象，具体来说，它们需要能够识别外部环境，能够跟人类进行交互。可以说，数字人发展的最终目标，是让我们在数字世界和它们交流的时候，分辨不出它们是真人还是数字人。

数字人背后的AI技术

数字人背后涉及的AI技术非常多，我们就以现在特别常见的数字人主播为例。

数字人主播，可以直接根据文本生成直播视频，并且还可以根据一些留言，进行简单的互动。

当你把文本给到AI之后，AI需要用到文本转语音技术——也叫TTX技术，把文稿转换成语音。

这一步看起来很简单，只需要把每个字的读音都提前录好，然后拼接在一起就行了，但这对数字人来说是远远不够的。

举个最简单的例子，在“小心地滑”和“小心地滑冰”这两个短语里，“地”的读音是不一样的。数字人需要用到自然语言处理技术，对文稿进行分析，根据上下文理解字词的意思。

另外，AI也基于大量人类的语音数据学习了人类的说话习惯，在生成语音时候并不是简单把读音拼接在一起。

除此之外，在训练数字人的时候，还需要采集大量的人类说话时候表情、动作样本，让数字人模仿人类的唇形和表情。

最终，AI会把声音、唇形和表情动作同步，实时渲染生成视频。

数字人能有什么用？

因为数字人可以不知疲倦地工作，而且不会有真人的缺点，不会突然“人设崩塌”，所以它们已经在影视、文旅、金融、直播带货等等方面有了众多应用。

比如，央视频已经拥有了多款数字主播小C、央小新，还有2022年冬奥会期间的虚拟数字主播“王冠”。他们已经能够实现常见的新闻播报，甚至能够和真人主播互动问答。

在直播带货方面，虽然数字人主播的感染力跟真人主播相比还有一定差距。

但是对于小商户来说，数字人主播的成本比专门的主播运营团队成本低得多，并且可以进行7天24小时连续不断的直播，也能给自己的产品带来额外销量。

展望

当然了，除了数字人主播，数字人还可以应用在虚拟偶像、虚拟关怀师、虚拟员工等等领域。

根据艾媒咨询的数据，2023年中国虚拟人带动的产业市场规模为3334.7亿元，核心市场规模205.2亿元。

而且随着ChatGPT之类大模型的普及，数字人和大模型的结合可能会进一步提升数字人的能力，让他们拥有更好的人机交互能力，在销售、客服、虚拟偶像领域可能创造出更大的价值，成为新质生产力中的重要一环。

作者：云纪御科普创作团队

审核：秦曾昌北京航空航天大学自动化科学与电气工程学院副教授

文章由科普中国-创作培育计划出品，转载请注明来源。

来源: 星空计划

内容资源由项目单位提供

数字人和虚拟形象有什么不同？