传统数字人
既然要说数字人,首先要搞清楚到底什么是数字人。
在很多动画、电影以及游戏中,也可以做出类似的人物形象,数字人和这些人物形象有什么区别呢?
数字人——Digital human,也被称作virtual human。
早在二十世纪60年代,波音公司就开始在电脑中构建数字化的人体模型。这个“波音人”拥有人类的外形,能够模仿人类的常见动作,算是最早的数字人了。
利用这个“波音人”,工程师们就可以直接在电脑里对驾驶舱设计进行优化,让驾驶员的动作更加顺手,减少误触事件的发生。
除了成为人类的虚拟替身,数字人也在娱乐行业发挥了重要作用。比如在电影《复仇者联盟3:无限战争》里,大反派灭霸就是一个数字人。人们先通过建模构建出了灭霸的身体,然后对人类“动捕”演员进行动作捕捉,利用这些数据让灭霸的身体动起来。
数字人就是虚拟形象吗?
但波音人、灭霸,它们似乎和我们今天理解的数字人有些差别。
我们今天所说的数字人在不同的领域有不同的定义,我们不妨参考中国人工智能产业发展联盟发布的《2020虚拟数字人白皮书》。
白皮书里提到,虚拟数字人应该有以下三个特征:
首先,虚拟人可以是2D的也可以是3D的,但必须拥有人的外观。这一点很好理解,而且电影游戏中的人物也都能满足这一点。
第二点,它们要有人的行为,比如人类的语言、面部表情以及肢体动作。看起来,电影游戏中的虚拟形象也可以满足这一点。
但还有最关键的第三点要求,虚拟数字人要拥有人的思想。
这个说法比较抽象,具体来说,它们需要能够识别外部环境,能够跟人类进行交互。可以说,数字人发展的最终目标,是让我们在数字世界和它们交流的时候,分辨不出它们是真人还是数字人。
数字人背后的AI技术
数字人背后涉及的AI技术非常多,我们就以现在特别常见的数字人主播为例。
数字人主播,可以直接根据文本生成直播视频,并且还可以根据一些留言,进行简单的互动。
当你把文本给到AI之后,AI需要用到文本转语音技术——也叫TTX技术,把文稿转换成语音。
这一步看起来很简单,只需要把每个字的读音都提前录好,然后拼接在一起就行了,但这对数字人来说是远远不够的。
举个最简单的例子,在“小心地滑”和“小心地滑冰”这两个短语里,“地”的读音是不一样的。数字人需要用到自然语言处理技术,对文稿进行分析,根据上下文理解字词的意思。
另外,AI也基于大量人类的语音数据学习了人类的说话习惯,在生成语音时候并不是简单把读音拼接在一起。
除此之外,在训练数字人的时候,还需要采集大量的人类说话时候表情、动作样本,让数字人模仿人类的唇形和表情。
最终,AI会把声音、唇形和表情动作同步,实时渲染生成视频。
数字人能有什么用?
因为数字人可以不知疲倦地工作,而且不会有真人的缺点,不会突然“人设崩塌”,所以它们已经在影视、文旅、金融、直播带货等等方面有了众多应用。
比如,央视频已经拥有了多款数字主播小C、央小新,还有2022年冬奥会期间的虚拟数字主播“王冠”。他们已经能够实现常见的新闻播报,甚至能够和真人主播互动问答。
在直播带货方面,虽然数字人主播的感染力跟真人主播相比还有一定差距。
但是对于小商户来说,数字人主播的成本比专门的主播运营团队成本低得多,并且可以进行7天24小时连续不断的直播,也能给自己的产品带来额外销量。
展望
当然了,除了数字人主播,数字人还可以应用在虚拟偶像、虚拟关怀师、虚拟员工等等领域。
根据艾媒咨询的数据,2023年中国虚拟人带动的产业市场规模为3334.7亿元,核心市场规模205.2亿元。
而且随着ChatGPT之类大模型的普及,数字人和大模型的结合可能会进一步提升数字人的能力,让他们拥有更好的人机交互能力,在销售、客服、虚拟偶像领域可能创造出更大的价值,成为新质生产力中的重要一环。
作者:云纪御 科普创作团队
审核:秦曾昌 北京航空航天大学 自动化科学与电气工程学院 副教授
文章由科普中国-创作培育计划出品,转载请注明来源。
来源: 星空计划
内容资源由项目单位提供