“数字人”走进大众生活

在一些科幻影视作品中,人们常能看到这样的场景:一个非真实的虚拟人站在真正的人面前侃侃而谈。它能听懂人在说什么,并作出准确的回应;它能像真人一样,把喜、怒、哀、乐的情绪,反映在表情、动作或声调上;它讲起话来滔滔不绝,渊博的学识远超人的想象……

当前,随着人机交互技术的发展,类似的场景正慢慢变为现实,走进大众的生活。不过,要达到高质量的人机交互,还有不少国际性难题待解决,比如现有的人机交互形态大多数较为单一,即便是ChatGPT,也只能是用户提出要求后,它再以文本等形式提交回复,难以实现多种形式的具有现实感、生动感的人机交流。

更麻烦的是,大多数人机交互技术水平还比较低,机器对人所表达的意思理解程度很低,机器“不说人话”“不理解人话”,人和机器的实时对话非常困难。另外,现有条件下,高逼真的数字人建模成本高、可复制性低,很难大规模推广使用。

尽管面临这些技术难题,但高级形态的人机交互是人工智能技术发展的一个大趋势,其未来的应用前景非常广阔,可能在很多领域替代人的工作,继而引发相关行业的巨大变革。因此,世界各国,尤其是美国等西方一些发达国家都在这方面投入重金进行研发,我国自然也不能落后,否则将面临被“卡脖子”的局面。

挑起人工智能技术攻关重担

我国专注于人工智能系统研发的国家“专精特新”小巨人企业——北京中科汇联科技股份有限公司(以下简称“中科汇联”),联合清华大学、北京大学共同承担了北京市科委科技计划项目“认知智能驱动的多模态自然人机交互关键技术及应用”,其核心目的就是要打造具有更高水平的“数字人”系统,让“数字人”能像真人一样进行动态的沟通交流。

这个项目有几大关键技术问题要解决,包括感知孤立、理解困难、可视化差、人机交互缺少多模态融合处理能力、复杂场景中的语义理解困难、意图识别准确率低等。针对这些技术难点,项目团队历经两年多的努力,最终取得了一系列突破,项目于2021年1月结题,并获得了北京市科技进步奖二等奖。

解决人机交互中的关键性难题

不少人机交互的人工智能技术只能识别单一形态的内容,要么是文本,要么是图像,要么是声音,而项目团队通过攻关,实现了融合视觉、语音、文本的自然交互。也就是说,通过这种技术攻关创造出来的“数字人”能准确识别包括文本、语音、图像在内的多种形态的信息,同时能综合这些信息形成自己的认知,并作出决策或反馈,就像人一样具备了一定的“自主意识”。

此外还有微表情的识别与反馈。人类有很丰富的表情,它反映着人内在的心理、情绪等变化。项目团队研发的“数字人”能通过深度神经网络和计算的模型来识别人的这些表情,并作出适当的回应,从而实现了“数字人”与真正的人在交流时的共情。据了解,在电气与电子工程师协会(IEEE)22种微表情算法的第三方测评中,中科汇联研发的技术准确率排名第一,超过了FaceBook,达到了国际先进水平。

这项技术已在某些领域得到应用,比如“数字海南”的技术支撑中,就有由中科汇联开发的人工智能机器人督查项目,它能运用人工智能技术服务于相关部门的工作,大大提升了工作效率。

人机交互中,比较大的一个难题是如何让机器更准确地理解人表达的语义,就像当一个人说“吃瓜群众”,很多机器无法理解其真正含义,往往会按字面意思直接理解成“吃瓜的人”,从而形成误导,作出让人哭笑不得的反馈。项目团队为了解决这个问题,构建了一种基于图神经网络的语义感知模型,大幅提高了机器对于人所表达意图的理解精度。相关测评结果显示,模型对于语义的理解精度大大优于微软等国际巨头的历史最好成绩。

项目团队还研发了自动化的知识提取工具,能够快速生成新的知识图谱。简单说,就是它能快速地掌握某领域的相关知识,并进行自动的归纳整理,在与人交流过程中,准确地解答相关领域的问题。这项技术意义重大,它能大规模地替代人工,提高服务效率。其中以此技术开发的疫情机器人,就在疫情期间为200多个政府部门和医疗单位提供了服务,向公众进行政策解答或相关知识的科普,节约了大量的人力、物力。

多场景多领域实现人工替代

中科汇联通过科技攻关所形成的相关技术成果——AiHuman数智人平台落地项目应用范围十分广泛。比如在银行或一些党政机关的办事大厅,需要很多人力来做政策或办事流程的讲解,内容大多是重复性的,这时,中科汇联研发的“数字人”就能取代人来做这些工作;而在博物馆、科技馆等场所,靠解说员为前来参观的人进行解说,讲解的内容往往也是重复的,完全可以用“数字人”来替代。

在医院,这种“数字人”还可以代替一些医务人员为公众解答医学问题,介绍就医流程;在需要大量客户服务的通信企业、商业企业等,“数字人”也可以代替人工,解答用户的各种问题;在教育行业,一些线上授课可以用“数字人”代替真正的教师讲课,与学生互动交流。这种“数字教师”的使用,还可能衍生出另一个益处,那就是可以让偏远地区的孩子享受到发达地区优质的教育资源,有利于教育的公平性。

此外,在机场、车站等人流密集区域,常会有旅客不明白买票、安检、进站以及其他各方面的流程,“数字人”可以代替工作人员为他们进行讲解。它们可以在固定的屏幕上呈现,也可以在走动的机器人身上呈现,不仅能为人们解答问题,还能进行一定程度的互动,聊天、唠家常,与人们产生情感连接,给人们的旅途生活增添一些乐趣。

现在,包括网络直播等很多新兴业态涌现,而这也正是“数字人”可以大显身手的场合。包括电视节目主持人、大型文体活动主持人等,也都可用“数字人”来替代,节约人力成本的同时,还可能给节目增添浓浓的科技元素以及一些意想不到的良性社会反响。

在文化传播领域,“数字人”同样有宽广的表现舞台。中科汇联与新华社合作,以京剧大师梅兰芳为原型,结合梅兰芳生前的身形体貌、表情动作、唱腔等,研制出了“数字梅兰芳”,它给中国人拜年的视频,点播次数超过了2000万次。同时,这个“数字梅兰芳”还走出国门,参加了2022年在新加坡举办的中国年活动,受到当地人民的热烈欢迎,代表中国的文化与科技走向了世界。

根据统计,截止到2023年6月,项目相关技术成果已服务了3000余家党政机关,近20000家企业,500多家银行、保险及证券行业企业,人机交互次数超50亿人次。

来源: 北京科技报社

内容资源由项目单位提供