网上流传着两张男女对话时的冰山模型图:女生表达出的只是全部想法的冰山一角,男生也只能理解这小部分;而男生所有意思就只有冰山一角,女生却以为水下还暗流涌动。

和大多数直男一样,不善言辞的蓝振忠经常受困于男女思维的差异。在和老婆交流时,他本能地会想帮她解决问题,效果却往往不甚理想,“后来才意识到,很多时候她需要的只是倾听和共情,问题本身,她有能力解决”。

在感同身受、提升交流效率这事上,AI能帮得上忙吗?

在卡耐基梅隆读博期间,蓝振忠就开始思考让AI深入人心。他的妻子是卡耐基梅隆的同班同学,也是成色十足的学霸,“她学习成绩比我好”。

毕业后他加入谷歌,目睹并参与了人工智能掀起的一轮又一轮浪潮,始终忘不了读博时的那个想法。

他深信,AI有智商,也可以有情商,就像好莱坞电影《她》(Her)里的AI助手萨曼莎,或是《超能陆战队》里的机器人大白。

大白是个温暖的机器人

能听懂言外之意的大模型

西湖心辰的办公场地,就在距离西湖大学云谷校区不到500米的云创镓谷,这里也是西湖大学/西湖实验室成果转化基地的先导园区。

从谷歌回国后,蓝振忠先是加入了西湖大学,然后创办了西湖心辰,带着一群平均年龄25岁的年轻人,一头扎进了让AI更懂人类情感和意图的研究中。他们中有来自谷歌、Meta、亚马逊等公司的AI技术人才,也有纽约大学、埃默里大学、首都医科大学等的心理咨询专业高才生。

9月5日在2024外滩大会上首发的通用端到端语音大模型“心辰Lingo”,便是他们最新拿出的成果。蓝振忠还获得了首届蚂蚁InTech科技奖,蚂蚁集团这项纯公益性奖项,颁发给对计算机领域科研进步有关键推动作用的中国青年学者。

正在玩《黑神话:悟空》的你:“已经打到大头和尚那里啦,这关都打了10多次了。”

A朋友:“哇,大头和尚都能卡住你,这水平也太感人了。”

情绪低落的你:“我有点不开心,今天和同事产生了一点小摩擦。”

B朋友:“哎,工作中的摩擦确实让人不愉快,发生了什么事呢?是工作上的误会还是沟通不畅?”

陪玩损友A和知心姐姐B,都是心辰Lingo与人实时交互的演示中,展现出的一部分应用场景。

“和其他AI相比,端到端的Lingo能完全模拟人的行为、情感和反应模式,可以很像人。”蓝振忠说,用户可以随时打断它,也可以更换人物设定(音色、职业角色)来交流。

什么是端到端?

此前我们体验的一些AI语音工具,多依赖于TTS。这是一种将书面文本转换为口语化语音的技术,它能让机器说话,解决了语音输出的问题,但不涉及意图识别与对话理解。而端到端语音大模型的优势,在于超低延迟和可控性。它能听到文字以外的其他信息,比如情感、语气、环境杂音等,从而帮助大模型更全面地理解语音内容。

“你让它声音调高点,又或者模仿特定音色,都相对更好控制。”蓝振忠解释,端到端语音大模型集成语音识别、自然语言处理、意图识别、对话管理,以及语音合成等多个环节,实现了从语音输入到语音反馈的完整交互过程。

基于这种底层能力,各种智能设备与Lingo相结合后,可以读出并响应用户话语背后的真实意图。比如听到“阳台的地有点脏”,扫地机器人就会主动去清扫;“阳光有些刺眼”,智能窗帘控制器便会自动调整遮光帘。

从机器视觉到自然语言处理

蓝振忠来自广东潮州,1986年出生在一个教师家庭;2007年,就读中山大学软件工程和统计学专业时,开始涉足人工智能;2012年,他考入全美计算机第一的卡耐基梅隆大学计算机学院语言技术研究所(LTI),专攻计算机视觉和多媒体分析;2018年,加入谷歌AI研究所,负责多个计算机视觉和自然语言处理的项目研发,研发成果被应用于谷歌新闻和谷歌助手等产品……

翻看履历,似乎很难直接找到他“半路出家”从视觉转向语言,专攻AI情感陪伴的原因。

对于一个i人来说,社交是一种消耗。虽然他可以清晰地将日常生活中的交流按目的归为三类,解决问题、情感导向还有建立关系,但他也知道,自己擅长的是第一种,需要帮手。

更直接的原因,是他在临近博士毕业时得知一位同窗因抑郁症结束了年轻的生命。

这件事深深触动了他。如果有外力及时介入,哪怕只是心理陪伴和初级服务,那些被心理问题严重困扰的人,是否会重新感受到这个世界的些许温暖与美好?

2020年,蓝振忠从谷歌辞职,回国加入西湖大学,担任深度学习实验室负责人、博士生导师。他想打造一台能随时随地陪伴、辅助心理咨询的对话机器人,语言处理是对话系统的核心。

一年后的7月,西湖心辰诞生,那年蓝振忠也被麻省理工学院评选为亚太地区“35岁以下科技创新35人”之一。

图片来源:西湖大学官网

回想起这段经历,蓝振忠觉得“很幸运”:2018年在谷歌时,刚好遇上机器学习范式的变化——从监督学习迈向自监督学习。在自监督学习时代,无须人工标注,机器能通过阅读大量文本和图像完成学习,从而大大增强了对语言和视觉内容的理解能力。

更爱在实验室深耕技术

西湖心辰的第一款产品,是免费的心理咨询平台“聊会小天”。

蓝振忠和团队向心理学专家、精神科主治医生等咨询请教,也找来患者调研访谈。经过大量的语料积累和真实心理咨询案例学习,加上自研的情感计算和共情模块,小天能带有感情地倾听和沟通。

在公司成立两周年的时候,西湖心辰发布多模态通用大模型“西湖大模型”,具备长期记忆、情感感知和主动聊天等能力。在此基础上进行迭代,小天目前已能达到中级心理咨询师的水平。

一个月前,与杭州市第一人民医院合作的AI心理咨询师“市一小西”上线,除了在线心理咨询,还能依托医学知识库提供专业的报告解读。

去年向西湖心辰连投两笔资金的金科汤姆猫,最近也利用心辰Lingo的能力,将“会说话的汤姆猫”升级成为“会聊天的汤姆猫”机器人……

技术落地的场景正在不断延展。

一边是创业,一边是做学问,日常在两种身份间切换,蓝振忠的内心似乎更喜欢在实验室深耕技术。“现在的主要精力也在这里。技术迭代太快,回过头看,真正能留下点东西的工作其实并不多。”所以,他想继续做一些触及“本质”的东西,能推动学科进步。

蓝振忠颇为欣赏同是AI科学家的何恺明,认为他的工作就很“本质”,后者提出的ResNet是计算机视觉领域的流行架构。

去年3月,蓝振忠在朋友圈广发“英雄帖”,为公司招聘CEO,负责科研成果转化,整合资源、把握市场、搞定客户……

如今担任这一职位的是醒辰,她曾就职于阿里巴巴集团,作为创始团队成员参与筹建湖畔创研中心。

蓝振忠可以更专心地做科研。他的朋友圈置顶着一张合照。照片里,一家四口笑容灿烂,家人一直是最重要的存在。工作之余,他热爱运动,跑步、瑜伽、篮球、游泳……练瑜伽始自学生时代,“有助于放松心情,缓解压力”。

对话“新青年”

10月左右尝试上线AI心理健康服务电话

九千光年:您和团队怎么想到开发语音大模型?过程中遇到的最大挑战或难点是什么?

蓝振忠:一开始我们做文字,但很快发现远远不够,文字会损失很多信息,而且在心理咨询中,很多人更倾向于通过电话交流而非打字。打字往往要求预先组织语言,这一过程本身就可能加重人的思考负担,而在疲惫或情绪波动时,人会更渴望毫无顾忌地通过语言宣泄情绪。

去年开始,团队中的七八个人组建项目组,开始训练语音模型。如何获取数据,怎么保证预训练的稳定性,语音怎么调……都是问题。难度最大的,还是在于跟“大脑”的结合,就是文本模型如何转到语音模型。此外,Lingo是内容生产方,要保证交互时的安全性,避免它输出不当言语。

九千光年:除了心理咨询,心辰Lingo还可以用于哪些场景?

蓝振忠:它能为各个领域提供通用的基础语音服务,比如日常销售、教育培训、医疗咨询、智能设备交互、儿童陪伴等。10月左右,我们会尝试上线AI心理健康服务电话。

AI就像一个智能树洞

九千光年:人类的情感如此复杂,AI能兼具智商情商并给足情绪价值吗?

蓝振忠:你可以把AI看成一种能模拟世间万物的工具,它在很多方面甚至已超越人类。只要提供足够多的数据,AI就能进行无限的模仿学习。

《武林外传》中不少台词有言外之意,我们曾试着拿其中一些句子去测试大模型理解中文隐喻的能力,结论是它基本能达到人类水平。

AI在提供情感支持方面还有独特优势,比如它拥有无限的耐心。人的倾听往往需要消耗大量精力,AI可以不知疲倦地提供陪伴。

九千光年:是否存在一些场景,人需要的是真实的情感支持,如果此时提供AI,对方可能会感到失望?

蓝振忠:确实在一些场合,人与人之间的情感交流无可替代。AI更适合的场景是,一个人想要独处,或者有些烦恼不适合向他人倾诉。它就像一个智能树洞,你可以单方面倾诉,也可以互动,从而获得宣泄和慰藉。

小天背后有一整套评估和干预流程

九千光年:小天两年前参加过快报的未来生活节,早期版本,它的部分回复话术还需要心理咨询师的指导。如今它的背后还有人工吗?

蓝振忠:经过迭代,小天现在已是百分百的自主程序,接入心辰Lingo后还能语音、电话。今年截至目前,它已服务10万注册用户,你可以在支付宝、微信,浙大、理工大学等高校App上找到它。

九千光年:找小天聊天的用户中,是否有心理问题比较严重的来访者,甚至有轻生倾向?这种情况,会怎么处理?

蓝振忠:小天擅长的是心理陪伴和支持,它会随时评估聊天的效果,再决定接下来引导的方向。当它发现可能有严重心理问题或精神障碍的来访者,会建议对方转入相关医院诊治;一旦测试到有轻生倾向,就会推给来访者自杀干预热线。如果对方多次表达,还会人工介入。我们有一整套评估和干预流程。

创业有点像划着一艘漏水的船

九千光年:这几年的创业经历,您有哪些感悟可以分享?

蓝振忠:我们常说,人天生追求秩序感,在缺乏秩序的环境中,会感到不安和不确定。创业的过程有点像划着一艘漏水的船,只有划得足够快,才能安全抵达目的地。

读博同样伴随着不确定性,但这种挑战许多人能克服。创业则更为艰难,它一直在“烧钱”,这要求创业者学会在不断变化的环境中寻找确定性。

九千光年:能否透露您接下来研究的重点?

蓝振忠:还是“大脑”这块吧,怎么去精准捕捉人类情感、用什么话术回复等。其实这也是一直以来的重点。

来源: 浙江省科学技术协会