5G技术的低延迟、高带宽特性为通信领域带来了革命性的变化。在这一背景下,5G新通话应运而生。5G新通话系统集成了人工智能、大数据等前沿技术,正推动通信方式向多媒体、智能化方向演进。5G新通话单向视频通话技术是5G新通话技术的一项重要创新研究成果,成功孵化出多个5G新通话业务。与传统视频通话相比,单向视频通话技术展现了其独特的优势和先进性,极大地提升了用户的通信体验,用户无需拨打视频通话,也能看到图像、字幕等通话辅助信息,为传统的语音通话增添了丰富的视觉元素,开拓了全新通话应用场景

1、什么是单向视频通话技术

5G新通话单向视频通话技术是一种基于5G新通话先进网络架构和智能算法实现智能定制化视频内容单向传输的通信技术。5G新通话单向视频通话在传统音频通话基础上无缝集成视频元素,丰富信息展现形态,支持用户在拨打音频通话的同时,查看由网络推送的视频内容,同时不暴露传统视频通话中的本地视频信息,有效解决了传统音频通话方式中通话形式单一视频通话必须展示用户当前形象的问题,扩展了通话应用场景,保护了用户隐私。

例如,用户在拨打客服电话时,需要通过视频信息辅助理解客服人员讲解,同时通过单向视频通话技术用户无需暴露本地人物形象;再比如,弱听用户或跨语言沟通场景中,可以通过单向视频通话技术,向用户推送含有语音转文字或翻译后的通话字幕,解决用户沟通困难的问题。

5G新通话单向视频通话技术它不仅继承了5G网络低延迟、高带宽的特点,支持调用5G新通话云端智能音、视频AI处理能力,更通过创新的设计,解决了传统视频通话中的一些局限性问题,具有如下技术优势:

①保护用户隐私性:单向视频通话技术允许用户在不暴露自己环境的情况下,接收到对方或系统发送的视频内容。这一点对于保护用户隐私至关重要,尤其是在不希望或不适宜展示用户本身形象的场景(如客服场景)。

②展现信息更丰富:该技术能够在通话中加入丰富的视觉元素,如页面、字幕、图像、视频等,极大地增强了原有语音通话过程中的信息传递能力,使得沟通更为直观和生动。

③业务更加智能化:结合人工智能技术,基于单向视频通话能力,服务方能够根据通话内容进行实时分析,向用户提供智能翻译、字幕生成等服务,进一步提升通话的可用性和高效性。

④用户无需更换终端:单向视频协商对终端无特殊要求,存量终端用户也可直接使用业务,用户使用门槛低。

⑤网络传输高效性:由于只传输单向视频流,该技术在网络资源的使用上更为高效,尤其在网络条件受限的环境中,依然能够保证通话的流畅性和视频的质量。

2、单向视频通话技术原理

单向视频通话基于5G新通话网络架构实现。5G新通话网络架构如图1所示,主要包括VoLTE AS、VoNR+能力网元、VoNR+媒体面、媒体能力平台、业务应用服务器等关键组件。

图1 5G新通话网络架构

VoNR+能力网元:作为 5G 话音的新生态引擎,通过对基础音视频和实时交互能力进行提炼抽象,接收业务应用服务器的呼叫控制指令,指示VoLTE AS进行单向视频相关能力的协商与控制,北向通过Restful API 接口开放给使能层

VoLTE AS:作为网络基础通信能力网元,可提供传统音视频呼叫路由、呼叫控制、媒体控制及协议适配等能力。通过 Restful接口向能力层提供原子API。

VoNR+媒体面:作为系统统一媒体管理网元,负责除支持传统音视频播放、放音、会议等媒体能力之外,对多种媒体进行合成、渲染。

媒体能力平台:作为媒体AI处理引擎,负责提供语音识别、自然语言处理、图像识别等音、视频媒体AI处理等服务。支持根据业务提供方实现能力的快速调用。

业务应用服务器:业务服务器,开发者可基于5G新通话开放能力实现业务的开发,以服务器方式部署到新通话网络中后,为用户提供新通话服务。

5G新通话单向视频通话技术关键要素包括:

①单向视频媒体协商:单向视频技术首先依赖于稳定的音频通话基础,即利用VoLTE/VoNR技术建立高质量的双向音频连接。这是确保通话双方能够清晰交流的基础。为了能实现用户仅接受视频,不上传本地视频的效果,系统根据业务触发,向终端发起单向视频媒体重协商,携带sendonly媒体属性,指示终端进行单向视频通道的建立。

②分段式精准视频推送控制:根据业务需求的不同,可能存在向主叫用户推送单向视频的场景,也可能存在向被叫用户或向主被叫用户推送单向视频的场景;该需求可能由主叫网络(主叫用户需求)触发,也可能由被叫网络(被叫用户需求)触发;此外,向用户推送视频的时间及触发条件也存在多种不同场景,用户可能在通话中中间的某个时间需要(如客服场景下需要介绍某个产品时),也可能在通话一接通时就需要(如点亮屏幕业务场景);单向视频推送触发可能是根据用户设置提前配置好的,也可能是根据用户需求在通话中实时触发的。面向复杂的业务场景,分段式精准视频推送控制机制可以完美解决不同需求场景下的业务控制。

③实时音视频AI媒体处理:为了支撑更丰富的单向视频场景,系统支持根据业务平台控制,将通话中的音、视频流复制到网络侧的媒体能力平台,通过智能分析处理,生成用户所需信息,通过单向视频向用户展示。例如在语音通话场景,针对跨语言或弱听用户交流场景,系统可以对用户音频通话内容进行智能识别,并在单向视频中向用户展示说话内容对应的字幕,方便用户理解,提升用户沟通效率。

3、单向视频通话应用场景

智能客服:基于单向视频通话的智能客服通话中,用户可以查看客服人员用户用于辅助沟通所提供的产品介绍、用户订单/账户信息等内容,但无需向客服人员展示自己当前的通话形象,提升了沟通效率的同时,可以很好的保护用户通话隐私。

点亮屏幕:点亮屏幕业务允许用户在通话过程中向对方展示自己预设的视频内容,适用于音频起呼且签约用户作为被叫的通话场景。用户可以选择系统提供的多种视频内容或上传图片生成自定义视频形象,可提升通话的趣味性。

智能翻译与通话字幕:结合语音识别、实时翻译和视频合成技术,智能翻译服务在通话过程中为用户提供语音转写和实时翻译功能,以字幕形式展现对方说话的文字内容,帮助弱听人群和跨语种沟通人群解决沟通障碍。

AI速记:AI速记为用户提供通话记录及摘要提取服务,用户可在通话过程中,实时看到聊天内容,同时挂机后,还能收到系统整理好的通话记录文件,方便用户后续随时查看、整理。

视频通话会议:支持用户只查看共享视频内容(如会议讨论材料),无需暴露用户当前参加会议形象及环境,有助于减小视频会议中用户形象维护上的心理压力。

4、结语

基于5G新通话的单向视频通话技术,为通信领域带来了全新业务创新场景。它通过低延迟、高带宽的5G网络,结合人工智能,提高了用户沟通效率、增强了信息展示的丰富性,同时还能保护用户隐私。在智能客服、翻译、会议等场景的应用,突显了其在提升用户体验和解决实际问题上的潜力。随着技术的演进与更多业务开发者的参与,单向视频通话将在更多领域有更丰富的应用,推动通信行业在智能通话升级上的创新。

作者:张昕、乔玮、李颖

单位:中国移动研究院业务研究所

来源: 中移科协