数字人技术作为元宇宙、虚拟现实等领域的核心交互载体,其高保真模型的存储与传输效率成为产业化落地的关键瓶颈。目前,国际标准化组织ISO/IEC MPEG已推出点云与动态网格压缩标准,国内AVS(数字音视频编解码技术标准)工作组亦在2024年发布点云压缩标准。然而,数字人多模态数据兼容性差、动态序列处理效率低等问题仍待突破。在此背景下,2024年6月AVS第89次会议上,北京大学联合中国移动等机构正式提出数字人数据压缩需求。经过多轮专家论证,在2025年3月AVS第92次会议期间,AVS成立了数字人压缩标准探索组,致力于构建面向2D及3D数字人的高效压缩标准体系,推动技术产业化进程。本文梳理了数字人压缩背景、表征形式与技术需求,并分析了标准化进展。1、背景

随着元宇宙、虚拟现实(VR/AR)、远程交互等技术的快速发展,数字人在娱乐、教育、医疗等领域的应用场景不断扩展。然而,高保真数字人模型依赖海量数据支持,其存储与传输成本高昂,成为产业化落地的关键瓶颈。以动态三维数字人为例,未经压缩的人体3D网格数据(帧率为60 FPS)需超过1 Gbps带宽,远超普通网络承载能力。而基于高斯喷溅的数字人模型虽能实现实时渲染,但原始数据规模庞大,导致移动设备与边缘计算场景下的传输效率低下。因此,研究高效的数字人压缩技术,降低数据量,提升渲染与传输效率,具有至关重要的意义。

为应对这一挑战,国际与国内标准化组织加速推进3D数据压缩技术的研发与标准制定。国际上,ISO/IEC MPEG推出点云压缩标准(G-PCC、V-PCC)和动态网格压缩标准(V-DMC);国内AVS工作组于2024年发布了首版点云压缩标准。然而,数字人技术融合图像、视频、三维数据及语音等多模态信息,现有标准分散,跨平台兼容性差,数据转换易导致信息丢失或畸变。以2D数字人为例,其依赖JPEG、PNG等图像编码和H.266、AVS3等视频编码标准。3D数字人需处理沉浸式数据表示,尽管IEEE 1857.9和AVS VRU标准针对VR/AR场景优化了传输效率,但现有三维编码格式(如OBJ、GLTF)标准分散,难以实现高效传输。因此,构建高效压缩标准体系成为数字人产业化的核心议题。

在此背景下,2024年6月AVS第89次会议上,北京大学联合中国移动等机构正式提出数字人数据压缩需求。经过多轮专家论证,在2025年3月AVS第92次会议期间,AVS成立了数字人压缩标准探索组,致力于构建面向2D及3D数字人的高效压缩标准体系,推动技术产业化进程。

2、数字人表征方式及现有编码标准

目前,探索组主要围绕数字人的几种主流表征形式展开研究,包括3D点云、网格及新兴的高斯喷溅(Gaussian Splatting)模型。

2.1 点云与网格

点云:通过离散的三维坐标点及其属性(如颜色、法向量等)表示物体表面,具有高精度、灵活性强等优势,但数据无序性导致压缩难度大。

MPEG的G-PCC采用八叉树分割与熵编码,V-PCC通过投影技术结合视频编码器来压缩纹理与几何信息;国内AVS也推出了基于几何的点云压缩标准及参考软件PCRM。在基于AI的点云压缩方面,MPEG已初步完成AI-PCC标准框架的定义,计划通过多轮技术验证与性能比对,逐步确立兼顾压缩效率与计算复杂度的标准化方案,为自动驾驶、元宇宙等场景的高效三维数据传输奠定基础。

网格:由顶点和面片构成的结构化模型,适合高效渲染。

MPEG推出V-DMC,旨在对连接性信息随时间变化的动态网格进行压缩;国内AVS提出了基于Draco和HPM的静态网格编码基础框架和参考软件(MCEM 0.1)。

2.2 高斯喷溅

基于高斯喷溅的数字人模型因其高保真与实时性成为研究热点[3]。该方法通过显式的3D高斯点云表示人体几何与纹理,支持每秒数百帧的渲染速率(如SplattingAvatar[4] 在 NVIDIA RTX 3090 G上可达300 FPS,在移动设备上达30 FPS),且训练时间从传统NeRF的数小时缩短至1-2分钟。此外,高斯喷溅的显式表示增强了编辑能力,允许实时修改和定制。综上,基于高斯的数字人表示以其实时性能、数据效率和高质量细节,展现出显著优势,特别适合交互式应用。然而,未压缩的高斯点云数据量极大,例如单模型可能包含数百万高斯点,每个点需存储位置、协方差、颜色等属性,导致存储与传输成本激增。

目前,ITU-T、MPEG等国际组织,以及工信部、信通院等国内机构,已在三维点云和骨骼动画领域推进标准化进程,为高斯数字人的表示与压缩奠定基础。然而,现有标准仍未充分覆盖高斯数字人的显式特性与实时渲染需求。

3、数字人压缩技术需求

在2025年3月AVS第92次会议期间,围绕数字人压缩,领域专家提出了一系列技术需求。

3.1 点云与网格

需突破几何与属性联合编码瓶颈,探索基于深度学习的点云及网格压缩。

数据集及评估:建立覆盖高动态动作、复杂光照/服饰的多模态数据集,集成骨架参数、材质属性等语义信息。制定融合几何失真(对称PSNR)、属性失真(YUV色差)、主观质量(PCQM)及渲染质量(边缘保真度、光照一致性)的复合指标。

推动感知驱动的联合优化设计:开发几何与属性同步优化模型,强化面部、手势等关键区域细节保留。针对AR/VR,2D平面显示设备特性(如视场角、分辨率),动态调整量化策略与码率分配,优化压缩数据在纹理映射、光照计算等渲染环节的重建效率,降低端侧延迟。

3.2 高斯喷溅

表示标准:构建统一的高斯点云格式,强化跨平台兼容性。

渲染标准:规范高斯点渲染流程,确保不同设备上的视觉一致性。明确光照模型、分辨率支持及帧率要求,以保证渲染效果的稳定性。

交互标准:定义高斯数字人与用户的交互协议,涵盖动作捕捉、表情驱动及语音反馈等接口。

4、结语

数字人压缩技术的标准化进程正迈向关键阶段。当前,AVS工作组在点云与网格压缩领域取得阶段性突破,下一步需针对数字人应用场景开展算法适配及优化。同时,基于高斯喷溅模型的新型表征压缩技术亟需探索,从而实现压缩效率与渲染保真的双重提升。后续,AVS数字人压缩标准探索组将围绕上述方向展开标准研制工作,推动实现数字人技术从“实验室原型”到“规模化场景应用”的跨越,为元宇宙、数字孪生、智慧教育、医疗等新兴领域注入变革动力。

【参考文献】

[1] 易千喜,谢良,王诚威,郑凯予,李革,高伟. 基于点云和网格的数字人压缩需求调研,AVS M8815,长沙,2025.

[2] 颜若珂, 尹茜, 唐浩程, 翟英震, 贾川民, 王苫社, 马思伟. 面向高斯数字人的压缩标准化建议提案,AVS M8862,长沙,2025.

[3] Chen, Yufan, Lizhen Wang, Qijing Li, Hongjiang Xiao, Shengping Zhang, Hongxun Yao, and Yebin Liu. "Monogaussianavatar: Monocular gaussian point-based head avatar." In ACM SIGGRAPH 2024 Conference Papers, pp. 1-9. 2024.

[4] Shao, Zhijing, Zhaolong Wang, Zhuang Li, Duotun Wang, Xiangru Lin, Yu Zhang, Mingming Fan, and Zeyu Wang. "Splattingavatar: Realistic real-time human avatars with mesh-embedded gaussian splatting." In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 1606-1616. 2024.

作者:赵丽丽、郭勐、颜若珂、尹茜、贾川民、马思伟

单位:中国移动研究院

来源: 中移科协