引言:数字人的研究包括高分辨率数字人3D建模、VR头显下的三维人脸重建、个性化声纹转换与合成、多模态情感识别与交互等前沿技术。同时,数字人应用于政府公共服务机构、企业展厅、政务大厅、旅游景区、公共交通、博物馆、金融机构、大型商超、智能社区、医疗等多个场所,为这些场所提供智能交互服务。
研发背景
数字人是用户与数字世界链接交互的第一入口,也是目前AI在元宇宙中的一个成熟应用场景,然而,在数字人的产业化应用落地推广中,仍存在生成效率低、精度与自然度低、情感表达能力缺乏、感知与认知能力不足等问题。数字人技术链各节点涉及人脸重建、表情迁移与捕捉、交互感知等多个细分领域,在制作和调优上存在较高技术壁垒,具体原因可以参考如下:
(1) 高精度三维人脸重建耗时长、成本高。现有人脸和表情数据较为稀缺,特别是亚洲面孔数据资料少,传统的三维人脸重建方法对硬件要求高、过程复杂。人脸建模存在生成效率低、精度低、成本高等系列问题。因此,亟需构建低成本高效率的高精度三维人脸重建技术与服务。
(2) 数字人表情单一、不自然,影响元宇宙用户的沉浸体验。受运动模糊、VR遮挡等因素影响,寻常表情迁移技术难以精确刻画用户真实的面部表情细节,导致数字人表情单一、不自然,直接影响到元宇宙用户的沉浸体验。研发数字人表情细节丰富、高自然度等相关表情迁移技术,提升元宇宙用户的沉浸体验尤为必要。
研究内容
针对三维虚拟形象建模和驱动人工成本高、制作周期长的问题,研究团队前期开展自动化可驱动人脸和人体三维建模,以及高表现力表情和肢体驱动等关键技术研究,使得用户能够低成本、高效率的定制个性化三维虚拟形象。对于个性化三维虚拟形象担当元宇宙中交互表达的数字替身,以及在客服,教育,直播,媒体,VR/AR等各个行业的快速定制化应用有重要意义。本文在前期开展了数字人建模、语音合成与唇形生成等技术前期研究,经过多年的研究和技术积累,为数字人建模技术与表情驱动开展奠定了良好的基础。解了决数字人表情姿态迁移时序不一致、表达不自然等问题:表情捕捉面临运动模糊、视角变化、个体差异等挑战,项目完成表情信息的解耦与时序上下文建模,实现高逼真度高自然度数字人表情捕捉与迁移。
数字人建模技术
(1) 在高表现力三维人脸构建和驱动技术方面,前期开展线性参数化建模的3DMM人脸模型研究,采用3DMM线性参数化3D人脸模型进行3D人脸重建和参数获取,3DMM模型包含平均脸,ID基,表情基等参数,通过199维ID参数和79维表情参数可以表达人脸的不同形状和表情。因此,3D人脸重建的过程就是在确定一组ID和表情参数来对齐图像中的人脸,使人脸模型的形状表情与图像中人脸最相似;同时,开展一套高表现力的三维人脸驱动算法研究。该算法使用人工智能方法自动化地驱动三维人脸表情动作,不需要成本高昂的专业面部捕捉设备,也不需要专业演员实时进行表演,并且相较iPhone等低成本方案具备更高的面部表现力,能够表达出虚拟形象多样的面部表情情感,使得用户和虚拟形象交互时具备更良好的用户体验。
(2) 在低成本快速三维人体模型建模和驱动技术方面,开展具有对话语义的肢体动作驱动技术研究,三维虚拟形象作为当下流行的互动媒体,是目前人机交互的重要一环。虚拟人的社交能力与技巧对交互体验有着深刻影响。这些能力包括:言语内容、话轮转换、视线交互、肢体语言等。其中,伴随对话时的非言语行为,特别是肢体动作,是传达人类情感的一大重要维度。在三维虚拟形象技术种,快速并自动化地实现具有对话语义的肢体动作驱动对项目实际应用有着重要意义。通过构建语义动作数据集,以实现完整的虚拟人自动化肢体动作驱动流程,将具有对话语义的自动化肢体动作合成分为基本动作合成模块(Basic Motion Synth,以下简称为BMS)与精确语义控制模块(Semantic Motion Controller,以下简称为SMC)两部分进行实现,从而打造生动、活跃的虚拟人交互过程。
(3) 针对传统三维人脸纹理重建存在分辨率低,真实感不足的问题,华南理工大学提出了基于单视图的高分辨率人脸纹理重建算法,利用图像变形场和多视角对抗损失函数,能够在低数据依赖条件下实现自监督训练,生成高分辨率人脸纹理贴图,得到高质量的三维人脸纹理重建结果。通过单视图输入,我们能够重建完整真实的人脸纹理贴图,重建的三维人脸在各个视角上面依然保持着高真实感。
本文主要对人脸和表情数据库建立和高精度三维人脸重建方法进行研究。其中,人脸和表情数据库建立包括提出高精度人脸模型标签建立的方法和制定受试者扫描的范式流程,从而采集建立一个大型的包含亚洲人面孔的高精度人脸模型数据库。高精度三维人脸重建基于单视图、多视图的输入端到端地重建高精度的三维人脸形状和纹理,并通过图像域适应技术解决非限制域图像和采集域图像分布不一致的问题。 图1高精度三维人脸建模的研究内容
高精度数字孪生人的建模可以分为数字人表观建模和数字人类人交互能力建模两大部分。一方面,通过多视角图像输入可以重建出高精度的数字人三维模型,并通过表情和姿态捕捉技术进行数字人化身的驱动。另一方面,基于多模态感知技术,建立数字人人脑感知决策交互模型,能够对文本,语音和情感数据进行语义分析和理解,并驱动数字人模型做出相应的交互行为。表观建模和交互能力结合最终可以实现覆盖物理空间全时空、全场景的智能化数字孪生技术。
总结
本文采用业内领先的数字虚拟人技术,对推动数字文旅产业高质量发展具有核心价值本项目围绕数字人技术在文旅产业的应用中,面临的数字人生成效率低、精度与自然度低、情感表达能力缺乏、感知与认知能力不足等问题,以提升数字人沉浸交互体验、构建面向虚拟数字人应用的全链式服务平台为目标,创新性研究面向高自然度数字人的表情姿态捕捉与迁移、个性化语音合成与交互行为生产、高精度三维人脸建模和基于多模态感知的数字人交互等关键技术,通过构建高逼真虚拟数字人资产库、集成个性化语音合成与唇形表情生成等技术成果、研发高自然度虚拟数字人建模和交互平台,并把数字虚拟人在智慧文娱领域形成示范应用。为政府公共服务机构、企业展厅、政务大厅、旅游景区、公共交通、博物馆、金融机构、大型商超、智能社区、医疗等多个场所提供智能交互服务。
参考文献
[1] 黄哲;潘力;王军;姚彤.数字化人台建模研究进展[J].纺织科技进展,2021,(06):48-52.DOI:10.19507/j.cnki.1673-0356.2021.06.013
[2] 陈子阳;刘伟.基于数字孪生工业机器人建模与远程监控系统的设计[J].制造业自动化,2023,45(06):17-22.
[3] 江思杰;肖莹;郭骧;姚圣祥;张振;李晶;成厚龙.基于数字建模仿真环境试验技术研究[J].环境技术,2023,41(06):99-104.
[4] 洪阳.高保真虚拟数字人的表示与重建[D].中国科学技术大学,2022.DOI:10.27517/d.cnki.gzkju.2022.000779
[5] 谢鹏举.基于高精度三维人脸模型的表情精确建模方法[D].中国科学院大学(中国科学院深圳先进技术研究院),2022.DOI:10.27822/d.cnki.gszxj.2022.000068
[6] 陈柯宇.面向数字人应用的人脸表示与动画驱动[D].中国科学技术大学,2021.DOI:10.27517/d.cnki.gzkju.2021.001470