日前,南京工业大学学子孙文浩、彭华东、沙书杰、邢卓雅、李彦达在老师的指导下,凭借作品《基于多模态的元宇宙数字助手——魔镜》在2022RoboCom机器人开发者大赛信息技术与工程创客赛道全国总决赛中获得一等奖。
孙文浩等五位同学设计制作了一款能够感知人类情绪的数字人形象助手——“魔镜”,用户坐在电脑面前,打开摄像头与麦克风,对着"魔镜"说话,“魔镜”就能够通过其声音与视频,进行情感识别,数字人随即会做出相对应的表情,帮助用户感知自己的情绪。
南京工业大学电子信息工程专业2019级学生孙文浩说:“我们选择了比动漫人物、动物在表情复现上更为精细的数字人写实形象作为建模方案,而实现表情驱动,则需要对真人的眉毛、眼睛、鼻子、嘴巴等70个特征点进行标定。”
想要辨别一个真实的人的情绪,光靠视觉辨别远远不够,还要增加声音这一模态来判断人的情绪。武晓光和郭天文两位老师在此基础上又向团队提出了优化方案。团队通过处理时域信号得出语音频谱图,从而实现基于听觉的情绪识别。语音数据集选自CASIA汉语情感语料库,它是由中国科学院自动化所录制,包括四个专业发音人,生气、高兴、害怕、悲伤、惊讶和中性等六种情绪,共4800句不同发音。
团队指导老师、南京工业大学计算机科学与技术学院实验中心主任郭天文告诉记者:“声音和面部表情相比,可能更难于伪装。一个视频模态,一个音频模态,两者结合,就可以使得我们的作品,对人类情绪的判断,就会非常准确。”
在老师的指导下,该团队还完善了数字人细腻化表情呈现、精细化报告设计。目前,“魔镜”在功能上已经实现了对情绪的准确判断,并针对不同的情绪进行音乐推送。未来,“魔镜”有望实现设备的轻量化,加入更多模态,对人的情绪进行更深入探索。
孙文浩说:“为元宇宙人机交互,提供了情绪互动的桥梁,使得数字人的内涵和外延得以延展,我们将在心理健康诊断,情绪舒缓应用场景,都将不断深挖丰富。”
(江苏广电融媒体新闻中心/黄迪 王教群 通讯员/韦玮 编辑/赵川)