申请/专利权人:杭州电子科技大学
申请日:2023-11-15
公开(公告)日:2024-04-19
公开(公告)号:CN117912067A
主分类号:G06V40/16
分类号:G06V40/16;G06V20/40;G06V10/82;G06N3/0464;G06N3/0475;G06N3/08
优先权:
专利状态码:在审-实质审查的生效
法律状态:2024.05.07#实质审查的生效;2024.04.19#公开
摘要:本发明公开了基于唇动人脸生成技术的带表情说话人脸图像生成方法,包括如下步骤:S1、获取原视频,指定语言的单说话人视频,基于该原视频,得到翻译成另一种指定语言的人声音频和不带表情的图片序列;S2、基于另一种指定语言的人声音频,得到人声特征向量;S3、基于不带表情的图片序列,得到人脸特征向量;S4、基于预先给定的原视频人脸真实表情标注,得到人脸表情信息特征向量;S5、基于人声、人脸、表情信息特征向量,得到初始生成人脸;S6、将初始生成人脸通过鉴别器,获得自然带表情说话人脸图像序列。该方法通过引入一个额外的用于生成人脸表情的表情标签编码器、一个用于计算表情同步损失的预训练表情鉴别器,使其带有自然的面部表情。
主权项:1.一种基于唇动人脸生成技术的带表情说话人脸图像生成方法,其特征在于,包括如下步骤:S1、获取原视频,指定语言的但说话人视频,将原视频中的音频翻译成另一种指定语言的人声音频并得到不带表情的图片序列;S2、另一种指定语言的人声音频作为输入,通过非监督的语言表征训练算法Wav2Vec得到人声特征向量;S3、对于不带表情的图片序列F^*,每次取出当前帧F_i^*,与原视频时间对应的上一帧F_i-1拼接,拼接后作为输入通过FaceNet模型得到人脸特征向量;S4、给定人脸视频真实表情标签,通过表情标签编码器编码得到人脸表情标签;S5、将人声特征向量、人脸特征向量和人脸表情标签通过拼接并通过生成器得到初始生成人脸;S6、将初始生成人脸通过鉴别器,获得自然带表情说话人脸图像序列。
全文数据:
权利要求:
百度查询: 杭州电子科技大学 基于唇动人脸生成技术的带表情说话人脸图像生成方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。