买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于跨模态自监督学习的主动说话人识别方法_复旦大学_202210120706.6 

申请/专利权人:复旦大学

申请日:2022-02-09

公开(公告)日:2024-04-05

公开(公告)号:CN114519880B

主分类号:G06V40/16

分类号:G06V40/16;G06V10/74;G06V10/82;G06N3/0895;G06N3/0464

优先权:

专利状态码:有效-授权

法律状态:2024.04.05#授权;2022.06.07#实质审查的生效;2022.05.20#公开

摘要:本发明提供一种基于跨模态自监督学习的主动说话人识别方法,通过利用视频的同步性特征来自动划分正负样本对用于训练,使得模型能够在无需人工标注的情况下训练至合适的参数,进一步,采用光流法追踪像素点在时间维度上的运动轨迹,通过计算轨迹上的注意力值的平均值可以得到整合后的注意力图,在注意力图上寻找注意力峰值的同时对其周围的区域进行非极大值抑制,能够方便准确地获取单帧注意力图上的人脸位置,通过沿着光流的轨迹反向投影,可准确获得原图中每一帧图片的人脸位置,通过利用人脸特征可计算与音频信号的余弦相似度,用预定的阈值过滤,从而获得能够对主动说话人图像以及非主动说话人图像同时进行高精度识别的主动说话人识别模型。

主权项:1.一种基于跨模态自监督学习的主动说话人识别方法,其特征在于,包括以下步骤:步骤S1,利用训练数据对主动说话人识别模型进行跨模态自监督学习,获得合适的模型参数;步骤S2,将待测视频输入训练完成的所述主动说话人识别模型,得到所述待测视频的主动说话人识别结果,其中,步骤S2中,所述主动说话人识别模型通过如下步骤进行识别:步骤S2-1,提取所述待测视频的视觉特征和听觉特征,并基于所述视觉特征和所述听觉特征计算所述待测视频中每帧图像的注意力图;步骤S2-2,采用光流法融合所述注意力图,提取每帧所述注意力图的密度光流值,并将所述密度光流值进行链接,得到光流轨迹,并对所述光流轨迹上的注意力得分进行平均;步骤S2-3,寻找所述注意力图中的峰值点,并采用非极大值抑制法去除干扰项;步骤S2-4,将找到的所述峰值点沿所述光流轨迹反向投影到每帧所述图像,从而定位各帧所述图像中的人脸位置;步骤S2-5,计算所述人脸位置的所述视觉特征和所述听觉特征的余弦相似度,当该余弦相似度大于预定的阈值时,判定所述人脸位置对应于主动说话人。

全文数据:

权利要求:

百度查询: 复旦大学 基于跨模态自监督学习的主动说话人识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。