【发明授权】基于跨模态自监督学习的主动说话人识别方法_复旦大学_202210120706.6

导航：龙图腾网> 最新专利技术> 基于跨模态自监督学习的主动说话人识别方法_复旦大学_202210120706.6

申请/专利权人：复旦大学

申请日：2022-02-09

公开（公告）日：2024-04-05

公开（公告）号：CN114519880B

主分类号：G06V40/16

分类号：G06V40/16;G06V10/74;G06V10/82;G06N3/0895;G06N3/0464

优先权：

专利状态码：有效-授权

法律状态：2024.04.05#授权;2022.06.07#实质审查的生效;2022.05.20#公开

摘要：本发明提供一种基于跨模态自监督学习的主动说话人识别方法，通过利用视频的同步性特征来自动划分正负样本对用于训练，使得模型能够在无需人工标注的情况下训练至合适的参数，进一步，采用光流法追踪像素点在时间维度上的运动轨迹，通过计算轨迹上的注意力值的平均值可以得到整合后的注意力图，在注意力图上寻找注意力峰值的同时对其周围的区域进行非极大值抑制，能够方便准确地获取单帧注意力图上的人脸位置，通过沿着光流的轨迹反向投影，可准确获得原图中每一帧图片的人脸位置，通过利用人脸特征可计算与音频信号的余弦相似度，用预定的阈值过滤，从而获得能够对主动说话人图像以及非主动说话人图像同时进行高精度识别的主动说话人识别模型。

主权项：1.一种基于跨模态自监督学习的主动说话人识别方法，其特征在于，包括以下步骤：步骤S1，利用训练数据对主动说话人识别模型进行跨模态自监督学习，获得合适的模型参数；步骤S2，将待测视频输入训练完成的所述主动说话人识别模型，得到所述待测视频的主动说话人识别结果，其中，步骤S2中，所述主动说话人识别模型通过如下步骤进行识别：步骤S2-1，提取所述待测视频的视觉特征和听觉特征，并基于所述视觉特征和所述听觉特征计算所述待测视频中每帧图像的注意力图；步骤S2-2，采用光流法融合所述注意力图，提取每帧所述注意力图的密度光流值，并将所述密度光流值进行链接，得到光流轨迹，并对所述光流轨迹上的注意力得分进行平均；步骤S2-3，寻找所述注意力图中的峰值点，并采用非极大值抑制法去除干扰项；步骤S2-4，将找到的所述峰值点沿所述光流轨迹反向投影到每帧所述图像，从而定位各帧所述图像中的人脸位置；步骤S2-5，计算所述人脸位置的所述视觉特征和所述听觉特征的余弦相似度，当该余弦相似度大于预定的阈值时，判定所述人脸位置对应于主动说话人。

全文数据：

权利要求：

百度查询：复旦大学基于跨模态自监督学习的主动说话人识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：电机转子定位工装_洛阳航特机电技术有限公司_202322258362.8

下一篇：一种药材脱皮机_安徽亳药福泰药业有限公司_202322752517.3

相关技术

电机转子定位工装_洛阳航特机电技术有限公司_202322258362.8

一种药材脱皮机_安徽亳药福泰药业有限公司_202322752517.3

一种带分励脱扣器组件的电子式断路器结构_杭州程翔电气有限公司_202322618372.8

一种便携式放线架_高炜精密电子(东莞)有限公司_202322772571.4

一种打孔装置_广州市骏褀无纺布实业有限公司_202321762517.5

一种能自动清洗的鸡养殖笼_海南省农业科学院三亚研究院(海南省实验动物研究中心)_202420555494.9

一种高速直驱转台_江苏心力量智能科技有限公司_202322229050.4

自动装盒设备_杭州永创智能设备股份有限公司_202322265646.X

一种纺织纱线缠绕架_江苏金銮纺织科技股份有限公司_202322120043.0

一种可移动升降旋转变形床头置物柜_山西传媒学院_202322018692.X

一种防卡管测斜仪探头_中国建筑西南勘察设计研究院有限公司_202420526288.5

一种户外交流高压封闭式隔离开关_瑞芯科技(河北雄安)有限公司_202322554260.0

龙图腾网&IPTOP

【发明授权】基于跨模态自监督学习的主动说话人识别方法_复旦大学_202210120706.6

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务