Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 电子科技大学吴庆波获国家专利权

电子科技大学吴庆波获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉电子科技大学申请的专利一种基于跨模态认知共识对齐的音视频分割方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117079181B

龙图腾网通过国家知识产权局官网在2025-06-13发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310933937.3,技术领域涉及:G06V20/40;该发明授权一种基于跨模态认知共识对齐的音视频分割方法是由吴庆波;施兆丰;李宏亮;孟凡满;潘力立;许林峰设计研发完成,并于2023-07-27向国家知识产权局提交的专利申请。

一种基于跨模态认知共识对齐的音视频分割方法在说明书摘要公布了:该发明公开了一种基于跨模态认知共识对齐的音视频分割方法,属于多模态图像分割领域。提出了跨模态认知共识模块以及认知共识引导的注意力模块,跨模态认知共识模块分别计算音频、视觉分类置信度,并衡量音视频语义标签的互相似度,接着使用分类置信度对互相似度进行加权,得到语义级跨模态认知共识分数并选取语义对齐的标签;随后,将语义对齐的标签梯度反传回视觉编码器获取类激活信息,通过认知共识引导的注意力模块,突出语义一致性高的视觉目标,以指导后续的分割过程。一方面,本发明的方法在音视频分割数据集上达到了目前最先进的性能;另一方面,本发明的方法可以准确有效的分割出视频中的发声目标,并且输出像素级掩码。

本发明授权一种基于跨模态认知共识对齐的音视频分割方法在权利要求书中公布了:1.一种基于跨模态认知共识对齐的音视频分割方法,该方法包括: 步骤1:获得视频帧以及其对应的音频片段;视觉编码器具有四个特征提取阶段,将视频帧输入至视觉编码器,并取视觉编码器四个阶段输出的视觉特征作为层次化视觉特征,并表示为Vi,i=1,2,3,4;此外,将音频片段输入音频编码器,提取音频特征Fa;层次化视觉特征Vi与音频特征Fa将用于进行后续计算; 步骤2:利用音频编码器和视觉编码器预置的分类头及其分类权重;在视觉编码器输出的层次化视觉特征Vi,i=1,2,3,4中,V4为最高层级的视觉特征,并且包含图像的全局性语义信息;分别对视觉特征V4与音频特征Fa进行类别置信度打分,计算得到的视觉分类置信度与音频分类置信度接着,计算视觉标签文本与音频标签文本之间的语义级相似度mjk,具体公式如下: 其中,||·||F代表Frobenius范数,j与k分别代表最终计算得到的语义相似度矩阵Msim的行、列索引;接着,计算置信度重加权矩阵Mcofj,k,具体公式如下: 其中,α与β为平衡系数,置信度重加权矩阵Mcofj,k内的值即可看做对应视觉语义与文本语义的认知共识打分;在获取置信度重加权矩阵Mcofj,k后,找到矩阵中的最大打分值,并获取最大值处对应的视觉标签,以作为模态对齐的语义标签;将模态对齐的语义标签以梯度反向传播的形式传回视觉编码器的四个层次化阶段,并得到类激活权重 步骤3:得到类激活权重后,将包含语义级对齐信息的权重集成到编码器提取的特征中,具体公式如下: 其中,σ代表sigmoid函数运算,Avg指取平均操作,代表带有广播机制的逐点相乘;认知共识引导的注意力模以一种通道—空间的形式,将语义级认知共识权重与视频特征级表征集成在一起,得到集成信息Vi r,以指导网络进行后续分割; 步骤4:首先对音频特征Fa进行映射与重复操作,得到接着,将该层级的视觉特征Vi通过空洞卷积模块得到Vi a并与音频特征共同输入非本地模块中从而进行音视频特征级跨模态交互,具体公式如下: Mi=Vi a+θ4Φ·θ3Vi a8 公式中的θ1、θ2、θ3以及θ4分别代表不同的三维卷积层,N是特征谱的像素个数,Φ是跨模态注意力矩阵,Mi是第i级的多模态特征; 步骤5:将层级化的多模态特征Mi进行融合,融合公式如下: 公式中的Conv代表卷积层、Upsample代表上采样操作,将Y1送入全卷积网络以获得网络的预测值最后,使用二值交叉熵损失对网络进行训练: 其中,Y代表分割掩码的真实值,Lseg代表损失值。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人电子科技大学,其通讯地址为:611731 四川省成都市高新区(西区)西源大道2006号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。