申请/专利权人:广东博华超高清创新中心有限公司
申请日:2024-01-04
公开(公告)日:2024-04-02
公开(公告)号:CN117809683A
主分类号:G10L25/03
分类号:G10L25/03;G10L25/30;G10L25/51;G01S5/18
优先权:
专利状态码:在审-实质审查的生效
法律状态:2024.04.19#实质审查的生效;2024.04.02#公开
摘要:本发明提供了一种基于注意力机制的单麦克风声学成像方法,包括:S1.对声音信号进行预处理得到相应语谱图,对图像数据进行预处理;S2.将图像和语谱图进行提取特征,得到图像特征和声音特征;S3.将图像特征和声音特征映射到一个潜空间中;S4.得到声图注意力信号;S5.将声图注意力信号通过权重分配函数进行分配,之后与S4输出的声音及图像特征叠加,得到叠加后的图像特征和声音特征;S6.将叠加后的图像特征和声音特征通过权重共享的两个长短记忆网络中进行特征对齐、相加、成像,得到对应的声图。本方法通过声音引导的视觉注意力机制进行声源定位,有效地提升了声源地位即声学图像生成的准确性和鲁棒性,并极大地降低了硬件成本。
主权项:1.一种基于注意力机制的单麦克风声学成像方法,其特征在于,包括以下步骤:S1.对声音信号进行预处理得到相应的语谱图,同时对图像数据进行预处理;S2.将步骤S1得到的图像和语谱图进行提取特征,得到图像特征和声音特征;S3.通过全连接层将步骤S2得到的图像特征和声音特征映射到一个潜空间中;S4.使用声音引导的注意力机制计算声图注意力值,同时将映射后的图像特征和声音特征分别通过激活函数进行激活,得到声图注意力信号;S5.将所述声图注意力信号通过权重分配函数进行分配,之后与S4输出的声音及图像特征叠加,得到叠加后的图像特征和声音特征;S6.将所述叠加后的图像特征和声音特征通过权重共享的两个长短记忆网络中进行特征对齐,之后相加,并使用特征可视化算法成像,得到对应的声图。
全文数据:
权利要求:
百度查询: 广东博华超高清创新中心有限公司 一种基于注意力机制的单麦克风声学成像方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。