【发明授权】声源定位模型的训练与声源定位方法、装置_北京百度网讯科技有限公司_202111068636.6

导航：龙图腾网> 最新专利技术> 声源定位模型的训练与声源定位方法、装置_北京百度网讯科技有限公司_202111068636.6

申请/专利权人：北京百度网讯科技有限公司

申请日：2021-09-13

公开（公告）日：2022-09-23

公开（公告）号：CN113903334B

主分类号：G10L15/22

分类号：G10L15/22;G10L15/02;G10L15/05;G10L15/06;G10L15/16

优先权：

专利状态码：有效-授权

法律状态：2022.09.23#授权;2022.01.25#实质审查的生效;2022.01.07#公开

摘要：本公开提供了一种声源定位模型的训练与声源定位方法，涉及语音处理、深度学习等人工智能技术领域。声源定位模型的训练方法包括：根据包含唤醒词的音频信号得到样本音频；提取样本音频中至少一个音频帧的音频特征，标注至少一个音频帧的方向标签与掩码标签；使用至少一个音频帧的音频特征、方向标签与掩码标签对神经网络模型进行训练，得到声源定位模型。声源定位方法包括：获取待处理音频信号，提取待处理音频信号中每个音频帧的音频特征；将每个音频帧的音频特征输入声源定位模型，得到声源定位模型针对每个音频帧输出的声源方向信息；确定待处理音频信号中的唤醒词尾点帧；根据对应唤醒词尾点帧的声源方向信息得到待处理音频信号的声源方向。

主权项：1.一种声源定位模型的训练方法，包括：根据包含唤醒词的音频信号得到样本音频；提取所述样本音频中至少一个音频帧的音频特征，标注所述至少一个音频帧的方向标签与掩码标签，其中，音频帧的掩码标签为1或者0，音频帧的掩码标签为1，表示该音频帧参与神经网络模型的损失函数值的计算，音频帧的掩码标签为0，表示该音频帧不参与神经网络模型的损失函数值的计算；使用所述至少一个音频帧的音频特征以及所述至少一个音频帧的方向标签与掩码标签对神经网络模型进行训练，得到声源定位模型；所述根据包含唤醒词的音频信号得到样本音频包括：获取所述音频信号中所包含的唤醒词的词语长度；确定与所述词语长度对应的目标时长；从所述音频信号中截取与所述目标时长对应的音频作为所述样本音频。

全文数据：

权利要求：

百度查询：北京百度网讯科技有限公司声源定位模型的训练与声源定位方法、装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：气密封螺纹接头的密封完整性分析方法_中国石油天然气集团有限公司_202211217925.2

下一篇：一种智能密集型母线槽插接箱_纳图(镇江)母线有限公司_202311829316.7

相关技术

气密封螺纹接头的密封完整性分析方法_中国石油天然气集团有限公司_202211217925.2

一种智能密集型母线槽插接箱_纳图(镇江)母线有限公司_202311829316.7

一种角蛋白YK93-2、制法和其药物组合物与用途_中国医学科学院药物研究所_202211217433.3

包括片上电阻器的半导体器件和校准片上电阻器的方法_爱思开海力士有限公司_202310572178.2

一种转动机构和折叠终端_荣耀终端有限公司_202211214186.1

一种铅钙锡铜合金、制备方法、正极板栅及铅酸蓄电池_安徽力普拉斯电源技术有限公司_202311837568.4

一种基于TiDB分布式集群的环境管理系统及方法_天翼云科技有限公司_202311645510.X

一种高压气动油泵及其操作方法_中国石油天然气集团有限公司_202211219810.7

一种基于多源数据融合的大尺度植被覆盖度的评估方法_上海建工五建集团有限公司_202311726158.2

全流程数字化低温端面密封试验数据测量系统和方法_北京航天动力研究所_202311808623.7

基于硬件增强的芯片安全管理方法、装置、终端及介质_芯云晟(杭州)电子科技有限公司_202310732719.3

校准方法、校准装置、介质及电子设备_上海交通大学_202211218075.8

龙图腾网&IPTOP

【发明授权】声源定位模型的训练与声源定位方法、装置_北京百度网讯科技有限公司_202111068636.6

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务