【发明授权】低内存语音关键词检测方法、系统、介质、设备及终端_西安电子科技大学_202110227395.9

申请/专利权人：西安电子科技大学

申请日：2021-03-02

公开（公告）日：2024-05-17

公开（公告）号：CN112735469B

主分类号：G10L25/24

分类号：G10L25/24;G10L25/18;G10L25/30;G10L25/51

优先权：["20201028 CN 2020111745564"]

专利状态码：有效-授权

法律状态：2024.05.17#授权;2021.05.21#实质审查的生效;2021.04.30#公开

摘要：本发明属于语音信号处理技术领域，公开了一种低内存语音关键词检测方法、系统、介质、设备及终端，对语音信号进行预处理、时频域特征MFCC提取、关注和时序卷积神经网络模型训练；对TACRNN模型中全连接层的参数通过SVD技术进行降维，并对降维参数进行低位量化，降低需要存储模型参数的存储量。本发明不先对原有模型参数进行SVD实现模型参数的压缩，充分运用了模型参数间的关联性极大地减少了对参数存储的内存需求。本发明不同于传统的模型参数采用双精度浮点表示的做法；在对模型参数进行SVD降维的基础上，对压缩后的参数用低位表示，减少了对模型参数的内存需求。进一步的强化和适应轻量级设备对语音检测算法的部署能力。

主权项：1.一种低内存语音关键词检测方法，其特征在于，所述低内存语音关键词检测方法对语音信号进行预处理、时频域特征MFCC提取、关注和时序卷积神经网络TACRNN模型训练；对TACRNN模型中全连接层的参数通过SVD技术进行降维，并对降维参数进行低位量化，降低需要存储模型参数的存储量；所述低内存语音关键词检测方法包括以下步骤：步骤一，采集待检测的关键词以及非关键词的语音，并对数据做好标签，将采集到的语音分为训练集，测试集以及验证集；步骤二，对语音信号做预处理，提取语音信号的梅尔倒谱系数特征，得到m行N列的特征矩阵F，其中m是梅尔倒谱系数特征矢量的维度，N是语音信号分帧总数；步骤三，构建关注和时序卷积TACRNN模型，该模型包含卷积网络、循环网络、注意力机制、三层全连接层、softmax分类器五部分，其中softmax分类器的输出是计算出输入的语音为关键词的概率；步骤四，将F作为模型的输入，通过softmax得到的关键词概率作为输出；步骤五，以交叉熵作为模型的损失函数，利用梯度下降算法训练网络，直到模型的损失函数收敛，同时验证集达到最优时停止训练；步骤六，提取出停止训练后三层全连接每层的权重矩阵Wc＝[W1,W2,W3]，其中W1表示第一层全连接层的权重矩阵，W2表示第二层全连接层的权重矩阵，W3表示第三层全连接层的权重矩阵；步骤七，初始化SVD分解特征数量的k；步骤八，初始化全连接层中存储每个参数的比特数b；步骤九，设置计数器c＝1；步骤十，对全连接的权重矩阵Wc进行SVD分解；步骤十一，根据SVD的性质以及Uc、Vc、Λc、特征数量k得到对应的URc、VRc、ΛRc；步骤十二，分别对URc、VRc、ΛRc进行低位表示；步骤十三，计数器c＝c+1；步骤十四，当计数器c大于3时，执行步骤十五，否则执行步骤十；步骤十五，存储模型中三层全连接层权重矩阵的低位表示UR_Li、VR_Li、ΛR_Li，i＝1,2,3，替换权重矩阵[W1,W2,W3]的存储，降低所需内存。

全文数据：

权利要求：

百度查询：西安电子科技大学低内存语音关键词检测方法、系统、介质、设备及终端

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

相关技术

相关技术

相关技术

相关技术

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

【发明授权】低内存语音关键词检测方法、系统、介质、设备及终端_西安电子科技大学_202110227395.9

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务