【发明授权】一种基于深度学习的语音会话分割方法_合肥工业大学_202111245978.0

导航：龙图腾网> 最新专利技术> 一种基于深度学习的语音会话分割方法_合肥工业大学_202111245978.0

申请/专利权人：合肥工业大学

申请日：2021-10-26

公开（公告）日：2024-04-16

公开（公告）号：CN113963718B

主分类号：G10L25/27

分类号：G10L25/27;G10L25/45;G10L25/78;G10L25/24;G06N3/0464;G06N3/09;G06F18/23213

优先权：

专利状态码：有效-授权

法律状态：2024.04.16#授权;2022.02.15#实质审查的生效;2022.01.21#公开

摘要：本发明公开了一种基于深度学习的语音会话分割方法，包括：1获取会话语音集合并进行分帧和短时加窗处理；2筛除静音段；3提取语音信号的显式特征；4提取语音信号的隐式特征5κ‑means聚类。本发明方法在有背景噪声情况下仍然能保证分割聚类的准确性和时效性。

主权项：1.一种基于深度学习的语音会话分割方法，其特征是按如下步骤进行：步骤1、获取会话语音集合W＝{w1,y1,w2,y2,…,wm′,ym′,…,wM′,yM′}，其中，wm′表示第m′条会话语音，并有：wm′＝wm′,T,wm′,2T,…,wm′,nT,…,wm′,tTT，wm′,nT表示第m′条会话语音wm′中在n×T时刻的信号强度，t表示第m′条语音会话wm′的时间长度，T表示采样周期；ym′表示第m′条语音会话的会话者的唯一身份标签，并对ym′进行one-hot向量表示，得到向量化后的第m′个身份标签向量，记为其中，表示第m′个样本对应身份标签向量的第i维的值，K为会话语音集合W中会话者的人数；M′表示会话语音的数量；步骤2、分帧和短时加窗处理：将帧长度设置为T1，从而采用交叠分段的方法对会话语音集合W中的M′条会话语音{w1,w2,...,wM′}进行分帧处理，得到M个语音帧，再以汉明窗作为窗函数对M个语音帧进行滑动处理，得到加窗处理后的语音帧集合F＝{f1,y1,f2,y2,…,fm,ym,…,fM,yM}，fm表示第m个加窗后的语音帧，并有：其中，fm,iT表示第m个加窗后的语音帧fm在i×T时刻的信号强度；ym表示第m个加窗后的语音帧fm所对应的会话者标签；步骤3、筛除静音段：利用式1计算所述语音帧集合F中第m个加窗后的语音帧fm的能量Efm：设EM为静音帧的阈值，将能量Efm与阈值EM进行比较，并筛除能量Efm小于EM的语音帧，从而得筛选后的语音帧集合Fvoice＝{f′1,y′1,f′2,y′2,…,f′n,y′n,…,f′N,y′N}，其中，f′n表示筛选后的第n条语音帧，y′n为筛选后的第n条语音帧f′n所对应的会话者标签；N为语音帧集合Fvoice中的语音帧条数；步骤4、语音信号的显式特征提取：步骤4.1、对所述语音帧集合Fvoice中的语音帧进行快速傅立叶变换，得到各帧的频谱；再对各帧的频谱取模的平方得到N个功率谱，由每个功率谱所对应的灰度图构成灰度图集合，记为G＝{g1,y′1,g2,y′2,…,gn,y′n,…,gN,y′N}，其中，gn表示第n个功率谱所对应的灰度图，并以二维矩阵来表示；步骤4.2、将灰度图集合G划分为包含N1个样本的训练集Gtrain和N2个样本的测试集Gtest，且Gtrain和Gtest中的会话者人数均为K；步骤4.3、提取MFCC特征：将测试集Gtest中N2个样本对应的功率谱通过一组包含B个梅尔尺度的三角滤波器组后，得到B个三角滤波器的频率响应值{Hc|c＝1,2,...,B}，其中，Hc表示第c个三角滤波器的频率响应，再计算B个三角滤波器组输出的对数能量{sc|c＝1,2,...,B}；其中，sc表示第c个三角滤波器输出的对数能量；将对数能量{sc|c＝1,2,...,B}进行离散余弦变换，得到N2个U维MFCC特征向量，记为其中，表示第n2个样本MFCC特征向量；步骤5、语音信号的隐式特征提取：步骤5.1、构建隐式特征提取模型；所述隐式特征提取模型是由三个分支所组成的基于注意力机制的语音特征提取网络，记作AFNet；其中，三个分支分别为特征提取分支、注意力机制分支、金字塔池化分支；步骤5.1.1、所述特征提取分支为ResNet-18模型；所述ResNet-18模型包括：一个卷积核大小为k1×k1的卷积层，一个尺度为k2×k2的最大池化层，四组残差模块和一个全连接层，每组残差模块内有两个标准残差块结构；其中，所述全连接层的神经元个数为I；记特征提取分支输出的预测向量是epred；步骤5.1.2、所述注意力机制分支由空洞空间金字塔池化模块、一个平均池化层，一个全连接层组成；并将所述特征提取分支中第三组残差模块输出的特征图作为注意力机制分支中的空洞空间金字塔池化模块的输入；所述空洞空间金字塔池化模块由五个分支所组成的，其中，第一个分支包含三个卷积核大小分别为3k3×3k3、2k3×2k3、k3×k3的卷积层，并输出第一向量econv1；第二个分支包含3个级联的卷积核为k3×k3的空洞卷积层，其扩张率分别是s1、2s1、s1，并输出第二向量econv2；第三个分支包含3个级联的卷积核为k3×k3的空洞卷积层，其扩张率分别是s2、2s2、s2，并输出第三向量econv3；第四个分支包含3个级联的卷积核为k3×k3的空洞卷积层，其扩张率分别是s3、2s3、s3，并输出第四向量econv4；第五个分支包含3个级联的卷积核为k3×k3的空洞卷积层，扩张率分别是s4、2s4、s4，并输出第五向量econv5；将输出的五个向量econv1，econv2，econv3，econv4，econv5进行通道上的串联操作得到第六向量econv6，所述第六向量econv6经过平均池化层的全局平均池化操作后得到池化向量epool，所述池化向量epool经过一层全连接层的处理后输出注意力分支的预测向量eatt；步骤5.1.3、所述金字塔池化分支由五层构成，每层池化尺度为s5×s5、s6×s6、s7×s7、s8×s8、s9×s9；将所述特征提取分支中第一组残差模块输出的特征图ep0分别作为金字塔池化分支的五层输入，其中，特征向量ep0经过的第v层池化层后输出向量ev，再对向量ev进行卷积核为1×1卷积操作得到卷积向量econ_v，再对卷积向量econ_v进行双线性插值上采样得到特征向量ebranch_v，由五层得到的特征向量分别为ebranch_1，ebranch_2，ebranch_3，ebranch_4，ebranch_5；将特征向量ep0和五层分别输出的特征向量ebranch_1，ebranch_2，ebranch_3，ebranch_4，ebranch_5按通道数维度进行concat操作，得到金字塔池化分支的预测向量eppm，最后将三个预测向量epred，eatt，eppm按通道数维度进行concat操作后，得到I维预测向量epredict，并作为所述隐式特征提取模型的输出；步骤5.2、网络训练：基于所述测试集Gtest，使用随机梯度下降法最小化如式2所示的交叉熵损失函数以优化所述隐式特征提取模型的权重，从而训练所述隐式特征提取模型直到收敛为止；式2中，表示测试集Gtest中第n2个样本，表示第n2个样本对应身份标签向量的第b维的值，表示第n2个样本经过隐式特征提取模型处理得到的I维预测向量的第b维的值；步骤5.3、隐式特征提取；将测试集Gtest中N2个样本输入训练好的隐式特征提取模型中，并经过特征提取分支的全连接层后输出I维隐式特征向量集合其中，表示第n2个样本经过特征提取分支的全连接层后得到的I维隐式特征向量；步骤6.κ-means聚类：步骤6.1、构造特征向量：由I维隐式特征向量集合FeatureAFNet和MFCC特征向量FeatureMFCC构成N2个U+I维的特征向量集合其中，表示第n2个样本的特征向量，且步骤6.2、初始化d＝1；从特征向量集合Feature中随机选择k个样本m1,m2,...,mr,...,mk作为第d次迭代的聚类中心；步骤6.2.1、初始化k个聚类S＝{S1,S2,...,Sr,...,Sk}并作为第d次迭代的k个聚类步骤6.2.2、利用式3将特征向量集合Feature中的特征向量分配到第d次迭代的k个聚类中，Sr表示第r个聚类：式3中，表示在第d次迭代中第r个聚类，表示在第d次迭代中第r个聚类中心；步骤6.2.3、利用式4对第d次迭代中第r个聚类中心进行更新，得到在第d+1次迭代中第r个聚类中心，从而得到第d+1次迭代的聚类中心步骤6.2.4、将d+1赋值给d后，返回步骤6.2.2顺序执行，直到收敛，从而得到k个聚类，用于对会话语音集合W进行分割。

全文数据：

权利要求：

百度查询：合肥工业大学一种基于深度学习的语音会话分割方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种具有安全防护的桥梁施工操作台_博信达建设集团有限公司_202322675828.4

下一篇：一种水泵节能增压装置_陕西海利智慧能源科技有限公司_202322218413.4

相关技术

一种具有安全防护的桥梁施工操作台_博信达建设集团有限公司_202322675828.4

一种水泵节能增压装置_陕西海利智慧能源科技有限公司_202322218413.4

一种英语听力训练用耳机_大同师范高等专科学校_202322527447.1

一种梳式烟夹的胶头自动组装设备_广州阿尔法精密机械有限公司_202322475952.6

一种精密小磨床用物料固定装置_昆山法尔霆机电科技有限公司_202322612017.X

一种金属加工用表面涂装设备_江苏鲸工智能装备制造有限公司_202322502246.6

自动装盒设备_杭州永创智能设备股份有限公司_202322265646.X

一种可调节车挡_自贡市城市规划设计研究院有限责任公司_202322421392.6

一种纺织纱线缠绕架_江苏金銮纺织科技股份有限公司_202322120043.0

一种偏摆检查仪_长春一东离合器股份有限公司_202420407178.7

无功补偿柜柜体_广东澳江电气有限公司_202322547060.2

一种点火线圈密封结构_一汽解放汽车有限公司_202322812056.4

学习相关技术

具有降低的查找表学习速率的查找表学习方法及驱动电路_知微电子有限公司_202311208529.8

自学习照明群控系统及方法_非凡士智能科技(苏州)有限公司_202410150310.5

联邦学习方法、装置、设备及存储介质_杭州趣链科技有限公司_202011633747.2

一种学习用具和控制方法_张立华_201910399450.5

用于机器学习辅助预编码的设备和方法_矿业电信学校联盟_202080048329.9

利用模型增强的自监督学习_硕动力公司_202280060208.5

基于同态加密强化学习的电器负荷需求响应方法_河海大学_202210897543.2

用于工业机器人减速机故障学习方法_重庆工业职业技术学院_202310128261.0

一种分布式学习索引模型的构建方法及应用_华中科技大学_202111095824.8

基于深度学习的LED光源识别方法、装置、设备及介质_湖北经济学院_202410088953.1

会话相关技术

一种基于会话连接的数据处理方法及系统_北京天融信网络安全技术有限公司_202210828244.3

中继时的协议数据单元会话管理_高通股份有限公司_202280058748.X

基于会话的信息展示方法、装置、设备及存储介质_腾讯科技(深圳)有限公司_202010779665.2

一种基于深度学习的语音会话分割方法_合肥工业大学_202111245978.0

改善网络切片认证授权导致PDU会话失败的方法及系统_上海新基讯通信技术有限公司_202410037544.9

一种实现web访问会话保持的方法及装置_宣昱聪_202410118794.5

使用区块链对通信会话参与者的认证_微软技术许可有限责任公司_202280059064.1

服务于用户设备或PDU会话的分布式网络功能的暴露和发现_瑞典爱立信有限公司_202180021137.3

一种负载均衡系统的容量更新方法、会话备份方法和装置_北京火山引擎科技有限公司_202311745345.5

用于管理电气化车辆的再充电会话以确定在充电末尾的目标充电状态的管理方法_斯特兰蒂斯汽车集团_202280058067.3

分割相关技术

一种纸巾加工用切段分割机_长沙秀峰纸业有限公司_202322637522.X

一种CT图像的内直肌和视神经分割方法及系统_首都医科大学附属北京同仁医院_202010891689.7

一种鲁棒机器视觉目标识别分割方法及系统_宁波智能装备研究院有限公司_202110102459.2

一种训练数据集独立的单样本图像分割方法和系统_华南理工大学_202111253132.1

内燃机的曲柄轴用的半分割推力轴承及轴承装置_大同金属工业株式会社_202210296573.8

一种多模态信息指导的医学图像分割系统及图像处理方法_山东大学_202111524363.1

应用于OCT图像中目标特征分割的模型训练方法及装置_唯智医疗科技(佛山)有限公司_202110885125.7

基于文字辅助的半监督3D医学图像分割方法_中国海洋大学_202410096489.0

基于生成式对抗网络的胃癌病理切片图像分割预测方法_华南理工大学_202210382596.0

颅脑超声图像的脑白质区域分割方法、装置及电子设备_中国科学院深圳先进技术研究院_202010775228.3

龙图腾网&IPTOP

【发明授权】一种基于深度学习的语音会话分割方法_合肥工业大学_202111245978.0

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务