【发明授权】音视频唤醒方法、系统、设备及存储介质_中国科学技术大学_202110665499.8

导航：龙图腾网> 最新专利技术> 音视频唤醒方法、系统、设备及存储介质_中国科学技术大学_202110665499.8

申请/专利权人：中国科学技术大学

申请日：2021-06-16

公开（公告）日：2024-04-02

公开（公告）号：CN113393833B

主分类号：G10L15/06

分类号：G10L15/06;G10L15/16;G10L15/22;G10L15/26;G06F18/213;G06F18/214;G06F18/241;G06F18/25;G06N3/0455;G06N3/08

优先权：

专利状态码：有效-授权

法律状态：2024.04.02#授权;2021.10.01#实质审查的生效;2021.09.14#公开

摘要：本发明公开了一种音视频唤醒方法、系统、设备及存储介质，引入视频模态来改善和提高唤醒系统性能，能够适应真实复杂场景下的唤醒任务，提高唤醒率，提升交互体验；而且，也针对音视频多模态唤醒数据量相对较少的特点，提出使用基于跨模态的师生模型，迁移并利用丰富的大数据量单模态声学数据训练得到的有效信息，改善因多模态音视频唤醒训练数据量较少带来的系统性能损失，提高唤醒率。

主权项：1.一种基于师生跨模态学习的音视频唤醒方法，其特征在于，包括：构造音频数据集、以及包含音频数据与视频数据的音视频多模态唤醒数据集；利用音频数据集以及音视频多模态唤醒数据集中的音频数据训练一个神经网络模型，将其作为教师语音唤醒模型；构建输入包含音频特征与视频特征的神经网络模型，将其作为学生音视频唤醒模型；将从音视频多模态唤醒数据集中提取的音频特征与视频特征拼接后输入至学生音视频唤醒模型，并将相应的音频特征同步输入至教师语音唤醒模型，将学生音视频唤醒模型与教师语音唤醒模型的输出结果之间的损失、以及利用学生音视频唤醒模型输出结果计算出的损失作为联合训练阶段的总损失，固定教师语音唤醒模型的网络参数，优化所述学生音视频唤醒模型的网络参数；使用优化后的学生音视频唤醒模型进行解码测试，输出是否唤醒的判别结果。

全文数据：

权利要求：

百度查询：中国科学技术大学音视频唤醒方法、系统、设备及存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种大米加工砂辊碾米机_湖北九龙湖米业有限公司_202322482168.8

下一篇：一种文旦柚栽培用的施肥装置_莆田冠腾科技有限公司_202322446584.2

相关技术

一种大米加工砂辊碾米机_湖北九龙湖米业有限公司_202322482168.8

一种文旦柚栽培用的施肥装置_莆田冠腾科技有限公司_202322446584.2

一种环形导轨间歇循环通电装置_东莞市臻域自动化设备有限公司_202322566793.0

一种注塑机新型泵罩门板_恩格尔注塑机械(常州)有限公司_202322227242.1

一种高效型苗种植机_海南勤璞园农业科技有限公司_202322496666.8

一种盒式包装机输送机构_安徽从仁堂生物科技有限公司_202322459283.3

一种籽晶自动熔接结构_四川永祥光伏科技有限公司_202322431204.8

一种叠瓦电池片检测用工装_江苏龙恒新能源有限公司_202322351795.8

一种用于汽车保险杠加工的旋转喷漆装置_重庆渝湘智成汽车配件有限公司_202322547178.5

一种具有服药求助警报功能的药丸储存项链_杨洁_202322091839.8

一种基于区块链技术的危险废物监管装置_上海博优环境科技发展有限公司_202322288382.X

双组份胶水即停防干装置_重庆金芯麦斯传感器技术有限公司_202322250925.9

龙图腾网&IPTOP

【发明授权】音视频唤醒方法、系统、设备及存储介质_中国科学技术大学_202110665499.8

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务