申请/专利权人:北京邮电大学
申请日:2023-11-27
公开(公告)日:2024-04-02
公开(公告)号:CN117809654A
主分类号:G10L15/26
分类号:G10L15/26;G10L19/16;G10L15/06
优先权:
专利状态码:在审-实质审查的生效
法律状态:2024.04.19#实质审查的生效;2024.04.02#公开
摘要:本申请公开了一种低资源的音频字幕生成方法、装置、电子设备及介质。通过应用本申请的技术方案,可以在一个包含语言编码器与音频编码器的多模态预训练模型中,首先利用样本量比较充足的文本数据,为已有的语言编码器训练得到一个语言解码器。并在后续将该语言编码器替换为音频编码器,以达到间接为音频编码器训练得到语言解码器的目的。以使后续仅用样本量较少的音频配对数据也能训练得到一个精度较高的音频多模态预训练模型。从而实现了一种在仅有少量可供训练音频‑字幕数据对的情况下,仍能取得较高模型性能的技术方案。
主权项:1.一种低资源的音频字幕生成方法,其特征在于,所述方法应用于包含语言编码器与音频编码器的多模态预训练模型,包括:利用多个文本数据以及所述语言编码器,得到文本语言解码器;将所述语言编码器替换为所述音频编码器,并利用多个音频配对数据对所述文本语言解码器进行训练,得到音频语言解码器,其中每个音频配对数据包含音频数据以及相关联的音频描述文本;利用所述多模态预训练模型中的音频编码器与所述音频语言解码器,为待识别音频生成对应的音频字幕。
全文数据:
权利要求:
百度查询: 北京邮电大学 低资源的音频字幕生成方法、装置、电子设备及介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。