【发明授权】语言模型的训练方法、语音识别方法及相关装置_广州虎牙科技有限公司_202110678753.8

导航：龙图腾网> 最新专利技术> 语言模型的训练方法、语音识别方法及相关装置_广州虎牙科技有限公司_202110678753.8

申请/专利权人：广州虎牙科技有限公司

申请日：2021-06-18

公开（公告）日：2024-05-17

公开（公告）号：CN113380225B

主分类号：G10L15/00

分类号：G10L15/00;G10L15/06;G10L15/183;G10L15/26

优先权：

专利状态码：有效-授权

法律状态：2024.05.17#授权;2021.09.28#实质审查的生效;2021.09.10#公开

摘要：本申请实施例提供的语言模型的训练方法、语音识别方法及相关装置，方法包括：获得口语训练语料集和业务训练语料集；其中，口语训练语料集是在任意场景下采集的文本集；业务数据集是在直播场景下采集的主播用户对应的文本集；根据口语训练语料集，对初始的语言模型进行预训练，获得预训练的语言模型；根据业务训练语料集，对预训练的语言模型进行微调训练，获得训练后的语言模型。本申请的训练样本不仅有业务训练语料，还有口语语料，在训练过程中先用口语训练语料进行预训练再用业务训练语料进行微调训练的训练，从而使得获得的语言模型不仅能够适配业务场景，还能避免出现过拟合。

主权项：1.一种语言模型的训练方法，其特征在于，所述方法包括：获得口语训练语料集和业务训练语料集；其中，所述口语训练语料集是在任意场景下采集的文本集；所述业务训练语料集是在直播场景下采集的主播用户对应的文本集；获得所述口语训练语料集中的第一待处理文本和所述业务训练语料集中的第二待处理文本；其中，所述第一待处理文本和所述第二待处理文本各自的文本长度大于预设长度；根据预设截断概率和预设截断长度，分别对所述第一待处理文本和所述第二待处理文本进行截断；将截断后的所述第一待处理文本作为所述口语训练语料集中的训练语料，将截断后的所述第二待处理文本作为所述业务训练语料集中的训练语料；根据所述口语训练语料集，对初始的语言模型进行预训练，获得预训练的所述语言模型；根据所述业务训练语料集，对所述预训练的所述语言模型进行微调训练，获得训练后的所述语言模型；在多轮训练后，所述语言模型能够学到在任意位置截断的句子，能够从所述句子的中间位置开始正常解码。

全文数据：

权利要求：

百度查询：广州虎牙科技有限公司语言模型的训练方法、语音识别方法及相关装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：印刷电路板_勤诚兴业股份有限公司_202310014123.X

下一篇：一种应用废弃土的材料、制造方法及其应用_深圳市深汕特别合作区世纪凯恒科技有限公司_202410257908.4

相关技术

印刷电路板_勤诚兴业股份有限公司_202310014123.X

一种应用废弃土的材料、制造方法及其应用_深圳市深汕特别合作区世纪凯恒科技有限公司_202410257908.4

用于换电挖掘机的自拆装换电装置及方法_太重集团(上海)装备技术有限公司_202410218497.8

一种高度可调的船舶高度检测系统_大连海事大学_202410262681.2

一种具有材质区分功能的触压传感检测系统、检测方法及制备方法_大连海事大学_202410274077.1

一种战场通信定位系统、装置及测试方法_浙江省军工集团股份有限公司_202410127232.7

高固含量氧化铝陶瓷造粒粉及其制备方法_重庆臻宝科技股份有限公司_202410217766.9

一种类风湿性关节炎的评价方法及其应用_成都华西海圻医药科技有限公司_202311808485.2

一种基于设备生命周期的租赁方案构建方法及装置_永赢金融租赁有限公司_202410341922.2

数据传输方法、设备及存储介质_中兴通讯股份有限公司_202211551808.X

一种可持续心电血氧血压监测的便携设备_河北汇丰医药有限公司_202410133584.3

一种基于RTP的数据传输方法、装置、设备和介质_深圳智慧林网络科技有限公司_202210520562.3

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

【发明授权】语言模型的训练方法、语音识别方法及相关装置_广州虎牙科技有限公司_202110678753.8

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务