买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】语料扩展方法、装置、设备及介质_同盾控股有限公司_202010353893.3 

申请/专利权人:同盾控股有限公司

申请日:2020-04-29

公开(公告)日:2021-02-12

公开(公告)号:CN111241813B

主分类号:G06F40/216(20200101)

分类号:G06F40/216(20200101);G06F40/279(20200101);G06F16/33(20190101);G06F16/335(20190101)

优先权:

专利状态码:有效-授权

法律状态:2021.02.12#授权;2020.06.30#实质审查的生效;2020.06.05#公开

摘要:本发明公开了一种语料扩展方法,涉及机器学习技术领域,用于解决现有语料匮乏的情况,该方法包括以下步骤:S110、接收待分析文本及语料池数据,对所述待分析文本及所述语料池数据进行预处理;S120、将所述待分析文本分为种子文本和测试文本;S130、当所述种子文本数量大于预设数量时,通过困惑度ppl筛选出扩展语料;当所述种子文本数量小于或等于预设数量时,通过相似度距离筛选出扩展语料;S140、将所述扩展语料加入到所述种子文本,并执行S130‑S140步骤。本发明还公开了一种语料扩展装置、电子设备和计算机存储介质。本发明通过对语料进行筛选,并将筛选出的语料与种子文本合并,进而扩展种子文本的语料量。

主权项:1.一种语料扩展方法,其特征在于,包括以下步骤:S110、接收待分析文本及语料池数据,对所述待分析文本及所述语料池数据进行预处理;S120、将所述待分析文本分为种子文本和测试文本;S130、当所述种子文本数量大于预设数量时,使用所述种子文本生成语言模型,并计算所述语料池数据中语料文本在所述语言模型中的困惑度ppl,将困惑度ppl小于预设ppl阈值的语料文本作为扩展语料;当所述种子文本数量小于或等于预设数量时,计算所述语料池数据中语料文本与所述种子文本的相似度距离,将相似度距离小于预设相似度阈值的语料文本作为扩展语料;S140、将所述扩展语料加入到所述种子文本,形成新种子文本,使用所述新种子文本执行S130-S140步骤,直到得到的扩展语料在所述测试文本上的WER不再减小,即停止扩展,并输出最终得到的扩展语料;其中,使用所述新种子文本执行S130-S140步骤,直到得到的扩展语料在所述测试文本上的WER不再减小,即停止扩展,包括以下步骤:计算所述扩展语料在所述测试文本的WER;当所述扩展语料是通过预设ppl阈值筛选出的扩展语料时,比较所述WER与所述预设ppl阈值对应的WER;当所述扩展语料是通过预设相似度阈值筛选出的扩展语料时,比较所述WER与所述预设相似度阈值对应的WER;当所述WER小于所述预设ppl阈值或预设相似度阈值对应的WER时,执行S130-S140步骤;否则,停止扩展语料。

全文数据:

权利要求:

百度查询: 同盾控股有限公司 语料扩展方法、装置、设备及介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。