申请/专利权人:天翼云科技有限公司
申请日:2023-12-13
公开(公告)日:2024-04-12
公开(公告)号:CN117875310A
主分类号:G06F40/232
分类号:G06F40/232;G06F40/194;G06F40/14
优先权:
专利状态码:在审-实质审查的生效
法律状态:2024.04.30#实质审查的生效;2024.04.12#公开
摘要:本发明公开了一种基于前后缀词库与困惑度的垂域文本纠错方法,包括第一步,构建词库,第二步,构建trie树,第三步,进行AC自动机检测中心词,第四步,进行关键文本片段截取,第五步,进行相似度计算,第六步,进行文本困惑度计算和第七步,进行结果输出;本发明首先通过AC自动机匹配到的中心词前后进行滑窗,截取一定长度的文本片段,这种通过匹配中心词直接定位到关键文本片段进行错误检查,而非针对整段文本进行检测的方法,极大地提高了检错效率,再通过bert模型计算文本的困惑度,通过预设困惑度阈值,有效处理原始文本和候选文本的通顺度符合要求的情况,有效避免误纠的情况发生,减少对用户的打扰,极大地提升了用户体验。
主权项:1.一种基于前后缀词库与困惑度的垂域文本纠错方法,其特征在于,所述纠错方法包括以下几个步骤:第一步,构建词库,进行收集垂类领域相关的词典收集,进行前后缀词库的构建;第二步,构建trie树,根据词库的中心词建立trie树,trie树上所有节点具有最长前向距离和最长后向距离两个属性标识;第三步,进行AC自动机检测中心词,通过AC自动机快速检测待检测文本中是否存在中心词;第四步,进行关键文本片段截取,根据检测到的中心词,对中心词前后文段进行截取;第五步,进行相似度计算,通过编辑距离分别计算截取文段与词库中心词组合词的相似度;第六步,进行文本困惑度计算,通过bert模型对原始文本和候选文本进行困惑度计算;第七步,进行结果输出,通过原始文本和候选文本困惑度的计算、对比,进行最终结果输出。
全文数据:
权利要求:
百度查询: 天翼云科技有限公司 一种基于前后缀词库与困惑度的垂域文本纠错方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。