买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于前后缀词库与困惑度的垂域文本纠错方法_天翼云科技有限公司_202311704382.1 

申请/专利权人:天翼云科技有限公司

申请日:2023-12-13

公开(公告)日:2024-04-12

公开(公告)号:CN117875310A

主分类号:G06F40/232

分类号:G06F40/232;G06F40/194;G06F40/14

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.04.30#实质审查的生效;2024.04.12#公开

摘要:本发明公开了一种基于前后缀词库与困惑度的垂域文本纠错方法,包括第一步,构建词库,第二步,构建trie树,第三步,进行AC自动机检测中心词,第四步,进行关键文本片段截取,第五步,进行相似度计算,第六步,进行文本困惑度计算和第七步,进行结果输出;本发明首先通过AC自动机匹配到的中心词前后进行滑窗,截取一定长度的文本片段,这种通过匹配中心词直接定位到关键文本片段进行错误检查,而非针对整段文本进行检测的方法,极大地提高了检错效率,再通过bert模型计算文本的困惑度,通过预设困惑度阈值,有效处理原始文本和候选文本的通顺度符合要求的情况,有效避免误纠的情况发生,减少对用户的打扰,极大地提升了用户体验。

主权项:1.一种基于前后缀词库与困惑度的垂域文本纠错方法,其特征在于,所述纠错方法包括以下几个步骤:第一步,构建词库,进行收集垂类领域相关的词典收集,进行前后缀词库的构建;第二步,构建trie树,根据词库的中心词建立trie树,trie树上所有节点具有最长前向距离和最长后向距离两个属性标识;第三步,进行AC自动机检测中心词,通过AC自动机快速检测待检测文本中是否存在中心词;第四步,进行关键文本片段截取,根据检测到的中心词,对中心词前后文段进行截取;第五步,进行相似度计算,通过编辑距离分别计算截取文段与词库中心词组合词的相似度;第六步,进行文本困惑度计算,通过bert模型对原始文本和候选文本进行困惑度计算;第七步,进行结果输出,通过原始文本和候选文本困惑度的计算、对比,进行最终结果输出。

全文数据:

权利要求:

百度查询: 天翼云科技有限公司 一种基于前后缀词库与困惑度的垂域文本纠错方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。