买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】文本纠错方法、装置、计算机存储介质及计算机程序产品_阿里巴巴达摩院(杭州)科技有限公司_202111020960.0 

申请/专利权人:阿里巴巴达摩院(杭州)科技有限公司

申请日:2021-09-01

公开(公告)日:2021-11-19

公开(公告)号:CN113673228A

主分类号:G06F40/232(20200101)

分类号:G06F40/232(20200101);G06F40/226(20200101)

优先权:

专利状态码:在审-实质审查的生效

法律状态:2021.12.07#实质审查的生效;2021.11.19#公开

摘要:本申请实施例提供了一种文本纠错方法、装置、计算机存储介质及计算机程序产品。该方法包括:对待纠错文本进行切分,获得待纠错文本中的多个文字;获得多个文字分别对应的语义向量、读音向量和字形向量,并根据语义向量、读音向量和字形向量生成多个文字的特征向量,由于考虑了文字对应的语义、读音和字形,使得生成的特征向量携带的信息更为丰富,表达的文字特征更准确。根据多个文字的特征向量,获得待纠错文本中的多个文字在词表中分别映射到多个候选文字的概率;根据多个文字的音形向量和词表的音形向量,计算表征待纠错文本与正确文本之间的相似度。然后根据多个候选文字的概率和相似度,确定待纠错文本的输出结果,提高了文本纠错的准确性。

主权项:1.一种文本纠错方法,包括:对待纠错文本进行切分,获得所述待纠错文本中的多个文字;获得所述多个文字分别对应的语义向量、读音向量和字形向量,并根据所述语义向量、所述读音向量和所述字形向量生成多个文字的特征向量;根据所述多个文字的特征向量,获得所述待纠错文本中的所述多个文字在词表中分别映射到多个候选文字的概率;根据所述多个文字的音形向量和词表的音形向量,计算表征所述待纠错文本与正确文本之间的相似度,其中,所述音形向量根据所述读音向量和所述字形向量生成;根据所述多个候选文字的概率和所述相似度,确定所述待纠错文本的输出结果。

全文数据:

权利要求:

百度查询: 阿里巴巴达摩院(杭州)科技有限公司 文本纠错方法、装置、计算机存储介质及计算机程序产品

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。