买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种乱码字符调整方法及系统_和元达信息科技有限公司_202311674321.5 

申请/专利权人:和元达信息科技有限公司

申请日:2023-12-08

公开(公告)日:2024-03-22

公开(公告)号:CN117391070B

主分类号:G06F40/232

分类号:G06F40/232;G06F40/126;G06F40/263;G06N3/044

优先权:

专利状态码:有效-授权

法律状态:2024.03.22#授权;2024.01.30#实质审查的生效;2024.01.12#公开

摘要:本发明公开一种乱码字符调整方法及系统,包括:根据各个段落的语言类型,对各个段落分别采用对应的默认编码方式分别进行一次编码;根据各个一次编码失败的字符的语言类型,对各个一次编码失败的字符分别采用对应的默认编码方式进行二次编码;使用多种复合编码组合对二次编码失败的字符依次进行编码,直至得到正常字符或者全部复合编码组合均编码失败。采用本发明通过对乱码字符切换编码方式进行二次编码和组合编码,解决了多情景下的文本乱码问题。

主权项:1.一种乱码字符调整方法,其特征在于,包括:采用预设的文本语言模型分段识别目标文本各个段落的语言类型;根据各个段落的语言类型,对各个段落分别采用对应的默认编码方式分别进行一次编码;采用预设CRNN模型对各个段落中各个一次编码失败的字符进行字符识别,识别各个一次编码失败的字符的语言类型;根据各个一次编码失败的字符的语言类型,对各个一次编码失败的字符分别采用对应的默认编码方式进行二次编码;使用多种复合编码组合对二次编码失败的字符依次进行编码,直至得到正常字符或者全部复合编码组合均编码失败;其中,所述采用预设CRNN模型对各个段落中各个一次编码失败的字符进行字符识别,识别各个一次编码失败的字符的语言类型,具体包括:对各个段落中各个一次编码失败的字符进行截图保存,得到多个字符截图;对每个字符截图,根据预设CRNN模型中的卷积层提取字符截图的截图特征;对每个字符截图,根据所述CRNN模型中的且训练好的循环层结合上下文循环提取截图特征,得到全部字符的概率分布;对每个字符截图,根据所述CRNN模型中的转录层对全部字符的概率分布进行去重整合,得到对应一次编码失败的字符的语言类型。

全文数据:

权利要求:

百度查询: 和元达信息科技有限公司 一种乱码字符调整方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。