买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于语义分割与禁忌搜索的汉字笔画自动提取方法_北京大学_201910697693.7 

申请/专利权人:北京大学

申请日:2019-07-30

公开(公告)日:2024-02-27

公开(公告)号:CN112329389B

主分类号:G06F40/126

分类号:G06F40/126;G06F40/30;G06T7/187;G06V30/226

优先权:

专利状态码:有效-授权

法律状态:2024.02.27#授权;2021.02.26#实质审查的生效;2021.02.05#公开

摘要:本发明公布了一种基于语义分割与禁忌搜索的汉字笔画自动提取方法,过针对汉字特点改进的语义分割模型获得笔画分割图,再通过连通域分析从笔画分割图中获取独立笔画,最后通过禁忌搜索算法获取笔画笔顺信息。本发明采用语义分割技术从二值汉字图片中提取笔画分割图,避免了基于图形学方法鲁棒性差,耗时长的问题,同时也提升了分割效果,能够显著提高这些汉字处理与应用的开发效率,降低开发成本。

主权项:1.一种基于语义分割与禁忌搜索的汉字笔画自动提取方法,通过针对汉字特点改进的语义分割模型获得笔画分割图,通过连通域分析从笔画分割图中获取独立笔画,再通过禁忌搜索算法获取笔画笔顺信息;包括如下步骤:A.输入目标汉字图片和该汉字的字符编码;所述目标汉字图片是汉字的二值图像;B.利用改进的语义分割模型DeepStroke提取笔画分割图;包括如下步骤:B1.基于语义分割模型进行改进,得到改进的语义分割模型DeepStroke;改进包括:B11.改进的语义分割模型DeepStroke的输入为汉字图片和字符编码;根据输入确定输入的汉字,再得到输入汉字的笔画信息,再将笔画信息上采样与网络的特征图连接,利用上采样之后的笔画信息对模型输出做笔画类别指导;B12.在语义分割网络的推断阶段,将反映输出类别的概率图的通道1换为类输入二值图,该类输入二值图能正确区分语义图的前景和背景;前景即汉字的笔画类别;B2.构建用于训练的数据集:对多个字体的常用字图片的每个像素进行类别标注;标注的类别为35类,包括:33个笔画类别、1个背景类别、1个表示不同笔画的交叉区域的交叉类别;B3.在构建的训练数据集上训练DeepStroke模型,得到训练好的DeepStroke模型;将目标汉字图片和该汉字的字符编码输入训练好的DeepStroke模型,即得到笔画分割图;C.通过连通域分析,从笔画分割图提取不带笔顺信息的独立笔画;包括如下操作:C1.笔画类别编号记为i,取值为1到33,交叉类别编号为34;令i等于1;C2.查询输入汉字的笔画类别编号i的数量Ni;若Ni大于等于1,执行步骤C3;C3.合并笔画分割图的笔画类别编号i与交叉类别编号的连通域,分别提取出像素数量最多的Ni个连通域;所述Ni个连通域为Ni个独立笔画,即笔画类别i;令i自增1;若i34,转入步骤C2;D.利用禁忌搜索算法获取笔画顺序SS1,S2,…,Si,…,SN;S是一个由整数1~N组成的数字序列,代表各个独立笔画的笔顺号,其中N为笔画数量;设置禁忌搜索的适应度方程为式1: 其中,N是输入汉字拥有的笔画数量;λ是超参数;TTSi表示第i个按S排序的独立笔画的类别;TRi表示第i个参考字笔画的类别;x=0时Ix=0,x=1时Ix=0;t代表TT[S]和TR之间笔画类别不一致的数量;[XTSi,YTSi]代表第i个按S排序的独立笔画的重心坐标;通过上述步骤,实现基于语义分割与禁忌搜索的汉字笔画的自动提取。

全文数据:

权利要求:

百度查询: 北京大学 一种基于语义分割与禁忌搜索的汉字笔画自动提取方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。