【发明公布】一种面向复杂纳西东巴象形文字的识别方法_北京信息科技大学_201810289223.2

导航：龙图腾网> 最新专利技术> 一种面向复杂纳西东巴象形文字的识别方法_北京信息科技大学_201810289223.2

申请/专利权人：北京信息科技大学

申请日：2018-04-03

公开（公告）日：2018-09-14

公开（公告）号：CN108537216A

主分类号：G06K9/20(2006.01)I

分类号：G06K9/20(2006.01)I;G06K9/32(2006.01)I;G06K9/46(2006.01)I;G06K9/62(2006.01)I

优先权：

专利状态码：失效-发明专利申请公布后的驳回

法律状态：2023.03.17#发明专利申请公布后的驳回;2018.10.16#实质审查的生效;2018.09.14#公开

摘要：本发明涉及一种面向复杂纳西东巴象形文字的识别方法，其步骤：对纳西东巴象形文字进行特征提取；根据纳西东巴象形文字的特点，提取东巴象形文字的5类拓扑特征值：块数a、孔数b、端点个数c、三叉点数d和四叉点数e，将东巴象形文字以拓扑特征码abcde表示。对东巴象形文字进行特征提取后，每个待识别的东巴文样本都形成了数据特征，采用多级识别的方法对东巴文进行智能识别。本发明能有效解决纳西经典古籍因笔画复杂、年代久远、笔迹不清导致的识别困难问题。本发明可以广泛在文字识别领域中应用。

主权项：1.一种面向复杂纳西东巴象形文字的识别方法，其特征在于包括以下步骤：1对纳西东巴象形文字进行特征提取；2对东巴象形文字进行特征提取后，每个待识别的东巴文样本都形成了数据特征，采用多级识别的方法对东巴文进行智能识别。

全文数据：一种面向复杂纳西东巴象形文字的识别方法技术领域[0001]本发明涉及一种象形文字识别方法，特别是关于一种面向复杂纳西东巴象形文字的识别方法。背景技术[0002]东巴象形文是由居住于我国云南、四川和西藏文化交界地带丽江的纳西族人民发明使用的一种象形文字。东巴象形文是当今世界唯一活着的象形文字，仍被人们使用。象形文字是一种具有表意和表音双重特点的图画象形文字，90%为通过绘画来进行描述，但与图画之栩栩如生求其美感而有差别，而是根据用单一的笔划来表达物体的轮廓、对象、意义。东巴象形文也是纳西文化特征之一，纳西文化随着纳西族人信奉的宗教一一东巴教的盛行而迅速崛起。在东巴教中，东巴祭祀主持各种祭祀活动，并且将东巴象形文字书写成经书记录下来，从此东巴象形文字以经文的形式传承下来。纳西象形文字不仅是中华民族历史文化长河中的一颗明珠，也是世界历史文化中的瑰宝，受到了国内外的专家和学者的广泛关注。[0003]在运用现代化技术手段对纳西东巴象形文字进行保护的过程中，大量的纳西东巴文古籍、文献和资料需用计算机进行保存、处理和利用，其识别存在较大困难，急需一种方法来识别复杂的纳西东巴象形文字，为东巴经典古籍的释读奠定基础。发明内容[0004]针对上述问题，本发明的目的是提供一种面向复杂纳西东巴象形文字的识别方法，其能有效解决纳西经典古籍因笔画复杂、年代久远、笔迹不清导致的识别困难问题。[0005]为实现上述目的，本发明采取以下技术方案:一种面向复杂纳西东巴象形文字的识别方法，其特征在于包括以下步骤:1对纳西东巴象形文字进行特征提取;2对东巴象形文字进行特征提取后，每个待识别的东巴文样本都形成了数据特征，采用多级识别的方法对东巴文进行智能识别。[0006]进一步，所述步骤1中，根据纳西东巴象形文字的特点，提取东巴象形文字的5类拓扑特征值:块数a、孔数b、端点个数c、三叉点数d和四叉点数e，将东巴象形文字以拓扑特征码abcde表不。[0007]进一步，将所有5类拓扑特征值的特征数大于9的统一标记为9。[0008]进一步，所述步骤1中，对于具有相同结构特征的东巴象形文字提取其网格特征。[0009]进一步，所述网格特征提取步骤如下:①设东巴象形文字点阵为mXη，将东巴象形文字图像分为mXn个网格;其中，m表示每个东巴象形文字图像网格的总行数，η表示每个东巴象形文字图像网格的总列数;②计算每个网格中的有效像素PU，i为行数，j为列数;③计算东巴象形文字总有效像素；④计算每个网格中的黑色像素数占整个东巴象形文字有效像素的比例aij=pij*100P，得到特征向量组p:[0011]则特征向量组P即为东巴象形文字的网格特征。[0012]进一步，所述步骤2中，具体识别步骤如下:2.1根据拓扑特征码将东巴象形文字进行粗分类，分类后的东巴象形文字与现有东巴象形文字模板库进行匹配，则部分东巴象形文字能进行唯一性识别后输出；2.2对于粗分类未唯一识别出的东巴文字，根据提取的网格特征，采取模板匹配的方法计算模板东巴文字与待识别东巴文字样本的相似性，得到两者的相关值，并采用遍历的搜索算法得到相关值R，相关值R为最大值时则判定模板东巴文字与待识别东巴文字样本相似程度最高，输出该识别结果;2.3仍未被识别的东巴象形文字采用BP神经网络进行识别。[0013]进一步，所述步骤2.2中，相关值R为：[0015]式中，Si，j为模板东巴文字的特征向量;Ti，j为待识别东巴文字样本的特征向量;歹为模板东巴文字特征向量的平均值，为待识别东巴文字样本特征向量的平均值[0016]进一步，所述步骤2.3中，BP神经网络识别步骤为:2.3.1建立3层BP神经网络，用最小随机数进行权值初始化;2.3.2将待识别的东巴象形文字作为训练集，从训练集中得到一个训练样本X，令期望输出为D;2.3.3计算输出层的输出Z:[0018]式中，1为隐层结点数，H。为隐层输出，COck为隐层到输出层的权重，bk为隐层到输出层的偏置;2.3.4计算输出层的输出误差E;2.3.5更新输入层到隐层的权值：[0020]式中，ωh。是更新后输入层到隐层的权值，coh。是更新前输入层到隐层的权值，η是学习速率，ek=D-Z;2.3.6更新隐层到输出层权值ω’;2.3.7在更新完全部权值后对训练样本重新计算输出，并计算其与期望输出的误差，直到该误差小于预先设定的阈值，完成对该BP神经网络的训练，否则返回步骤步骤2.3.2;2.3.8将待识别的东巴文字特征向量输入训练好的BP神经网络，输出识别结果。[0021]进一步，所述输出层的输出误差E为：[0023]其中，q为输出层节点个数。[0024]进一步，所述更新隐层到输出层权值ω^为：[0025]cock—〇ck+nHcek〇[0026]本发明由于采取以上技术方案，其具有以下优点：1、本发明采用同时提取纳西东巴象形文字的拓扑特征和网格特征，进而全面提取了文字特征，以提高识别准确度。2、本发明将粗分类法、模板匹配识别法和BP神经网络识别法结合起来，采用多级识别的方法对东巴文进行智能识别，有效提高了识别的准确率，克服现有技术识别困难问题。综上所述，本发明可以广泛在文字识别领域中应用。附图说明[0027]图1是本发明的整体流程示意图；[0028]图2是本发明的东巴象形文字拓扑结构示意图；[0029]图3是本发明的可根据黑色像素区分的东巴文示意图。具体实施方式[0030]下面结合附图和实施例对本发明进行详细的描述。[0031]如图1所示，本发明提供一种面向复杂纳西东巴象形文字的识别方法，其包括以下步骤：[0032]1对纳西东巴象形文字进行特征提取。[0033]1.1根据纳西东巴象形文字的特点，以方国瑜《纳西象形文字谱》为蓝本，提取东巴象形文字的5类拓扑特征值:块数a即图论中的连通体个数）、孔数b、端点个数c度数为1的点数）、三叉点数d度数为3的点数和四叉点数e度数为4的点数），将东巴象形文字以拓扑特征码abcde表示。[0034]将所有以上五种特征数大于9的统一标记为9。[0035]例如，如图2所示，图中圆圈◦表示端点，方框□表示叉点，箭头—表示块，X表示孔。左图是一个代表“晒太阳”意思的东巴象形文字，右图说明了上述拓扑特征的含义。由图中的统计结果可以得出该东巴象形文中共有2个块，7个孔、8个端点、14个三叉点、2个四叉点，此象形文字的特征码为27892。[0036]1.2由于一些东巴象形文字具有相同的结构特征，只是在某部分区域中黑色像素的填充程度不同，如图3所示。故对于具有相同结构特征的东巴象形文字提取其网格特征，具体步骤如下：[0037]①设东巴象形文字点阵为mXn，将东巴象形文字图像分为mXn个网格;其中，m表示每个东巴象形文字图像网格的总行数，η表示每个东巴象形文字图像网格的总列数。[0038]②计算每个网格中的有效像素i为行数，j为列数；[0039]③计算东巴象形文字总有效像I[0040]④计算每个网格中的黑色像素数占整个东巴象形文字有效像素的比例a^=PlJ*100P，得到特征向量组P:[0042]则特征向量组p即为东巴象形文字的网格特征。[0043]2对东巴象形文字进行特征提取后，每个待识别的东巴文样本都形成了数据特征，采用多级识别的方法对东巴文进行智能识别。[0044]具体识别步骤如下：[0045]2.1根据拓扑特征码将东巴象形文字进行粗分类，分类后的东巴象形文字与现有东巴象形文字模板库进行匹配，则近一半的东巴象形文字可以进行唯一性识别，识别出的东巴象形文字输出识别结果。[0046]2.2对于粗分类未唯一识别出的东巴文字，根据提取的网格特征，采取模板匹配的方法计算模板东巴文字与待识别东巴文字样本的相似性，得到两者的相关值，并采用遍历的搜索算法得到相关值R，相关值R为最大值时则判定模板东巴文字与待识别东巴文字样本相似程度最高，输出该识别结果。其中，相关值R为：[0048]式中，Si，j为模板东巴文字的特征向量;Ti，j为待识别东巴文字样本的特征向量;穿为模板东巴文字特征向量的平均值为待识别东巴文字样本特征向量的平均值[0049]2.3仍未被识别的东巴象形文字采用BP神经网络进行识别。具体步骤如下：[0050]2.3.1建立3层BP神经网络，用最小随机数进行权值初始化。[0051]2.3.2将待识别的东巴象形文字作为训练集，从训练集中得到一个训练样本X，令期望输出为D。[0052]2.3.3计算输出层的输出Z:[0054]式中，1为隐层结点数，H。为隐层输出，COck为隐层到输出层的权重，bk为隐层到输出层的偏置。[0055]2.3.4计算输出层的输出误差E:[0057]式中，q为输出层节点个数。[0058]2.3.5更新输入层到隐层的权值：[0060]式中，ω是更新后输入层到隐层的权值，coh。是更新前输入层到隐层的权值，n是学习速率，ek=D-Z。[0061]2.3.6更新隐层到输出层权值ω’ck:[0063]2.3.7在更新完全部权值后对训练样本重新计算输出，并计算其与期望输出的误差，直到该误差小于预先设定的阈值，完成对该BP神经网络的训练，否则返回步骤步骤2.3.2。[0064]2.3.8将待识别的东巴文字特征向量输入训练好的BP神经网络，输出识别结果。[0065]上述各实施例仅用于说明本发明，各部件的结构、尺寸、设置位置及形状都是可以有所变化的，在本发明技术方案的基础上，凡根据本发明原理对个别部件进行的改进和等同变换，均不应排除在本发明的保护范围之外。

权利要求：1.一种面向复杂纳西东巴象形文字的识别方法，其特征在于包括以下步骤：1对纳西东巴象形文字进行特征提取；2对东巴象形文字进行特征提取后，每个待识别的东巴文样本都形成了数据特征，采用多级识别的方法对东巴文进行智能识别。2.如权利要求1所述识别方法，其特征在于:所述步骤1中，根据纳西东巴象形文字的特点，提取东巴象形文字的5类拓扑特征值:块数a、孔数b、端点个数c、三叉点数d和四叉点数e，将东巴象形文字以拓扑特征码abcde表示。3.如权利要求2所述识别方法，其特征在于:将所有5类拓扑特征值的特征数大于9的统一标记为9。4.如权利要求1至3任一项所述识别方法，其特征在于:所述步骤1中，对于具有相同结构特征的东巴象形文字提取其网格特征。5.如权利要求4所述识别方法，其特征在于:所述网格特征提取步骤如下：①设东巴象形文字点阵为mXn，将东巴象形文字图像分为mXη个网格;其中，m表示每个东巴象形文字图像网格的总行数，η表示每个东巴象形文字图像网格的总列数；②计算每个网格中的有效像素Pij，i为行数，j为列数；③计算东巴象形文字总有效像劈④计算每个网格中的黑色像素数占整个东巴象形文字有效像素的比例1」=Ρι^100Ρ，得到特征向量组P:则特征向量组P即为东巴象形文字的网格特征。6.如权利要求5所述识别方法，其特征在于:所述步骤2中，具体识别步骤如下：2.1根据拓扑特征码将东巴象形文字进行粗分类，分类后的东巴象形文字与现有东巴象形文字模板库进行匹配，则部分东巴象形文字能进行唯一性识别后输出；2.2对于粗分类未唯一识别出的东巴文字，根据提取的网格特征，采取模板匹配的方法计算模板东巴文字与待识别东巴文字样本的相似性，得到两者的相关值，并采用遍历的搜索算法得到相关值R，相关值R为最大值时则判定模板东巴文字与待识别东巴文字样本相似程度最高，输出该识别结果；2.3仍未被识别的东巴象形文字采用BP神经网络进行识别。7.如权利要求6所述识别方法，其特征在于:所述步骤2.2中，相关值R为：式中，Si，j为模板东巴文字的特征向量;TiJ为待识别东巴文字样本的特征向量；犮为模板东巴文字特征向量的平均值为待识别东巴文字样本特征向量的平均值，8.如权利要求6所述识别方法，其特征在于:所述步骤2.3中，BP神经网络识别步骤为：2.3.1建立3层BP神经网络，用最小随机数进行权值初始化；2.3.2将待识别的东巴象形文字作为训练集，从训练集中得到一个训练样本X，令期望输出为D;2.3.3计算输出层的输出Z:式中，1为隐层结点数，H。为隐层输出，Codi为隐层到输出层的权重，bk为隐层到输出层的偏置；2.3.4计算输出层的输出误差E;2.3.5更新输入层到隐层的权值：式中，ω是更新后输入层到隐层的权值，coh。是更新前输入层到隐层的权值，n是学习速率，ek=D_Z;2.3.6更新隐层到输出层权值ω’ck;2.3.7在更新完全部权值后对训练样本重新计算输出，并计算其与期望输出的误差，直到该误差小于预先设定的阈值，完成对该BP神经网络的训练，否则返回步骤步骤2.3.2;2.3.8将待识别的东巴文字特征向量输入训练好的BP神经网络，输出识别结果。9.如权利要求8所述识别方法，其特征在于:所述输出层的输出误差E为：其中，q为输出层节点个数。10.如权利要求8所述识别方法，其特征在于:所述更新隐层到输出层权值ω’为：

百度查询：北京信息科技大学一种面向复杂纳西东巴象形文字的识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：移动式组合盐水分离系统_大连盐化集团有限公司_202111204431.6

下一篇：一种焊剂片约束电弧焊焊接T型接头的夹具_兰州理工大学_201910643137.1

相关技术

移动式组合盐水分离系统_大连盐化集团有限公司_202111204431.6

一种焊剂片约束电弧焊焊接T型接头的夹具_兰州理工大学_201910643137.1

一种结构紧凑的测斜仪骨架_青岛智腾科技有限公司_201910663221.X

验证转化回传数据方法、装置、计算机设备和存储介质_上海数禾信息科技有限公司_202311042515.3

一种全自动样品混合缩分装置及方法_青岛海关技术中心_201910859073.9

微电网的控制方法及装置_北京天诚同创电气有限公司_202111653363.1

一种基于准零刚度原理的空气悬架及其结构设计与优化方法_江苏大学_202111438418.7

帏中香风味纸张的制备方法_扬州市祥华新材料科技有限公司_202211345365.9

基于无监督学习的多视角显著性估计方法_西北工业大学_202011250827.X

一种基于计算机视觉的肺区区域分割系统_东莞理工学院_202210022595.5

一种防止带钢在精轧卷取中发生追尾的方法_首钢京唐钢铁联合有限责任公司_202210031884.1

一种基于Flink流处理的地铁轨道几何检测数据清洗方法_成都国铁电气设备有限公司_202210023454.5

纳西相关技术

一种带智能传感模块的纳西文化风格垃圾箱_丽江德和文化传播有限公司_202220215101.0

田纳西曲霉及其应用_上海师范大学_202011135301.7

一种适合商旅人士穿着的易收纳西装_广西梧州市百裕实业有限公司_202022090153.3

一种可以悬挂收纳西装外套的多功能旅行包_上海亚氏贸易有限公司_202020601450.7

田纳西曲霉及其应用_上海师范大学_202011135301.7

一种制备纳西肽的方法及其生产菌株_牡丹江佰佳信生物科技有限公司_201510204706.4

一种纳西东巴经书的数字化处理方法_北京信息科技大学_201811206914.8

一种纳西族园林水的循环处理装置_西南林业大学_201820742149.0

一种面向复杂纳西东巴象形文字的识别方法_北京信息科技大学_201810289223.2

一种基于田纳西伊斯曼过程的先验知识故障诊断方法_东北大学_201710284568.4

象形文字相关技术

一种对文言文中缺失文字的补全方法_丁杨_202311025114.7

一种线束表面文字标示印刷涂布设备_常州艾博格电器有限公司_202410172320.9

一种web页面文字加密的反爬虫方法_天翼云科技有限公司_202311722411.7

基于人工智能的文字识别方法及装置、电子设备_平安银行股份有限公司_202111017840.5

一种基于特征解耦合的文字-图像对生成方法和装置_之江实验室_202210148651.X

基于图片和文字的社交媒体关键词数据分析方法及装置_一网互通(北京)科技有限公司_202410429676.6

一种文字识别方法、装置及电子设备_阿里巴巴集团控股有限公司_202010003178.7

基于九宫格输入法的文字输入方法、装置、设备及产品_腾讯科技(深圳)有限公司_202211351543.9

文字增强方法、装置、设备及介质_广州视源电子科技股份有限公司_202211337358.4

文字编辑方法及装置_华为技术有限公司_202211362765.0

东巴相关技术

用于残缺东巴文字的识别方法、系统、电子设备及介质_中央民族大学_202311122407.7

一种东巴字文档分割方法、装置、设备及存储介质_苏州市职业大学(苏州开放大学)_202310540883.4

一种东巴象形文字图像文档识别方法、装置、设备及介质_苏州市职业大学(苏州开放大学)_202310195608.3

一种东巴轮廓型单素字识别方法、装置、设备及存储介质_苏州市职业大学(苏州开放大学)_202310261046.8

一种东巴结构型单素字识别方法、装置、设备及存储介质_苏州市职业大学(苏州开放大学)_202310261378.6

文档分析、东巴文资料电子档的生成方法及相关设备_苏州市职业大学_202211057527.9

一种具有东巴文化特征的专用立柱_丽江德和文化传播有限公司_202220214264.7

一种用于在木板及石板上雕刻东巴文的数字化装置_丽江德和文化传播有限公司_202220214248.8

东巴象形文字识别方法及装置_黄颢_202210476418.4

一种东巴文的文字切分方法、装置、存储介质及电子设备_中央民族大学_202210255545.1

龙图腾网&IPTOP

【发明公布】一种面向复杂纳西东巴象形文字的识别方法_北京信息科技大学_201810289223.2

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务