【发明公布】一种纳西东巴经书的数字化处理方法_北京信息科技大学_201811206914.8

导航：龙图腾网> 最新专利技术> 一种纳西东巴经书的数字化处理方法_北京信息科技大学_201811206914.8

申请/专利权人：北京信息科技大学

申请日：2018-10-17

公开（公告）日：2019-03-01

公开（公告）号：CN109409378A

主分类号：G06K9/40(2006.01)I

分类号：G06K9/40(2006.01)I;G06K9/46(2006.01)I;G06K9/34(2006.01)I

优先权：

专利状态码：失效-发明专利申请公布后的驳回

法律状态：2023.07.21#发明专利申请公布后的驳回;2019.03.26#实质审查的生效;2019.03.01#公开

摘要：本发明涉及一种纳西东巴经书的数字化处理方法，其包括以下步骤：采用东巴经书CCD数字采集系统对东巴经典古籍进行数字化采集；对采集到的东巴经典古籍图像信息进行自适应中值滤波去噪处理；对去噪后的东巴经典古籍图像信息进行图像二值化处理，增强目标文字图像与背景的对比度；对二值化处理后的东巴经典古籍图像中的文字进行边缘检测；对边缘检测后的东巴经典古籍图像中的文字进行切分；将切分后的东巴形文图像归一化，完成东巴经典古籍的数字化处理。本发明能降低图片偏差，提高东巴文的辨识率。

主权项：1.一种纳西东巴经书的数字化处理方法，其特征在于，包括以下步骤：1采用东巴经书CCD数字采集系统对东巴经典古籍进行数字化采集；2对采集到的东巴经典古籍图像信息进行自适应中值滤波去噪处理；3对去噪后的东巴经典古籍图像信息进行图像二值化处理，增强目标文字图像与背景的对比度；4对二值化处理后的东巴经典古籍图像中的文字进行边缘检测；5对边缘检测后的东巴经典古籍图像中的文字进行切分；6将切分后的东巴形文图像归一化，完成东巴经典古籍的数字化处理。

全文数据：一种纳西东巴经书的数字化处理方法技术领域本发明涉及东巴象形文字处理技术领域，特别是关于一种面向东巴经书文字预处理的纳西东巴经书的数字化处理方法。背景技术东巴象形文字，本语称为森究鲁究，意思是木石的痕迹，即见木画木、见石画石，是一种用图画的方式写成的文字。东巴祭司用这种文字记录宗教活动，书写成一部部的东巴经典。东巴经书是纳西族古代社会生活与习俗的百科全书，它详尽地描述了东巴文化，记载有生活中天文气象、历史地理、人文风情、宗教信仰等内容。而作为东巴文化的载体，东巴经记载了纳西民族的祭祀仪式与道场，包括祭天、祭山神、祭祖先等24类。国内外研究东巴文化的专家学者认为：东巴经书是研究东巴文化的重要资料，也是研究古代纳西族的社会历史、语言文字、伦理道德等的重要依据，对探寻中国远古文化有重要意义。对纸质的东巴经典古籍进行数字化图像采集时，可能由于摄像头的偏斜或者对焦不准等原因，造成采集到的图像失真模糊；也可能由硬件采集系统自身的原因，导致采集到的图像带有一定的噪点；再加上东巴经典古籍诞生的年代久远，经历了上千年历史的洗礼，很多经书都有了不同程度的破损以及表面的磨损、污渍等，从而降低了采集到的图像中东巴象形文的清晰度，造成了东巴象形文与实际文字的偏差。基于“世界记忆遗产”东巴经典传承体系数字化国际共享平台建设研究的支持，许多东巴经书从世界各地被收集回来，迫切需要一种方法对这些东巴经书进行数字化的加工，恢复其因年代久远而失去的信息，并对其进行保存，传输与共享。发明内容针对上述问题，本发明的目的是提供一种纳西东巴经书的数字化处理方法，该方法能降低图片偏差，提高东巴文的辨识率。为实现上述目的，本发明采取以下技术方案：一种纳西东巴经书的数字化处理方法，其包括以下步骤：1采用东巴经书CCD数字采集系统对东巴经典古籍进行数字化采集；2对采集到的东巴经典古籍图像信息进行自适应中值滤波去噪处理；3对去噪后的东巴经典古籍图像信息进行图像二值化处理，增强目标文字图像与背景的对比度；4对二值化处理后的东巴经典古籍图像中的文字进行边缘检测；5对边缘检测后的东巴经典古籍图像中的文字进行切分；6将切分后的东巴形文图像归一化，完成东巴经典古籍的数字化处理。进一步，所述步骤2中，自适应中值滤波的方法包括以下步骤：2.1设置初始滤波窗口的大小为Sxy；2.2对窗口对应的像素灰度值进行从小到大的排序；2.3计算A1、A2、B1、B2：A1＝Zmed-Zmin，A2＝Zmed-Zmax,B1＝Zxy-Zmin，B2＝Zxy-Zmax；Zmed为滤波窗口灰度的中值；Zmin为滤波窗口灰度最小值；Zmax为滤波窗口灰度最大值；Zxy为点x,y的灰度值；2.4判断是否满足A10且A20且A20且B20且A20且A20且B20，满足则图像中的Zxy保持原来的灰度值不变；反之则另Zxy＝Zmed。3对去噪后的东巴经典古籍图像信息进行图像二值化处理：在文字识别的过程中，需要关注的只是象形文的笔划特征，而不是色彩，所以为了方便后续的处理，将图像二值化，从而增强目标文字图像与背景的对比度，如图5所示。当图像的灰度直方图呈现图6的情况时，此时可以根据预先选取的阈值来划分前景和背景。令fx,y表示灰度图像，则有：式中，fx,y为灰度图像，gx,y为阈值处理后的二值图像，其中取值为a的像素是前景目标，取值为b的像素是背景。通常令a＝1白，b＝0黑。在直方图有两个分离的峰值，图像的阈值一般会在峰值之间的波谷处。此时，阈值T的选择可根据反复实验选取最好的观测结果。或者使用迭代方法获取阈值T，具体计算步骤为：3.1针对全局阈值选择初始阈值T0。3.2用T0将图像分割成两部分区域G1和G2，并分别计算G1、G2区域内的平均灰度值m1和m2。3.3根据平均灰度值m1和m2计算新阈值T：3.4重复步骤3.2-3.3，直到m1和m2不再变化为止，则T为阈值。4对二值化处理后的东巴经典古籍图像中的文字进行边缘检测：文字边缘检测采用Canny算法进行检测；为了避免噪声的影响，Canny算法采用设置两个阈值的方法。Canny算法的具体步骤如下：4.1根据图像灰度的偏导数Gx,Gy，计算梯度的大小|G|和方向θ：4.2采用遍历的方法分别沿着文字边缘的梯度方向，大致分为水平、竖直、45°方向和135°方向四种，用不同的邻近像素进行比较，以决定局部极大值,进而剔除掉一大部分非边缘的点；具体方法如下：若某个像素值的灰度值与其梯度方向上前后两个像素的灰度值相比不是最大的，则该点为内部点，应该设置为零点；相反，则为边缘，置为1。4.3根据最大阈值Tmax和最小阈值Tmin检测边缘，Tmin＝0.4Tmax：某点像素值设为A，若A＞Tmax，则该点是边缘点，若A＜Tmin，则该点不是边缘点，如果Tmin＜A＜Tmax，则需要再次判断该点的邻接点B，若B＞Tmax，则A点是边缘点，否则不是边缘点。用于边缘检测的原图像如图7所示，进行边缘检测后得到的文字边缘的图像如图8所示。5对边缘检测后的东巴经典古籍图像中的文字进行切分：对东巴象形文字的特征提取是针对每一个象形文而言的，所以要对东巴经典古籍中的文字进行切分，分离出单个的象形文。采取行、列分别投影结合像素追踪的方法将东巴经典古籍图像中的一篇东巴文一个个拆分开来。对东巴象形文的切分总体分为两步，第一步是行切分，第二步是列切分。5.1行切分行切分主要根据水平方向投影的原理，映射出每一行的上下边缘。5.1.1沿着水平方向做东巴象形文图像的投影，对每个像素点进行遍历搜索，并按行计算黑色像素点的数量；5.1.2若某一行中没有黑色点，并且下面两行中均存在黑色点，则这一行为上边缘；5.1.3若某一行中存在至少一个黑色点，并且下面两行中均存在黑色点，则继续进行遍历搜索；5.1.4若某一行中存在至少一个黑色点，并且下面两行中均不存在黑色点，则这一行为下边缘；5.1.5按照上述步骤对每一行进行遍历，并且把相邻的上边缘和下边缘作为一组，将连续的下边缘与下边缘做差，得到的结果则为东巴象形文的高度。5.2列切分列切分主要根据垂直方向投影的原理，将每一行的每个文字映射出左右边缘，从而分离出单个东巴象形文字。5.2.1沿着垂直方向做东巴象形文图像的投影，对每个像素点进行遍历搜索，并按列计算黑色像素点的数量；5.2.2若某一列中没有黑色点，并且后面两列中均存在黑色点，则这一列为左边缘；5.2.3若某一列中存在至少一个黑色点，并且后面两列中均存在黑色点，则继续进行遍历搜索；5.2.4若某一列中存在至少一个黑色点，并且后面两列中均不存在黑色点，则这一列为右边缘；5.2.5按照上述步骤对每一列进行遍历，并且把相邻的左边缘和右边缘作为一组，将连续的右边缘与左边缘做差，得到的结果则为东巴象形文的宽度。例如，如图9所示，首先对用于切分的东巴经典古籍图像作水平方向的投影，即按照行对其像素值进行累加，得到如图10所示的水平投影图，根据该图可以将东把经书进行行切分。再单独将每一行东巴象形文图像，作垂直方向的投影，即按列统计每个像素点的灰度值，对垂直投影图进行分析后对每一行文字进行列切分，从而分离出每一文字。这里提取出刚才切分出的第三行，如图11所示，对其进行垂直投影，如图12所示。将此行文字采用垂直投影切分出单个东巴象形文如图13所示。6将切分后的东巴形文图像归一化，完成东巴经典古籍的数字化处理；由于东巴经典古籍是由不同的老东巴书写而成，东巴象形文字的根据作者的习惯而具有不同的尺寸，所以为了方便后续的处理与准确识别，将东巴文归一化成等同的64×64尺寸。归一化的具体算法包括以下步骤：6.1计算书写轨迹的外接矩形，将矩形的左上角和右下角坐标分别标记为xmin,ymin，xmax,ymax，中心点标记为xc,yc，令：6.2矩形大小定义为W×W，令W＝64，将外接矩形的中心点平移到归一化后的矩形中心原来某点x,y平移后所有点的坐标x1,y1为：6.3分别计算长、宽方向的缩放比例ratiox、ratioy，两缩放比例的最小值定义为整个矩形的缩放比例ratio：ratio＝minratiox,ratioy6.4归一化后的新坐标x′,y′定义为：x′＝x1×ratioy′＝y1×ratio。按照该方法归一化后的文字如图14所示。上述各实施例仅用于说明本发明，各步骤都是可以有所变化的，在本发明技术方案的基础上，凡根据本发明原理对个别步骤进行的改进和等同变换，均不应排除在本发明的保护范围之外。

权利要求：1.一种纳西东巴经书的数字化处理方法，其特征在于，包括以下步骤：1采用东巴经书CCD数字采集系统对东巴经典古籍进行数字化采集；2对采集到的东巴经典古籍图像信息进行自适应中值滤波去噪处理；3对去噪后的东巴经典古籍图像信息进行图像二值化处理，增强目标文字图像与背景的对比度；4对二值化处理后的东巴经典古籍图像中的文字进行边缘检测；5对边缘检测后的东巴经典古籍图像中的文字进行切分；6将切分后的东巴形文图像归一化，完成东巴经典古籍的数字化处理。2.如权利要求1所述方法，其特征在于：所述步骤2中，自适应中值滤波的方法包括以下步骤：2.1设置初始滤波窗口的大小为Sxy；2.2对窗口对应的像素灰度值进行从小到大的排序；2.3计算A1、A2、B1、B2：A1＝Zmed-Zmin，A2＝Zmed-Zmax,B1＝Zxy-Zmin，B2＝Zxy-Zmax；Zmed为滤波窗口灰度的中值；Zmin为滤波窗口灰度最小值；Zmax为滤波窗口灰度最大值；Zxy为点x,y的灰度值；2.4判断是否满足A10且A20且A20且B20，满足则图像中的Zxy保持原来的灰度值不变；反之则另Zxy＝Zmed。3.如权利要求1所述方法，其特征在于：所述步骤3中，根据预先选取的阈值来划分前景和背景，令fx,y表示灰度图像，则有：式中，fx,y为灰度图像，gx,y为阈值处理后的二值图像，其中取值为a的像素是前景目标，取值为b的像素是背景；T为阈值。4.如权利要求3所述方法，其特征在于：所述阈值T采用迭代方法获取步骤为：3.1针对全局阈值选择初始阈值T0；3.2用T0将图像分割成两部分区域G1和G2，并分别计算G1、G2区域内的平均灰度值m1和m2；3.3根据平均灰度值m1和m2计算新阈值T：3.4重复步骤3.2-3.3，直到m1和m2不再变化为止，则T为阈值。5.如权利要求1所述方法，其特征在于：所述步骤4中，文字边缘检测采用Canny算法进行检测，Canny算法的步骤如下：4.1根据图像灰度的偏导数Gx,Gy，计算梯度的大小|G|和方向θ：4.2采用遍历的方法分别沿着文字边缘的梯度方向，分为水平、竖直、45°方向和135°方向四种，用不同的邻近像素进行比较，以决定局部极大值；4.3根据最大阈值Tmax和最小阈值Tmin检测边缘，Tmin＝0.4Tmax：某点像素值设为A，若A＞Tmax，则该点是边缘点，若A＜Tmin，则该点不是边缘点，如果Tmin＜A＜Tmax，则需要再次判断该点的邻接点B，若B＞Tmax，则A点是边缘点，否则不是边缘点。6.如权利要求5所述方法，其特征在于：所述步骤4.2中，具体比较方法如下：若某个像素值的灰度值与其梯度方向上前后两个像素的灰度值相比不是最大的，则该点为内部点，应该设置为零点；相反，则为边缘，置为1。7.如权利要求1所述方法，其特征在于：所述步骤5中，对东巴象形文的切分总体分为两步，第一步是行切分，第二步是列切分。8.如权利要求7所述方法，其特征在于：所述行切分根据水平方向投影的原理，映射出每一行的上下边缘，包括以下步骤：5.1.1沿着水平方向做东巴象形文图像的投影，对每个像素点进行遍历搜索，并按行计算黑色像素点的数量；5.1.2若某一行中没有黑色点，并且下面两行中均存在黑色点，则这一行为上边缘；5.1.3若某一行中存在至少一个黑色点，并且下面两行中均存在黑色点，则继续进行遍历搜索；5.1.4若某一行中存在至少一个黑色点，并且下面两行中均不存在黑色点，则这一行为下边缘；5.1.5按照上述步骤对每一行进行遍历，并且把相邻的上边缘和下边缘作为一组，将连续的下边缘与下边缘做差，得到的结果则为东巴象形文的高度。9.如权利要求7所述方法，其特征在于：所述列切分根据垂直方向投影的原理，将每一行的每个文字映射出左右边缘，从而分离出单个东巴象形文字，其包括以下步骤：5.2.1沿着垂直方向做东巴象形文图像的投影，对每个像素点进行遍历搜索，并按列计算黑色像素点的数量；5.2.2若某一列中没有黑色点，并且后面两列中均存在黑色点，则这一列为左边缘；5.2.3若某一列中存在至少一个黑色点，并且后面两列中均存在黑色点，则继续进行遍历搜索；5.2.4若某一列中存在至少一个黑色点，并且后面两列中均不存在黑色点，则这一列为右边缘；5.2.5按照上述步骤对每一列进行遍历，并且把相邻的左边缘和右边缘作为一组，将连续的右边缘与左边缘做差，得到的结果则为东巴象形文的宽度。10.如权利要求1所述方法，其特征在于：所述步骤6中，归一化的具体算法包括以下步骤：6.1计算书写轨迹的外接矩形，将矩形的左上角和右下角坐标分别标记为xmin,ymin，xmax,ymax，中心点标记为xc,yc，令：6.2矩形大小定义为W×W，令W＝64，将外接矩形的中心点平移到归一化后的矩形中心原来某点x,y平移后所有点的坐标x1,y1为：6.3分别计算长、宽方向的缩放比例ratiox、ratioy，两缩放比例的最小值定义为整个矩形的缩放比例ratio：ratio＝minratiox,ratioy；6.4归一化后的新坐标x′,y′定义为：x′＝x1×ratioy′＝y1×ratio。

百度查询：北京信息科技大学一种纳西东巴经书的数字化处理方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种基于红外检测技术的探测装置及使用方法_黎明职业大学_201911007934.7

下一篇：一种用于开槽埋管的冷冻施工辅助设备及方法_长江生态环保集团有限公司_202310118173.2

相关技术

一种基于红外检测技术的探测装置及使用方法_黎明职业大学_201911007934.7

一种用于开槽埋管的冷冻施工辅助设备及方法_长江生态环保集团有限公司_202310118173.2

一种产丙酸的工程益生菌的构建与应用_天津大学_202310196065.7

一种基于数字孪生的加工过程自适应控制方法_东华大学_202111238057.1

一种处理DMS红外光反射导致亮斑的系统_钧捷智能(深圳)有限公司_202310101483.3

一种多功能模块化农村生活污水处理设备及处理方法_江苏大学_202211232661.8

一种防止带钢在精轧卷取中发生追尾的方法_首钢京唐钢铁联合有限责任公司_202210031884.1

光催化装置嵌入沉砂池协同降解辣椒素污水与除砂_山东建筑大学_202111505610.3

一种基于计算机视觉的肺区区域分割系统_东莞理工学院_202210022595.5

一种适用于热辅助治疗的硝酸2-(4-甲基噻唑-5-基)乙酯盐脑靶向脂质体_山东京卫制药有限公司_202311121383.3

一种风机通风量检测方法及装置_北京农业信息技术研究中心_202110665511.5

高速公路隧道边墙二次衬砌模板支座、结构及使用方法_中铁十四局集团建筑工程有限公司_202111210321.0

东巴相关技术

用于残缺东巴文字的识别方法、系统、电子设备及介质_中央民族大学_202311122407.7

一种东巴字文档分割方法、装置、设备及存储介质_苏州市职业大学(苏州开放大学)_202310540883.4

一种东巴象形文字图像文档识别方法、装置、设备及介质_苏州市职业大学(苏州开放大学)_202310195608.3

一种东巴轮廓型单素字识别方法、装置、设备及存储介质_苏州市职业大学(苏州开放大学)_202310261046.8

一种东巴结构型单素字识别方法、装置、设备及存储介质_苏州市职业大学(苏州开放大学)_202310261378.6

文档分析、东巴文资料电子档的生成方法及相关设备_苏州市职业大学_202211057527.9

一种具有东巴文化特征的专用立柱_丽江德和文化传播有限公司_202220214264.7

一种用于在木板及石板上雕刻东巴文的数字化装置_丽江德和文化传播有限公司_202220214248.8

东巴象形文字识别方法及装置_黄颢_202210476418.4

一种东巴文的文字切分方法、装置、存储介质及电子设备_中央民族大学_202210255545.1

处理相关技术

水处理药剂和水处理膜_株式会社日本触媒_202280065452.0

图像处理方法和图像处理装置_北京达佳互联信息技术有限公司_202110540309.X

基板处理装置和基板处理方法_细美事有限公司_202310523948.4

图像处理电路以及图像处理方法_瑞昱半导体股份有限公司_202211379503.5

指令处理方法以及处理器_海光信息技术股份有限公司_202311332336.3

基片处理装置和基片处理方法_东京毅力科创株式会社_202410235210.2

基板处理装置以及基板处理方法_株式会社斯库林集团_202280063180.0

处理盒_极海微电子股份有限公司_202110868126.0

图像处理方法、图像处理系统、图像处理装置以及服务器_松下知识产权经营株式会社_202280065153.7

数字信号处理方法、装置、用于处理数字信号的处理器_上海联影微电子科技有限公司_202211391530.4

数字化相关技术

基于MES的数字化资产管理系统_东莞长盈精密技术有限公司_202211346394.7

数字化传热综合实验装置及方法_南京工业大学_201811042902.6

一种茶叶数字化智能冲泡装置_山东省农业科学院_202410169011.6

一种多维度数字画像智慧校园数字化系统_上海盛煌智能科技有限公司_202311787565.4

基于数字化平台的可视化智能决策系统及方法_湖北省招标股份有限公司_202410216749.3

一种智慧电厂的三维数字化展示方法及系统_广州发展南沙电力有限公司_202410289166.3

基于物联网的数字化农业饲养数据采集方法及系统_湖南共农生物科技有限公司_202410424347.2

一种电动泵试验数字化计算方法和系统_阳江核电有限公司_202410064647.4

一种数字化可控的新型断料锯_烟台帮程木工机械有限公司_202322248106.0

一种远程数字化杨氏模量装置_浙江科技学院_202210539414.6

龙图腾网&IPTOP

【发明公布】一种纳西东巴经书的数字化处理方法_北京信息科技大学_201811206914.8

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务