买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种纳西东巴经书的数字化处理方法_北京信息科技大学_201811206914.8 

申请/专利权人:北京信息科技大学

申请日:2018-10-17

公开(公告)日:2019-03-01

公开(公告)号:CN109409378A

主分类号:G06K9/40(2006.01)I

分类号:G06K9/40(2006.01)I;G06K9/46(2006.01)I;G06K9/34(2006.01)I

优先权:

专利状态码:失效-发明专利申请公布后的驳回

法律状态:2023.07.21#发明专利申请公布后的驳回;2019.03.26#实质审查的生效;2019.03.01#公开

摘要:本发明涉及一种纳西东巴经书的数字化处理方法,其包括以下步骤:采用东巴经书CCD数字采集系统对东巴经典古籍进行数字化采集;对采集到的东巴经典古籍图像信息进行自适应中值滤波去噪处理;对去噪后的东巴经典古籍图像信息进行图像二值化处理,增强目标文字图像与背景的对比度;对二值化处理后的东巴经典古籍图像中的文字进行边缘检测;对边缘检测后的东巴经典古籍图像中的文字进行切分;将切分后的东巴形文图像归一化,完成东巴经典古籍的数字化处理。本发明能降低图片偏差,提高东巴文的辨识率。

主权项:1.一种纳西东巴经书的数字化处理方法,其特征在于,包括以下步骤:1采用东巴经书CCD数字采集系统对东巴经典古籍进行数字化采集;2对采集到的东巴经典古籍图像信息进行自适应中值滤波去噪处理;3对去噪后的东巴经典古籍图像信息进行图像二值化处理,增强目标文字图像与背景的对比度;4对二值化处理后的东巴经典古籍图像中的文字进行边缘检测;5对边缘检测后的东巴经典古籍图像中的文字进行切分;6将切分后的东巴形文图像归一化,完成东巴经典古籍的数字化处理。

全文数据:一种纳西东巴经书的数字化处理方法技术领域本发明涉及东巴象形文字处理技术领域,特别是关于一种面向东巴经书文字预处理的纳西东巴经书的数字化处理方法。背景技术东巴象形文字,本语称为森究鲁究,意思是木石的痕迹,即见木画木、见石画石,是一种用图画的方式写成的文字。东巴祭司用这种文字记录宗教活动,书写成一部部的东巴经典。东巴经书是纳西族古代社会生活与习俗的百科全书,它详尽地描述了东巴文化,记载有生活中天文气象、历史地理、人文风情、宗教信仰等内容。而作为东巴文化的载体,东巴经记载了纳西民族的祭祀仪式与道场,包括祭天、祭山神、祭祖先等24类。国内外研究东巴文化的专家学者认为:东巴经书是研究东巴文化的重要资料,也是研究古代纳西族的社会历史、语言文字、伦理道德等的重要依据,对探寻中国远古文化有重要意义。对纸质的东巴经典古籍进行数字化图像采集时,可能由于摄像头的偏斜或者对焦不准等原因,造成采集到的图像失真模糊;也可能由硬件采集系统自身的原因,导致采集到的图像带有一定的噪点;再加上东巴经典古籍诞生的年代久远,经历了上千年历史的洗礼,很多经书都有了不同程度的破损以及表面的磨损、污渍等,从而降低了采集到的图像中东巴象形文的清晰度,造成了东巴象形文与实际文字的偏差。基于“世界记忆遗产”东巴经典传承体系数字化国际共享平台建设研究的支持,许多东巴经书从世界各地被收集回来,迫切需要一种方法对这些东巴经书进行数字化的加工,恢复其因年代久远而失去的信息,并对其进行保存,传输与共享。发明内容针对上述问题,本发明的目的是提供一种纳西东巴经书的数字化处理方法,该方法能降低图片偏差,提高东巴文的辨识率。为实现上述目的,本发明采取以下技术方案:一种纳西东巴经书的数字化处理方法,其包括以下步骤:1采用东巴经书CCD数字采集系统对东巴经典古籍进行数字化采集;2对采集到的东巴经典古籍图像信息进行自适应中值滤波去噪处理;3对去噪后的东巴经典古籍图像信息进行图像二值化处理,增强目标文字图像与背景的对比度;4对二值化处理后的东巴经典古籍图像中的文字进行边缘检测;5对边缘检测后的东巴经典古籍图像中的文字进行切分;6将切分后的东巴形文图像归一化,完成东巴经典古籍的数字化处理。进一步,所述步骤2中,自适应中值滤波的方法包括以下步骤:2.1设置初始滤波窗口的大小为Sxy;2.2对窗口对应的像素灰度值进行从小到大的排序;2.3计算A1、A2、B1、B2:A1=Zmed-Zmin,A2=Zmed-Zmax,B1=Zxy-Zmin,B2=Zxy-Zmax;Zmed为滤波窗口灰度的中值;Zmin为滤波窗口灰度最小值;Zmax为滤波窗口灰度最大值;Zxy为点x,y的灰度值;2.4判断是否满足A10且A20且A20且B20且A20且A20且B20,满足则图像中的Zxy保持原来的灰度值不变;反之则另Zxy=Zmed。3对去噪后的东巴经典古籍图像信息进行图像二值化处理:在文字识别的过程中,需要关注的只是象形文的笔划特征,而不是色彩,所以为了方便后续的处理,将图像二值化,从而增强目标文字图像与背景的对比度,如图5所示。当图像的灰度直方图呈现图6的情况时,此时可以根据预先选取的阈值来划分前景和背景。令fx,y表示灰度图像,则有:式中,fx,y为灰度图像,gx,y为阈值处理后的二值图像,其中取值为a的像素是前景目标,取值为b的像素是背景。通常令a=1白,b=0黑。在直方图有两个分离的峰值,图像的阈值一般会在峰值之间的波谷处。此时,阈值T的选择可根据反复实验选取最好的观测结果。或者使用迭代方法获取阈值T,具体计算步骤为:3.1针对全局阈值选择初始阈值T0。3.2用T0将图像分割成两部分区域G1和G2,并分别计算G1、G2区域内的平均灰度值m1和m2。3.3根据平均灰度值m1和m2计算新阈值T:3.4重复步骤3.2-3.3,直到m1和m2不再变化为止,则T为阈值。4对二值化处理后的东巴经典古籍图像中的文字进行边缘检测:文字边缘检测采用Canny算法进行检测;为了避免噪声的影响,Canny算法采用设置两个阈值的方法。Canny算法的具体步骤如下:4.1根据图像灰度的偏导数Gx,Gy,计算梯度的大小|G|和方向θ:4.2采用遍历的方法分别沿着文字边缘的梯度方向,大致分为水平、竖直、45°方向和135°方向四种,用不同的邻近像素进行比较,以决定局部极大值,进而剔除掉一大部分非边缘的点;具体方法如下:若某个像素值的灰度值与其梯度方向上前后两个像素的灰度值相比不是最大的,则该点为内部点,应该设置为零点;相反,则为边缘,置为1。4.3根据最大阈值Tmax和最小阈值Tmin检测边缘,Tmin=0.4Tmax:某点像素值设为A,若A>Tmax,则该点是边缘点,若A<Tmin,则该点不是边缘点,如果Tmin<A<Tmax,则需要再次判断该点的邻接点B,若B>Tmax,则A点是边缘点,否则不是边缘点。用于边缘检测的原图像如图7所示,进行边缘检测后得到的文字边缘的图像如图8所示。5对边缘检测后的东巴经典古籍图像中的文字进行切分:对东巴象形文字的特征提取是针对每一个象形文而言的,所以要对东巴经典古籍中的文字进行切分,分离出单个的象形文。采取行、列分别投影结合像素追踪的方法将东巴经典古籍图像中的一篇东巴文一个个拆分开来。对东巴象形文的切分总体分为两步,第一步是行切分,第二步是列切分。5.1行切分行切分主要根据水平方向投影的原理,映射出每一行的上下边缘。5.1.1沿着水平方向做东巴象形文图像的投影,对每个像素点进行遍历搜索,并按行计算黑色像素点的数量;5.1.2若某一行中没有黑色点,并且下面两行中均存在黑色点,则这一行为上边缘;5.1.3若某一行中存在至少一个黑色点,并且下面两行中均存在黑色点,则继续进行遍历搜索;5.1.4若某一行中存在至少一个黑色点,并且下面两行中均不存在黑色点,则这一行为下边缘;5.1.5按照上述步骤对每一行进行遍历,并且把相邻的上边缘和下边缘作为一组,将连续的下边缘与下边缘做差,得到的结果则为东巴象形文的高度。5.2列切分列切分主要根据垂直方向投影的原理,将每一行的每个文字映射出左右边缘,从而分离出单个东巴象形文字。5.2.1沿着垂直方向做东巴象形文图像的投影,对每个像素点进行遍历搜索,并按列计算黑色像素点的数量;5.2.2若某一列中没有黑色点,并且后面两列中均存在黑色点,则这一列为左边缘;5.2.3若某一列中存在至少一个黑色点,并且后面两列中均存在黑色点,则继续进行遍历搜索;5.2.4若某一列中存在至少一个黑色点,并且后面两列中均不存在黑色点,则这一列为右边缘;5.2.5按照上述步骤对每一列进行遍历,并且把相邻的左边缘和右边缘作为一组,将连续的右边缘与左边缘做差,得到的结果则为东巴象形文的宽度。例如,如图9所示,首先对用于切分的东巴经典古籍图像作水平方向的投影,即按照行对其像素值进行累加,得到如图10所示的水平投影图,根据该图可以将东把经书进行行切分。再单独将每一行东巴象形文图像,作垂直方向的投影,即按列统计每个像素点的灰度值,对垂直投影图进行分析后对每一行文字进行列切分,从而分离出每一文字。这里提取出刚才切分出的第三行,如图11所示,对其进行垂直投影,如图12所示。将此行文字采用垂直投影切分出单个东巴象形文如图13所示。6将切分后的东巴形文图像归一化,完成东巴经典古籍的数字化处理;由于东巴经典古籍是由不同的老东巴书写而成,东巴象形文字的根据作者的习惯而具有不同的尺寸,所以为了方便后续的处理与准确识别,将东巴文归一化成等同的64×64尺寸。归一化的具体算法包括以下步骤:6.1计算书写轨迹的外接矩形,将矩形的左上角和右下角坐标分别标记为xmin,ymin,xmax,ymax,中心点标记为xc,yc,令:6.2矩形大小定义为W×W,令W=64,将外接矩形的中心点平移到归一化后的矩形中心原来某点x,y平移后所有点的坐标x1,y1为:6.3分别计算长、宽方向的缩放比例ratiox、ratioy,两缩放比例的最小值定义为整个矩形的缩放比例ratio:ratio=minratiox,ratioy6.4归一化后的新坐标x′,y′定义为:x′=x1×ratioy′=y1×ratio。按照该方法归一化后的文字如图14所示。上述各实施例仅用于说明本发明,各步骤都是可以有所变化的,在本发明技术方案的基础上,凡根据本发明原理对个别步骤进行的改进和等同变换,均不应排除在本发明的保护范围之外。

权利要求:1.一种纳西东巴经书的数字化处理方法,其特征在于,包括以下步骤:1采用东巴经书CCD数字采集系统对东巴经典古籍进行数字化采集;2对采集到的东巴经典古籍图像信息进行自适应中值滤波去噪处理;3对去噪后的东巴经典古籍图像信息进行图像二值化处理,增强目标文字图像与背景的对比度;4对二值化处理后的东巴经典古籍图像中的文字进行边缘检测;5对边缘检测后的东巴经典古籍图像中的文字进行切分;6将切分后的东巴形文图像归一化,完成东巴经典古籍的数字化处理。2.如权利要求1所述方法,其特征在于:所述步骤2中,自适应中值滤波的方法包括以下步骤:2.1设置初始滤波窗口的大小为Sxy;2.2对窗口对应的像素灰度值进行从小到大的排序;2.3计算A1、A2、B1、B2:A1=Zmed-Zmin,A2=Zmed-Zmax,B1=Zxy-Zmin,B2=Zxy-Zmax;Zmed为滤波窗口灰度的中值;Zmin为滤波窗口灰度最小值;Zmax为滤波窗口灰度最大值;Zxy为点x,y的灰度值;2.4判断是否满足A10且A20且A20且B20,满足则图像中的Zxy保持原来的灰度值不变;反之则另Zxy=Zmed。3.如权利要求1所述方法,其特征在于:所述步骤3中,根据预先选取的阈值来划分前景和背景,令fx,y表示灰度图像,则有:式中,fx,y为灰度图像,gx,y为阈值处理后的二值图像,其中取值为a的像素是前景目标,取值为b的像素是背景;T为阈值。4.如权利要求3所述方法,其特征在于:所述阈值T采用迭代方法获取步骤为:3.1针对全局阈值选择初始阈值T0;3.2用T0将图像分割成两部分区域G1和G2,并分别计算G1、G2区域内的平均灰度值m1和m2;3.3根据平均灰度值m1和m2计算新阈值T:3.4重复步骤3.2-3.3,直到m1和m2不再变化为止,则T为阈值。5.如权利要求1所述方法,其特征在于:所述步骤4中,文字边缘检测采用Canny算法进行检测,Canny算法的步骤如下:4.1根据图像灰度的偏导数Gx,Gy,计算梯度的大小|G|和方向θ:4.2采用遍历的方法分别沿着文字边缘的梯度方向,分为水平、竖直、45°方向和135°方向四种,用不同的邻近像素进行比较,以决定局部极大值;4.3根据最大阈值Tmax和最小阈值Tmin检测边缘,Tmin=0.4Tmax:某点像素值设为A,若A>Tmax,则该点是边缘点,若A<Tmin,则该点不是边缘点,如果Tmin<A<Tmax,则需要再次判断该点的邻接点B,若B>Tmax,则A点是边缘点,否则不是边缘点。6.如权利要求5所述方法,其特征在于:所述步骤4.2中,具体比较方法如下:若某个像素值的灰度值与其梯度方向上前后两个像素的灰度值相比不是最大的,则该点为内部点,应该设置为零点;相反,则为边缘,置为1。7.如权利要求1所述方法,其特征在于:所述步骤5中,对东巴象形文的切分总体分为两步,第一步是行切分,第二步是列切分。8.如权利要求7所述方法,其特征在于:所述行切分根据水平方向投影的原理,映射出每一行的上下边缘,包括以下步骤:5.1.1沿着水平方向做东巴象形文图像的投影,对每个像素点进行遍历搜索,并按行计算黑色像素点的数量;5.1.2若某一行中没有黑色点,并且下面两行中均存在黑色点,则这一行为上边缘;5.1.3若某一行中存在至少一个黑色点,并且下面两行中均存在黑色点,则继续进行遍历搜索;5.1.4若某一行中存在至少一个黑色点,并且下面两行中均不存在黑色点,则这一行为下边缘;5.1.5按照上述步骤对每一行进行遍历,并且把相邻的上边缘和下边缘作为一组,将连续的下边缘与下边缘做差,得到的结果则为东巴象形文的高度。9.如权利要求7所述方法,其特征在于:所述列切分根据垂直方向投影的原理,将每一行的每个文字映射出左右边缘,从而分离出单个东巴象形文字,其包括以下步骤:5.2.1沿着垂直方向做东巴象形文图像的投影,对每个像素点进行遍历搜索,并按列计算黑色像素点的数量;5.2.2若某一列中没有黑色点,并且后面两列中均存在黑色点,则这一列为左边缘;5.2.3若某一列中存在至少一个黑色点,并且后面两列中均存在黑色点,则继续进行遍历搜索;5.2.4若某一列中存在至少一个黑色点,并且后面两列中均不存在黑色点,则这一列为右边缘;5.2.5按照上述步骤对每一列进行遍历,并且把相邻的左边缘和右边缘作为一组,将连续的右边缘与左边缘做差,得到的结果则为东巴象形文的宽度。10.如权利要求1所述方法,其特征在于:所述步骤6中,归一化的具体算法包括以下步骤:6.1计算书写轨迹的外接矩形,将矩形的左上角和右下角坐标分别标记为xmin,ymin,xmax,ymax,中心点标记为xc,yc,令:6.2矩形大小定义为W×W,令W=64,将外接矩形的中心点平移到归一化后的矩形中心原来某点x,y平移后所有点的坐标x1,y1为:6.3分别计算长、宽方向的缩放比例ratiox、ratioy,两缩放比例的最小值定义为整个矩形的缩放比例ratio:ratio=minratiox,ratioy;6.4归一化后的新坐标x′,y′定义为:x′=x1×ratioy′=y1×ratio。

百度查询: 北京信息科技大学 一种纳西东巴经书的数字化处理方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。