买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于历时汉字知识图谱的古文字相似度量化方法_吉林大学_202210461219.6 

申请/专利权人:吉林大学

申请日:2022-04-28

公开(公告)日:2023-07-25

公开(公告)号:CN114707615B

主分类号:G06V30/19

分类号:G06V30/19;G06N3/0464;G06N3/08;G06N5/02;G06F40/30;G06F16/36;G06F40/284;G06V10/82

优先权:

专利状态码:有效-授权

法律状态:2023.07.25#授权;2022.07.22#实质审查的生效;2022.07.05#公开

摘要:本发明提出了一种基于历时汉字知识图谱的古文字相似度量化方法,属于文字识别技术领域,该方法由历时汉字知识图谱构建步骤和古文字字形相似度计算步骤两部分组成;本发明构建知识图谱,并基于该知识图谱提出了古文字字形相似度的自动化度量方法。在汉字知识库的设计上,本发明首次针对汉字和词汇的特点,从字形、部件、文字、词汇、义项等完整层次进行建模,从而构成了汉字之间的关联网络,并且图谱具有历时性,可以关联中国各个历史时期的文字。在字形相似度的计算上,本发明利用历时汉字知识图谱中的知识,使古文字字形之间的相似性可以被量化计算。本发明提出的方法可以帮助古文字研究人员高效获取领域知识。

主权项:1.基于历时汉字知识图谱的古文字相似度量化方法,其特征在于:该方法由历时汉字知识图谱构建步骤和古文字字形相似度计算步骤两部分组成;S1、历时汉字知识图谱构建1知识库架构设计、属性和关系设计;历时汉字知识图谱分为字形、部件、古文字、文字、词汇、义项、同义词集和概念网络八层;所述历时汉字知识图谱的八个层次以及层次之间的关联关系如下:字形:每个字形来自于出土文物的拓片图像;部件:部件是部首或文字,是复合文字的组成单位,所有字形都与组成它的部件相关联;古文字:所有字形都应与各个不同历史时期对应的古文字相关联;文字:包括已释字和未释字,前者又分为现代汉字和丢失字;各个不同历史时期的古文字,如果代表同一个字,应该关联到同一个文字,如果该古文字已经被释读,并且仍在使用,将其与现代汉字联系起来,否则,如果古文字已被释读但已经不使用,则应与对应的丢失字关联,最后,未释读古文字应与相应未释字关联;词汇:中国历史上的所有单音节词和多音节词;义项:词汇的含义,所有词汇都应与其相应的义项相关联;同义词集:所有义项都与对应的同义词集相关联;概念网络:用于将相关的同义词集关联起来;同时所述历时汉字知识图谱中还包含文字之间的三种关系,分别是分化关系、指事关系和通假关系;2知识库构建和存储;①古文字提取:利用已有的OCR光学字符识别技术从铭文拓片图像中自动化识别每一个古文字,将其分类到对应的古文字字形列表中;②古文字字体库构建:在字体文件中,每个文字具有唯一编码,使用potrace工具批量将文字图片转化为矢量图,并使用svg2ttf工具自动生成字体并存储到ttf字体文件中;③部件及与部件相关的关系标注:基于深度学习的图像目标检测算法,使用mobilenetv3网络进行特征提取,自动识别古文字拓片图像中的部件,其中文字之间的分化关系、指事关系及通假关系提取自古文字相关书籍和论文中的已知记录;并在识别出的部件和对应的文字之间标注文字与部件之间的包含关系,在相关部件之间标注部件之间的分化、指事或通假关系;④自动化校对:对标注的一致性进行自动化检查,根据相同部件列表和标准部件字形,执行python程序,遍历所有标注的部件,将所有非标准字形部件改写为对应的标准字形;⑤自动提取字典数据中的词汇、义项;⑥同义、上位关系提取:首先根据字典定义的语言规律总结停留词表并去除定义中的停留词;接下来设计规则:如果去除停留词后句子为一个词汇并存在于词汇表中,则抽取该词汇为同义关键词;否则,如果句字中“的”与“标点符号句号”之间为一个词汇并存在于词汇表中,则抽取该词汇为上位关键词;最后将定义和词汇标签中包含相同同义关键词或上位关键词的义项分别标注为同义词和上位词;⑦义项年代标注:根据百度百科自动标记词典中的例句的作者和朝代,使知识库初步整合每个义项出现的时间点;⑧知识图谱架构设计:设计知识图谱的实体、关系和属性,共九个实体,九个实体包括部件、字形、文字、每个历史时期的古文字、词汇、义项、同义词集,实体间的关系,以及每个实体的属性;⑨数据融合:对于标注的所有数据,运行python程序,根据字体编码检索所有文字,将同一文字在不同数据源、不同历史时期关联的数据全部检索出来,接下来对不同数据来源描述相同文字的数据进行整合,对每个文字每一历史时期取所有数据源数据的并集,并合并重复的数据,如果数据以字符串形式描述,运行python程序判断两个义项的定义之间的余弦相似值,将相似度高于90%阈值的两个义项设置为相同义项,进行合并;如果数据以图片形式描述,如果两个字形的图片相似度阈值超过80%,则将两个字形合并为同一个字形;⑩数据存储:使用关系型数据库存储历时汉字知识图谱,根据知识图谱架构设计了数据库表,每个实体对应一张数据库表,数据库表包括多行和多列,数据库表的行和列形成单元格,其中每个单元格包括至少一个值或者不包括值;每张表包含该实体的唯一主键和全部属性,知识图谱中的关系使用关联表表示,为每两个具有关系的实体数据库表建立一张关联表,关联表包含两列分别为两个实体表的主键,从而通过这种设计使数据库能够查询知识图谱的实体、属性和关系;S2、古文字字形相似度计算1基于拓片图像分类的象形文字字形相似度计算;采用深度残差神经网络来获取古文字图像的高维向量,具体设共有n个古文字和m个文字图像,图像集合为X={x1,x2,…xm},文字集合为C={c1,c2,…cn};网络任务是将每个图像x分类到对应的文字c,pc|x,σ用于表示图像属于文字的概率,其中σ是神经网络的参数;网络输入是图像x,而输出是|C|维向量,每个维度表示每个文字c的概率p;在训练步骤中,提供了每个字形的图像及其对应的汉字标签;采用最小化交叉熵损失函数训练深度残差神经网络,用以获得深度残差神经网络的最优神经网络参数σ;然后直接将|C|维向量输出用作图像嵌入给定包含属于字形g的所有图像的集合ImageSet,将表示字形g的向量设置为g的图像集合中所有图像向量的平均值,如公式1所示; 其中表示第i个字形gi的向量;ImageSeti表示第i个字形gi的图像集合;|ImageSeti|表示集合中图像的数量;表示第q个图像xq的向量;在得到字形g的向量后,使用余弦相似度得到字形对之间的相似度,这里乘以一个超参数α,当两个字形共享相同或相关的部首时,α=1,否则,α将被设置为大于0且小于1的值,公式2,其中,两个字形共享相同或相关的部首也就是两个字属于分化、指事或通用关系; 其中φ表示空集,otherwise表示否则,即两个字形没有共享相同或相关的部首的情况;PicSimgi,gj表示第i个字形gi和第j个字形gj使用基于拓片图像分类的方法计算得出的字形相似度;表示字形gi的向量和字形gj的向量的余弦相似度;RSeti和RSetj分别表示字形gi和字形gj中包含的部件及其相关部件的集合,所述相关部件指的是具有分化、指事或通用关系的文字包含的部件,最后,给定包含属于文字c的所有字形的集合GlyphSet,两个文字之间的相似度是它们的字形之间相似度组合的最大值,公式3;PicSimck,cg=Max{PicSimgi,gj}gi∈GlyphSetk,gj∈GlyphSetg3其中PicSimck,cg表示第k个文字ck和第g个文字cg使用基于拓片图像分类的方法计算得出的字形相似度;GlyphSetk和GlyphSetg分别表示文字ck和文字cg包含的所有字形的集合;2基于部件最长公共子串的文字字形相似度计算;将文字表示为部件序列,并使用最长公共子序列来衡量文字的字形相似度;具体:每个字形都表示为它们的最小部件单元的序列:Seqr1,r2,…rf,f是该字形的部件数,部件r的排列顺序由它们在字中的位置决定,遵循先左后右、先上后下、先里后外的规则;字形相似度的计算方式如公式4: 其中,在计算RLCS时,不仅考虑相同的部首,还考虑具有分化、指事或通用关系的部首对,如果对应的两个部首相同,则RLCS将加1,而如果两个部首相关,则RLCS将加一个超参数θ,0<θ<1,得到字形的相似度后,可以根据公式5得到文字间的相似度;RLCSSimck,cg=Max{RLCSSimgi,gj}gi∈GlyphSetk,gj∈GlyphSetg5其中RLCSSimgi,gj表示第i个字形gi和第j个字形gj使用基于部件最长公共子串的方法计算得出的字形相似度;Seqi和Seqj分别表示字形gi和字形gj的部件序列;|Seqi|表示序列Seqi的长度;|Seqj|表示序列Seqj的长度;|RLCSSeqi,Seqj|表示序列Seqi和序列Seqj之间相同或相关部首的最长公共子序列长度;RLCSSimck,cg第k个文字ck和第g个文字cg使用基于部件最长公共子串的方法计算得出的字形相似度;3基于知识表示的文字字形相似度计算;首先基于历时汉字知识图谱构建了一个无向图Graph,用于通过部件关联所有汉字字形,节点集合N包括文字c、字形g和部件r,Graph中的关系有3种:R1c,g、R2g,r和R3r,r,R1c,g描述了文字和字形之间的包含关系;R2g,r描述了字形和部件之间的包含关系;R3r,r包含部件之间的分化、指事和通用关系;然后基于Graph,使用随机游走算法生成字形节点的字形g的向量然后使用余弦相似度计算字形之间的相似度,公式6,最后,文字之间的字形相似度可以通过公式7获得, gi∈GlyphSetk,gj∈GlyphSetg7其中,GraphSimgi,gj表示第i个字形gi和第j个字形gj使用基于知识表示的方法计算得出的字形相似度;GraphSimck,cg表示第k个文字ck和第g个文字cg用基于知识表示的方法计算得出的字形相似度;4融合步骤1、步骤2和步骤3中三种文字字形相似度计算方法得到最终结果,如公式8;即通过加权方式进行组合来得到字形相似度的最终结果,设置每个子方法的权重分别为0.4、0.4和0.3,深度残差神经网络的层数为18,学习率为0.001,超参数α为0.4,θ为0.7,图谱相似度的随机游走算法是使用OpenNE工具实现的,输出字形向量的维度为50; 其中GlyphSimck,cg表示第k个文字ck和第g个文字cg使用综合方法得出的字形相似度。

全文数据:

权利要求:

百度查询: 吉林大学 基于历时汉字知识图谱的古文字相似度量化方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。