【发明授权】基于历时汉字知识图谱的古文字相似度量化方法_吉林大学_202210461219.6

导航：龙图腾网> 最新专利技术> 基于历时汉字知识图谱的古文字相似度量化方法_吉林大学_202210461219.6

申请/专利权人：吉林大学

申请日：2022-04-28

公开（公告）日：2023-07-25

公开（公告）号：CN114707615B

主分类号：G06V30/19

分类号：G06V30/19;G06N3/0464;G06N3/08;G06N5/02;G06F40/30;G06F16/36;G06F40/284;G06V10/82

优先权：

专利状态码：有效-授权

法律状态：2023.07.25#授权;2022.07.22#实质审查的生效;2022.07.05#公开

摘要：本发明提出了一种基于历时汉字知识图谱的古文字相似度量化方法，属于文字识别技术领域，该方法由历时汉字知识图谱构建步骤和古文字字形相似度计算步骤两部分组成；本发明构建知识图谱，并基于该知识图谱提出了古文字字形相似度的自动化度量方法。在汉字知识库的设计上，本发明首次针对汉字和词汇的特点，从字形、部件、文字、词汇、义项等完整层次进行建模，从而构成了汉字之间的关联网络，并且图谱具有历时性，可以关联中国各个历史时期的文字。在字形相似度的计算上，本发明利用历时汉字知识图谱中的知识，使古文字字形之间的相似性可以被量化计算。本发明提出的方法可以帮助古文字研究人员高效获取领域知识。

主权项：1.基于历时汉字知识图谱的古文字相似度量化方法，其特征在于：该方法由历时汉字知识图谱构建步骤和古文字字形相似度计算步骤两部分组成；S1、历时汉字知识图谱构建1知识库架构设计、属性和关系设计；历时汉字知识图谱分为字形、部件、古文字、文字、词汇、义项、同义词集和概念网络八层；所述历时汉字知识图谱的八个层次以及层次之间的关联关系如下：字形：每个字形来自于出土文物的拓片图像；部件：部件是部首或文字，是复合文字的组成单位，所有字形都与组成它的部件相关联；古文字：所有字形都应与各个不同历史时期对应的古文字相关联；文字：包括已释字和未释字，前者又分为现代汉字和丢失字；各个不同历史时期的古文字，如果代表同一个字，应该关联到同一个文字，如果该古文字已经被释读，并且仍在使用，将其与现代汉字联系起来，否则，如果古文字已被释读但已经不使用，则应与对应的丢失字关联，最后，未释读古文字应与相应未释字关联；词汇：中国历史上的所有单音节词和多音节词；义项：词汇的含义，所有词汇都应与其相应的义项相关联；同义词集：所有义项都与对应的同义词集相关联；概念网络：用于将相关的同义词集关联起来；同时所述历时汉字知识图谱中还包含文字之间的三种关系，分别是分化关系、指事关系和通假关系；2知识库构建和存储；①古文字提取：利用已有的OCR光学字符识别技术从铭文拓片图像中自动化识别每一个古文字，将其分类到对应的古文字字形列表中；②古文字字体库构建：在字体文件中，每个文字具有唯一编码，使用potrace工具批量将文字图片转化为矢量图，并使用svg2ttf工具自动生成字体并存储到ttf字体文件中；③部件及与部件相关的关系标注：基于深度学习的图像目标检测算法，使用mobilenetv3网络进行特征提取，自动识别古文字拓片图像中的部件，其中文字之间的分化关系、指事关系及通假关系提取自古文字相关书籍和论文中的已知记录；并在识别出的部件和对应的文字之间标注文字与部件之间的包含关系，在相关部件之间标注部件之间的分化、指事或通假关系；④自动化校对：对标注的一致性进行自动化检查，根据相同部件列表和标准部件字形，执行python程序，遍历所有标注的部件，将所有非标准字形部件改写为对应的标准字形；⑤自动提取字典数据中的词汇、义项；⑥同义、上位关系提取：首先根据字典定义的语言规律总结停留词表并去除定义中的停留词；接下来设计规则：如果去除停留词后句子为一个词汇并存在于词汇表中，则抽取该词汇为同义关键词；否则，如果句字中“的”与“标点符号句号”之间为一个词汇并存在于词汇表中，则抽取该词汇为上位关键词；最后将定义和词汇标签中包含相同同义关键词或上位关键词的义项分别标注为同义词和上位词；⑦义项年代标注：根据百度百科自动标记词典中的例句的作者和朝代，使知识库初步整合每个义项出现的时间点；⑧知识图谱架构设计：设计知识图谱的实体、关系和属性，共九个实体，九个实体包括部件、字形、文字、每个历史时期的古文字、词汇、义项、同义词集，实体间的关系，以及每个实体的属性；⑨数据融合：对于标注的所有数据，运行python程序，根据字体编码检索所有文字，将同一文字在不同数据源、不同历史时期关联的数据全部检索出来，接下来对不同数据来源描述相同文字的数据进行整合，对每个文字每一历史时期取所有数据源数据的并集，并合并重复的数据，如果数据以字符串形式描述，运行python程序判断两个义项的定义之间的余弦相似值，将相似度高于90％阈值的两个义项设置为相同义项，进行合并；如果数据以图片形式描述，如果两个字形的图片相似度阈值超过80％，则将两个字形合并为同一个字形；⑩数据存储：使用关系型数据库存储历时汉字知识图谱，根据知识图谱架构设计了数据库表，每个实体对应一张数据库表，数据库表包括多行和多列，数据库表的行和列形成单元格，其中每个单元格包括至少一个值或者不包括值；每张表包含该实体的唯一主键和全部属性，知识图谱中的关系使用关联表表示，为每两个具有关系的实体数据库表建立一张关联表，关联表包含两列分别为两个实体表的主键，从而通过这种设计使数据库能够查询知识图谱的实体、属性和关系；S2、古文字字形相似度计算1基于拓片图像分类的象形文字字形相似度计算；采用深度残差神经网络来获取古文字图像的高维向量，具体设共有n个古文字和m个文字图像，图像集合为X＝{x1,x2,…xm}，文字集合为C＝{c1,c2,…cn}；网络任务是将每个图像x分类到对应的文字c，pc|x,σ用于表示图像属于文字的概率，其中σ是神经网络的参数；网络输入是图像x，而输出是|C|维向量，每个维度表示每个文字c的概率p；在训练步骤中，提供了每个字形的图像及其对应的汉字标签；采用最小化交叉熵损失函数训练深度残差神经网络，用以获得深度残差神经网络的最优神经网络参数σ；然后直接将|C|维向量输出用作图像嵌入给定包含属于字形g的所有图像的集合ImageSet，将表示字形g的向量设置为g的图像集合中所有图像向量的平均值，如公式1所示；其中表示第i个字形gi的向量；ImageSeti表示第i个字形gi的图像集合；|ImageSeti|表示集合中图像的数量；表示第q个图像xq的向量；在得到字形g的向量后，使用余弦相似度得到字形对之间的相似度，这里乘以一个超参数α，当两个字形共享相同或相关的部首时，α＝1，否则，α将被设置为大于0且小于1的值，公式2，其中，两个字形共享相同或相关的部首也就是两个字属于分化、指事或通用关系；其中φ表示空集，otherwise表示否则，即两个字形没有共享相同或相关的部首的情况；PicSimgi,gj表示第i个字形gi和第j个字形gj使用基于拓片图像分类的方法计算得出的字形相似度；表示字形gi的向量和字形gj的向量的余弦相似度；RSeti和RSetj分别表示字形gi和字形gj中包含的部件及其相关部件的集合，所述相关部件指的是具有分化、指事或通用关系的文字包含的部件，最后，给定包含属于文字c的所有字形的集合GlyphSet，两个文字之间的相似度是它们的字形之间相似度组合的最大值，公式3；PicSimck,cg＝Max{PicSimgi,gj}gi∈GlyphSetk,gj∈GlyphSetg3其中PicSimck,cg表示第k个文字ck和第g个文字cg使用基于拓片图像分类的方法计算得出的字形相似度；GlyphSetk和GlyphSetg分别表示文字ck和文字cg包含的所有字形的集合；2基于部件最长公共子串的文字字形相似度计算；将文字表示为部件序列，并使用最长公共子序列来衡量文字的字形相似度；具体：每个字形都表示为它们的最小部件单元的序列：Seqr1,r2,…rf，f是该字形的部件数，部件r的排列顺序由它们在字中的位置决定，遵循先左后右、先上后下、先里后外的规则；字形相似度的计算方式如公式4：其中，在计算RLCS时，不仅考虑相同的部首，还考虑具有分化、指事或通用关系的部首对，如果对应的两个部首相同，则RLCS将加1，而如果两个部首相关，则RLCS将加一个超参数θ，0＜θ＜1，得到字形的相似度后，可以根据公式5得到文字间的相似度；RLCSSimck,cg＝Max{RLCSSimgi,gj}gi∈GlyphSetk,gj∈GlyphSetg5其中RLCSSimgi,gj表示第i个字形gi和第j个字形gj使用基于部件最长公共子串的方法计算得出的字形相似度；Seqi和Seqj分别表示字形gi和字形gj的部件序列；|Seqi|表示序列Seqi的长度；|Seqj|表示序列Seqj的长度；|RLCSSeqi,Seqj|表示序列Seqi和序列Seqj之间相同或相关部首的最长公共子序列长度；RLCSSimck,cg第k个文字ck和第g个文字cg使用基于部件最长公共子串的方法计算得出的字形相似度；3基于知识表示的文字字形相似度计算；首先基于历时汉字知识图谱构建了一个无向图Graph，用于通过部件关联所有汉字字形，节点集合N包括文字c、字形g和部件r，Graph中的关系有3种：R1c,g、R2g,r和R3r,r，R1c,g描述了文字和字形之间的包含关系；R2g,r描述了字形和部件之间的包含关系；R3r,r包含部件之间的分化、指事和通用关系；然后基于Graph，使用随机游走算法生成字形节点的字形g的向量然后使用余弦相似度计算字形之间的相似度，公式6，最后，文字之间的字形相似度可以通过公式7获得， gi∈GlyphSetk,gj∈GlyphSetg7其中，GraphSimgi,gj表示第i个字形gi和第j个字形gj使用基于知识表示的方法计算得出的字形相似度；GraphSimck,cg表示第k个文字ck和第g个文字cg用基于知识表示的方法计算得出的字形相似度；4融合步骤1、步骤2和步骤3中三种文字字形相似度计算方法得到最终结果，如公式8；即通过加权方式进行组合来得到字形相似度的最终结果，设置每个子方法的权重分别为0.4、0.4和0.3，深度残差神经网络的层数为18，学习率为0.001，超参数α为0.4，θ为0.7，图谱相似度的随机游走算法是使用OpenNE工具实现的，输出字形向量的维度为50；其中GlyphSimck,cg表示第k个文字ck和第g个文字cg使用综合方法得出的字形相似度。

全文数据：

权利要求：

百度查询：吉林大学基于历时汉字知识图谱的古文字相似度量化方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：为放大器操作进行的平台资源的选择_超威半导体公司_202280065509.7

下一篇：一种化合物及其制备方法和在卷烟中的应用_湖北中烟工业有限责任公司_202410162764.4

相关技术

为放大器操作进行的平台资源的选择_超威半导体公司_202280065509.7

一种化合物及其制备方法和在卷烟中的应用_湖北中烟工业有限责任公司_202410162764.4

一种基于多智能体交互的自然语言智能查询方法和装置_浙江大学_202311766938.X

一种矿井提升机防止跑车的控制方法与装置_洛阳九亿重工集团有限公司_202410421104.3

一种吊具点测方法、装置、系统和存储介质_一汽丰田汽车有限公司_202410173152.5

一种基于视觉和图像处理的叉车AGV控制系统_中建材智能自动化研究院有限公司_202410146298.0

用于制造一次性杯状件的机器_MS2责任有限公司_202280065197.X

一种茭白废弃叶多糖组分及其制备方法和用途_常熟理工学院_202410158334.5

一种异性粘结磁粉制备用原料筛选设备_天长市中德电子有限公司_202410411084.1

一体集成微同轴气密封装结构及其制造方法_中国电子科技集团公司第十三研究所_202410148673.5

重组人白介素2（I）的应用_山东泉港药业有限公司_202410417266.X

无机人造石脱模剂及其制备方法和无机人造石的制备方法_深圳市润丰新材料科技有限公司_202410151462.7

古文字相关技术

一种线束表面文字标示印刷涂布设备_常州艾博格电器有限公司_202410172320.9

一种web页面文字加密的反爬虫方法_天翼云科技有限公司_202311722411.7

基于人工智能的文字识别方法及装置、电子设备_平安银行股份有限公司_202111017840.5

一种基于特征解耦合的文字-图像对生成方法和装置_之江实验室_202210148651.X

基于图片和文字的社交媒体关键词数据分析方法及装置_一网互通(北京)科技有限公司_202410429676.6

一种文字识别方法、装置及电子设备_阿里巴巴集团控股有限公司_202010003178.7

基于九宫格输入法的文字输入方法、装置、设备及产品_腾讯科技(深圳)有限公司_202211351543.9

一种词典释义增强的古文到现代文机器翻译方法_南京大学_202410154017.6

文字编辑方法及装置_华为技术有限公司_202211362765.0

文字增强方法、装置、设备及介质_广州视源电子科技股份有限公司_202211337358.4

图谱相关技术

一种基于双层图谱的理赔决策规则生成方法及装置_德联易控科技(北京)有限公司_202410181397.2

一种知识图谱的实体对齐方法、装置、存储介质及设备_合肥讯飞数码科技有限公司_202410197991.0

一种结合知识图谱的大模型微调训练方法_北银金融科技有限责任公司_202311563858.4

一种基于知识图谱增强图对比学习的推荐方法_东北大学_202410161790.5

一种包含赤芍的中药复方的指纹图谱构建方法及其应用_湖南易能生物医药有限公司_202410262928.0

一种基于多模态知识图谱的多模态问答方法及系统_福建新大陆软件工程有限公司_202410061690.5

一种基于关系图谱与时空轨迹的医院节能方法及系统_武汉华康世纪医疗股份有限公司_202311203404.6

一种基于事件图谱的舆情推演方法以及相关装置_中电科大数据研究院有限公司_202410049093.0

知识图谱结合血常规检验数据的疾病筛率提升方法和系统_健数(长春)科技有限公司_202410426237.X

一种武器装备信息的知识图谱构建方法、系统及设备_中国人民解放军92941部队_202410256932.6

相似相关技术

一种相似件快换工装_凌云中南工业有限公司_202322450848.1

一种商标相似度评估方法及装置_深圳欧税通技术有限公司_202410192592.5

一种模拟岩土体节理面的相似材料制备装置_中国地质大学(武汉)_201711085615.9

具有隔声减振功能的自相似结构三维声子晶体_大连海事大学_202410256258.1

基于任务相似度的智能决策模型泛化方法和装置_中国人民解放军军事科学院国防科技创新研究院_202410118074.9

基于全局相似性最佳接缝的多视角图像拼接方法及系统_松立控股集团股份有限公司_202410417204.9

用于确定文本和视频之间的相似度的方法和装置_支付宝(杭州)信息技术有限公司_202410044723.5

一种基于模糊哈希算法的数字指纹生成及相似度比较方法_中国电子科技集团公司第三十研究所_202410166470.9

一种基于余弦相似度的高速铣削颤振检测方法_淮阴工学院_202410006506.7

一种基于招聘需求相似度的职位推荐方法_深圳今日人才信息科技有限公司_202211299760.8

龙图腾网&IPTOP

【发明授权】基于历时汉字知识图谱的古文字相似度量化方法_吉林大学_202210461219.6

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务