【发明授权】一种基于关系融合与表示学习的文献作者姓名消歧方法_山东科技大学_202311598281.0

导航：龙图腾网> 最新专利技术> 一种基于关系融合与表示学习的文献作者姓名消歧方法_山东科技大学_202311598281.0

申请/专利权人：山东科技大学

申请日：2023-11-28

公开（公告）日：2024-02-06

公开（公告）号：CN117312565B

主分类号：G06F16/35

分类号：G06F16/35;G06F16/383;G06F40/216;G06F40/30;G06N3/042;G06N3/0455;G06N3/084;G06N3/088;G06N3/048

优先权：

专利状态码：有效-授权

法律状态：2024.02.06#授权;2024.01.16#实质审查的生效;2023.12.29#公开

摘要：本发明公开了一种基于关系融合与表示学习的文献作者姓名消歧方法，属于信息技术领域，包括如下步骤：从电子文献数据库检索，获取待消歧作者的所有英文文献；利用连续词袋模型获取文献的向量表示，构建特征向量矩阵；判断任意两篇文献之间的关系；构建聚合图及聚合图对应的邻接矩阵，并基于变分图自编码器获取优化后的第一文献嵌入向量矩阵；构建重要作者图及重要作者图对应的邻接矩阵，并利用变分图自编码器和优化后的第一文献嵌入向量矩阵获取优化后的第二文献嵌入向量矩阵；基于优化后的第二文献嵌入向量矩阵，进行聚类，获得消歧结果。本发明通过多种关系融合方式构建关系图，使用关系信息优化文献的表示向量，从而提高了消歧效果。

主权项：1.一种基于关系融合与表示学习的文献作者姓名消歧方法，其特征在于，包括如下步骤：步骤1、从电子文献数据库检索，获取待消歧作者的所有英文文献，构建所有英文文献的属性集合；具体过程如下：步骤1.1、设待消歧作者的姓名为a，将一篇英文文献中的其他作者称为合著者，检索获取的包含a的英文文献集合为Dtotal＝{D1,D2,…,Di,…,Dm}，其中Di是第i篇英文文献，m是英文文献数量；步骤1.2、对于Di的摘要、标题和关键词，剔除停用词和非文字符号，将所有英文字母转换成小写字母，提取词干，得到若干处理后的单词；将每个单词及其对应属性名称拼接，得到若干格式为“__属性名称__单词”的属性，其中“属性名称”是摘要、标题、关键词之一，“单词”是经过处理后得到的单词；步骤1.3、对于Di的合著者、作者单位、出版刊物，将包含的所有英文字母转换为小写字母，剔除字符串两端空格，使用下划线代替字符串中的非英文字母字符；每位合著者格式化为“__合著者__姓名”形式的属性，文献作者单位格式化为“__单位__作者单位名称”形式的属性，文献出版刊物格式化为“__刊物__出版刊物名称”形式的属性；步骤1.4、合并步骤1.2和步骤1.3得到的属性，获得第i篇英文文献的属性集合Bi；步骤1.5、对每一篇英文文献重复执行步骤1.1至步骤1.4，得到所有英文文献的属性集合其中n表示所有属性的数量，bj表示所有英文文献的属性集合Btotal中的第j个属性；步骤2、利用连续词袋模型获取文献的向量表示，构建特征向量矩阵；所述步骤2中，连续词袋模型由输入层、隐藏层和输出层组成；构建特征向量矩阵的具体过程如下：步骤2.1、构造每个属性的初始特征向量形式，定义第j个属性bj的初始特征向量为步骤2.2、将每个初始特征向量输入连续词袋模型获取每个属性对应的预测编码；计算第j个属性的预测编码的过程如下：将与xj相邻的2l个特征向量{xj-l,xj-l+1,…,xj-1,xj+1,…,xj+l}输入到连续词袋模型的输入层，xj+l表示第j+l个属性的初始特征向量，根据公式1计算连续词袋模型隐藏层的输出向量d是属性特征的嵌入维度，是实数集合：其中，xk表示第k个属性的初始特征向量；是预先定义的从输入层到隐藏层的权重矩阵；连续词袋模型输出层根据hj并利用公式2计算第j个属性bj的预测编码其中，是预先定义的从隐藏层到输出层的权重矩阵；步骤2.3、使用公式3计算第一损失函数值E：其中，exp·表示以自然常数e为底的指数函数；h′k表示第k个属性的预测编码；步骤2.4、使用梯度下降算法更新权重矩阵W和W′；步骤2.5、重复步骤2.2至步骤2.4，直至E收敛为止，得到最终的权重矩阵Wfinal和W′final；步骤2.6、计算每个属性的语义嵌入向量；第j个属性的语义嵌入向量的计算公式如下：步骤2.7、计算每个属性的逆向文件频率；计算第i篇英文文献的属性集合Bi中的每个属性的逆向文件频率的过程为：首先进行判断，如果第j个属性bj∈Bi，则统计bj在Bi中的出现次数cj，然后使用公式5计算bj的逆向文件频率IDFj：其中，ni是Bi中的元素个数；步骤2.8、计算每一篇英文文献的嵌入向量表示；对于第i篇英文文献Di∈Dtotal，使用公式6计算Di的嵌入向量表示步骤2.9、将所有英文文献的嵌入向量表示汇总成为一个特征向量矩阵特征向量矩阵Xr为特征学习阶段获得的文献向量表示；其中，Xm为第m篇英文文献Dm的嵌入向量表示；步骤3、判断任意两篇文献之间的关系，进行关系抽取；步骤4、根据文献之间的关系，构建聚合图及聚合图对应的邻接矩阵，并基于变分图自编码器获取优化后的第一文献嵌入向量矩阵；具体过程如下：步骤4.1、将第i篇英文文献Di∈Dtotal用顶点vi表示，得到顶点集V＝{v1,v1,…,vi,…,vm}；将存在共同作者关系或相同专业词关系的两篇英文文献对应的顶点和用一条边连接起来，得到聚合图Gr的边集从而得到聚合图Gr＝V,Er；步骤4.2、根据公式8计算Gr的邻接矩阵Ar的第行、第列元素的值，从而得到Gr的邻接矩阵Ar；计算时，的值与i的值相等，的值与j的值相等；步骤4.3、根据步骤2得到的特征向量矩阵Xr，使用公式9、公式10和公式11，计算聚合图Gr的均值矩阵和方差矩阵其中，为第一中间变量；变分图自编码器由编码器和解码器两部分组成，分别为在计算Zr时编码器和解码器的权重矩阵；f和g分别为在计算Zr时编码器和解码器输出向量的维度；是邻接矩阵Ar的对称归一化；激活函数ReLU·＝max0,·；是矩阵σr的第行、第列元素；是矩阵μr的第行、第列元素；是Gr的度矩阵；使用公式12计算聚合图Gr优化过程中的第一文献嵌入向量矩阵Zr＝μr+εr*σr12；其中，是服从标准高斯分布N0,1的随机数组成的第一矩阵；*是两个矩阵进行逐元素的乘法运算；使用公式13计算英文文献Di和Dj之间存在边的第一概率其中，为的第行、第列元素；为的转置，和分别是Zr的第行和第行；使用公式14计算第二损失函数值其中，pZr是由服从标准高斯分布N0,1的随机数组成的与Zr同样行数、列数的第一矩阵；表示Zr的数学期望函数；使用梯度下降算法更新Wr和W′r；步骤4.4、重复步骤4.3，直到收敛为止，得到最终的权重矩阵和步骤4.5、使用步骤4.4得到的和再次代入公式9-公式12，得到使用聚合图Gr优化完成的第一文献嵌入向量矩阵步骤5、根据文献之间的关系，构建重要作者图及重要作者图对应的邻接矩阵，并利用变分图自编码器和优化后的第一文献嵌入向量矩阵获取优化后的第二文献嵌入向量矩阵；具体过程如下：步骤5.1、定义重要作者集合为与待消歧作者a合作过至少两篇文献的作者的集合，将待消歧作者a的重要作者集合记为Nr：其中Ni为第i篇英文文献Di中作者a的合作者集合；Nj为第j篇英文文献Dj中作者a的合作者集合；步骤5.2、基于步骤4.1构建的顶点集V，将同时存在相同重要作者关系、共同单位关系，或同时存在相同重要作者关系、相同专业词关系的两篇文献对应的顶点和用一条边连接起来，得到重要作者图Gp的边集从而得到重要作者图Gp＝V,Ep；步骤5.3、根据公式16计算Gp的邻接矩阵Ap的第行、第列元素的值，从而得到Gp的邻接矩阵Ap；计算时，的值与i的值相等，的值与为j的值相等；步骤5.4、根据步骤4得到的采用公式17、公式18和公式19，计算重要作者图Gp的均值矩阵和方差矩阵其中，为第二中间变量；分别为在计算Zp时编码器和解码器的权重矩阵；s和t分别为在计算Zp时编码器和解码器输出向量的维度；是邻接矩阵Ap的对称归一化；是矩阵σp的第行、第列元素；是矩阵μp的第行、第列元素；是Gp的度矩阵；使用公式20计算使用重要作者图Gp优化过程中的第二文献嵌入向量矩阵Zp：Zp＝μp+εp*σp20；其中，是服从标准高斯分布N0,1的随机数组成的第二矩阵；使用公式21计算英文文献Di和Dj之间存在边的第二概率其中，为的第行、第列元素；为的转置，和分别是Zp的第行和第行；使用公式22计算第三损失函数值其中，pZp是由服从标准高斯分布N0,1的随机数组成的与Zp同样行数、列数的第二矩阵；表示Zp的数学期望函数；使用梯度下降算法更新Wp和W′p；步骤5.5、重复步骤5.4，直到收敛为止，得到最终的权重矩阵和步骤5.6、使用步骤5.5得到的权重矩阵和再次代入公式17-公式20，得到使用重要作者图Gp优化完成的第二文献嵌入向量矩阵其中是的第行，表示第i篇英文文献Di的嵌入向量；步骤6、基于优化后的第二文献嵌入向量矩阵，对待消歧作者的所有英文文献进行聚类，获得消歧结果。

全文数据：

权利要求：

百度查询：山东科技大学一种基于关系融合与表示学习的文献作者姓名消歧方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种矮轴gasket结构的机械键盘_渴创技术(深圳)有限公司_202322395230.X

下一篇：一种轴承游隙检测装置_无锡凌拓智能装备有限公司_202322468779.7

相关技术

一种矮轴gasket结构的机械键盘_渴创技术(深圳)有限公司_202322395230.X

一种轴承游隙检测装置_无锡凌拓智能装备有限公司_202322468779.7

一种电池叠放平台_济源市万洋绿色能源有限公司_202322480402.3

一种高精度智能浊度检测装置_江苏奥坤仪表科技有限公司_202322546638.2

一种用于负极材料粉尘除尘器_天津燃洁斯工业设备有限公司_202322051874.7

一种用于汽车保险杠加工的旋转喷漆装置_重庆渝湘智成汽车配件有限公司_202322547178.5

一种尺寸可调节的中药材切片装置_安徽盛林国药饮片有限公司_202322230535.5

一种液压锁密闭性测试装置_靖江市长源液压机械有限公司_202322518953.4

一种高效型苗种植机_海南勤璞园农业科技有限公司_202322496666.8

一种农牧业通电线卷绕装置_山东恒通智能新材料有限公司_202322431480.4

一种印刷电路板加工用压膜装置_南通欧贝达电子科技有限公司_202322176231.5

一种投影仪教具_寿光市青柠微影智能科技有限公司_202322360771.9

作者相关技术

用于可视地辅助超声系统的操作者的方法和系统_精密成像有限公司_201880018889.2

考虑操作者体力和脑力负荷的拆卸线设置方法_西南交通大学_202111611126.9

用于将作者分配给数字媒体文件的方法和记录设备_ETO电磁有限责任公司_202311629014.5

一种基于大规模文献数据的作者姓名同一性判断方法_安徽工大信息技术有限公司_202110954858.1

检测车辆操作者汽车压力和/或焦虑并通过车厢环境实施补救措施的系统和方法_哈曼国际工业有限公司_202311307091.9

用于自动化的操作者终端和监测器_默克专利股份公司_202280057130.1

一种基于操作者功能状态的自适应自动化方法及系统_天津大学_202311750414.1

一种防范医护工作者职业伤害的过床板_广东医科大学_202322040701.5

一种用于科学合作异质网络的作者迁移分类方法_中国人民解放军国防科技大学_202111286872.5

促进机器操作者交互并提高效率的用户界面_斐乐公司_202280050593.5

文献相关技术

一种面向金属复合材料文献的文档级迭代实体及关系抽取方法_昆明理工大学_202410057495.5

一种法律文献夹_白璐_202321215326.7

文献信息推送方法、装置、系统及存储介质_同方知网数字出版技术股份有限公司_202311865782.0

基于层次分析法的文献定级方法、装置、设备及介质_同方知网(北京)技术有限公司_202311705111.8

参考文献参见落空的审校方法、装置、设备及存储介质_北京北大方正电子有限公司_202110571584.8

一种基于大规模文献数据的作者姓名同一性判断方法_安徽工大信息技术有限公司_202110954858.1

基于网络爬取的毒物-靶标文献知识挖掘方法及系统_中国人民解放军军事科学院军事医学研究院_202010654561.9

一种文献分类方法、装置、设备及存储介质_苏州元脑智能科技有限公司_202410225858.1

一种中医疾病术语在古籍文献中溯源的量化分析方法及系统_上海中医药大学_202311669198.8

一种用于酸化纸质文献脱酸处理的氧化镁/碳酸钙纳米复合材料及其制备方法_北京理工大学_202310198245.9

姓名相关技术

姓名的拆分方法、装置、设备以及存储介质_支付宝(杭州)信息技术有限公司_202410127342.3

一种民航开放旅客预订系统中旅客姓名的处理方法及装置_中国民航信息网络股份有限公司_202211013905.3

一种姓名消歧方法及相关装置_中国医学科学院医学信息研究所_202311616364.8

一种姓名推荐方法、装置、设备及存储介质_北京锐安科技有限公司_202311568833.3

一种基于关系融合与表示学习的文献作者姓名消歧方法_山东科技大学_202311598281.0

一种含多音字的姓名拼音标注方法及系统_中信银行股份有限公司_202311385216.X

一种基于关系融合与表示学习的文献作者姓名消歧方法_山东科技大学_202311598281.0

一种姓名签回收架_山东德州烟草有限公司_202321397247.2

一种简易的姓名练字印章_爱动乐创教育科技(山东)有限责任公司_202321595565.X

一种基于汉字特征的患者姓名消歧方法_四川互慧软件有限公司_202311008962.7

龙图腾网&IPTOP

【发明授权】一种基于关系融合与表示学习的文献作者姓名消歧方法_山东科技大学_202311598281.0

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务