买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于关系融合与表示学习的文献作者姓名消歧方法_山东科技大学_202311598281.0 

申请/专利权人:山东科技大学

申请日:2023-11-28

公开(公告)日:2024-02-06

公开(公告)号:CN117312565B

主分类号:G06F16/35

分类号:G06F16/35;G06F16/383;G06F40/216;G06F40/30;G06N3/042;G06N3/0455;G06N3/084;G06N3/088;G06N3/048

优先权:

专利状态码:有效-授权

法律状态:2024.02.06#授权;2024.01.16#实质审查的生效;2023.12.29#公开

摘要:本发明公开了一种基于关系融合与表示学习的文献作者姓名消歧方法,属于信息技术领域,包括如下步骤:从电子文献数据库检索,获取待消歧作者的所有英文文献;利用连续词袋模型获取文献的向量表示,构建特征向量矩阵;判断任意两篇文献之间的关系;构建聚合图及聚合图对应的邻接矩阵,并基于变分图自编码器获取优化后的第一文献嵌入向量矩阵;构建重要作者图及重要作者图对应的邻接矩阵,并利用变分图自编码器和优化后的第一文献嵌入向量矩阵获取优化后的第二文献嵌入向量矩阵;基于优化后的第二文献嵌入向量矩阵,进行聚类,获得消歧结果。本发明通过多种关系融合方式构建关系图,使用关系信息优化文献的表示向量,从而提高了消歧效果。

主权项:1.一种基于关系融合与表示学习的文献作者姓名消歧方法,其特征在于,包括如下步骤:步骤1、从电子文献数据库检索,获取待消歧作者的所有英文文献,构建所有英文文献的属性集合;具体过程如下:步骤1.1、设待消歧作者的姓名为a,将一篇英文文献中的其他作者称为合著者,检索获取的包含a的英文文献集合为Dtotal={D1,D2,…,Di,…,Dm},其中Di是第i篇英文文献,m是英文文献数量;步骤1.2、对于Di的摘要、标题和关键词,剔除停用词和非文字符号,将所有英文字母转换成小写字母,提取词干,得到若干处理后的单词;将每个单词及其对应属性名称拼接,得到若干格式为“__属性名称__单词”的属性,其中“属性名称”是摘要、标题、关键词之一,“单词”是经过处理后得到的单词;步骤1.3、对于Di的合著者、作者单位、出版刊物,将包含的所有英文字母转换为小写字母,剔除字符串两端空格,使用下划线代替字符串中的非英文字母字符;每位合著者格式化为“__合著者__姓名”形式的属性,文献作者单位格式化为“__单位__作者单位名称”形式的属性,文献出版刊物格式化为“__刊物__出版刊物名称”形式的属性;步骤1.4、合并步骤1.2和步骤1.3得到的属性,获得第i篇英文文献的属性集合Bi;步骤1.5、对每一篇英文文献重复执行步骤1.1至步骤1.4,得到所有英文文献的属性集合其中n表示所有属性的数量,bj表示所有英文文献的属性集合Btotal中的第j个属性;步骤2、利用连续词袋模型获取文献的向量表示,构建特征向量矩阵;所述步骤2中,连续词袋模型由输入层、隐藏层和输出层组成;构建特征向量矩阵的具体过程如下:步骤2.1、构造每个属性的初始特征向量形式,定义第j个属性bj的初始特征向量为步骤2.2、将每个初始特征向量输入连续词袋模型获取每个属性对应的预测编码;计算第j个属性的预测编码的过程如下:将与xj相邻的2l个特征向量{xj-l,xj-l+1,…,xj-1,xj+1,…,xj+l}输入到连续词袋模型的输入层,xj+l表示第j+l个属性的初始特征向量,根据公式1计算连续词袋模型隐藏层的输出向量d是属性特征的嵌入维度,是实数集合: 其中,xk表示第k个属性的初始特征向量;是预先定义的从输入层到隐藏层的权重矩阵;连续词袋模型输出层根据hj并利用公式2计算第j个属性bj的预测编码 其中,是预先定义的从隐藏层到输出层的权重矩阵;步骤2.3、使用公式3计算第一损失函数值E: 其中,exp·表示以自然常数e为底的指数函数;h′k表示第k个属性的预测编码;步骤2.4、使用梯度下降算法更新权重矩阵W和W′;步骤2.5、重复步骤2.2至步骤2.4,直至E收敛为止,得到最终的权重矩阵Wfinal和W′final;步骤2.6、计算每个属性的语义嵌入向量;第j个属性的语义嵌入向量的计算公式如下: 步骤2.7、计算每个属性的逆向文件频率;计算第i篇英文文献的属性集合Bi中的每个属性的逆向文件频率的过程为:首先进行判断,如果第j个属性bj∈Bi,则统计bj在Bi中的出现次数cj,然后使用公式5计算bj的逆向文件频率IDFj: 其中,ni是Bi中的元素个数;步骤2.8、计算每一篇英文文献的嵌入向量表示;对于第i篇英文文献Di∈Dtotal,使用公式6计算Di的嵌入向量表示 步骤2.9、将所有英文文献的嵌入向量表示汇总成为一个特征向量矩阵特征向量矩阵Xr为特征学习阶段获得的文献向量表示; 其中,Xm为第m篇英文文献Dm的嵌入向量表示;步骤3、判断任意两篇文献之间的关系,进行关系抽取;步骤4、根据文献之间的关系,构建聚合图及聚合图对应的邻接矩阵,并基于变分图自编码器获取优化后的第一文献嵌入向量矩阵;具体过程如下:步骤4.1、将第i篇英文文献Di∈Dtotal用顶点vi表示,得到顶点集V={v1,v1,…,vi,…,vm};将存在共同作者关系或相同专业词关系的两篇英文文献对应的顶点和用一条边连接起来,得到聚合图Gr的边集从而得到聚合图Gr=V,Er;步骤4.2、根据公式8计算Gr的邻接矩阵Ar的第行、第列元素的值,从而得到Gr的邻接矩阵Ar; 计算时,的值与i的值相等,的值与j的值相等;步骤4.3、根据步骤2得到的特征向量矩阵Xr,使用公式9、公式10和公式11,计算聚合图Gr的均值矩阵和方差矩阵 其中,为第一中间变量;变分图自编码器由编码器和解码器两部分组成,分别为在计算Zr时编码器和解码器的权重矩阵;f和g分别为在计算Zr时编码器和解码器输出向量的维度;是邻接矩阵Ar的对称归一化;激活函数ReLU·=max0,·;是矩阵σr的第行、第列元素;是矩阵μr的第行、第列元素;是Gr的度矩阵;使用公式12计算聚合图Gr优化过程中的第一文献嵌入向量矩阵Zr=μr+εr*σr12;其中,是服从标准高斯分布N0,1的随机数组成的第一矩阵;*是两个矩阵进行逐元素的乘法运算;使用公式13计算英文文献Di和Dj之间存在边的第一概率 其中,为的第行、第列元素;为的转置,和分别是Zr的第行和第行;使用公式14计算第二损失函数值 其中,pZr是由服从标准高斯分布N0,1的随机数组成的与Zr同样行数、列数的第一矩阵;表示Zr的数学期望函数;使用梯度下降算法更新Wr和W′r;步骤4.4、重复步骤4.3,直到收敛为止,得到最终的权重矩阵和步骤4.5、使用步骤4.4得到的和再次代入公式9-公式12,得到使用聚合图Gr优化完成的第一文献嵌入向量矩阵步骤5、根据文献之间的关系,构建重要作者图及重要作者图对应的邻接矩阵,并利用变分图自编码器和优化后的第一文献嵌入向量矩阵获取优化后的第二文献嵌入向量矩阵;具体过程如下:步骤5.1、定义重要作者集合为与待消歧作者a合作过至少两篇文献的作者的集合,将待消歧作者a的重要作者集合记为Nr: 其中Ni为第i篇英文文献Di中作者a的合作者集合;Nj为第j篇英文文献Dj中作者a的合作者集合;步骤5.2、基于步骤4.1构建的顶点集V,将同时存在相同重要作者关系、共同单位关系,或同时存在相同重要作者关系、相同专业词关系的两篇文献对应的顶点和用一条边连接起来,得到重要作者图Gp的边集从而得到重要作者图Gp=V,Ep;步骤5.3、根据公式16计算Gp的邻接矩阵Ap的第行、第列元素的值,从而得到Gp的邻接矩阵Ap; 计算时,的值与i的值相等,的值与为j的值相等;步骤5.4、根据步骤4得到的采用公式17、公式18和公式19,计算重要作者图Gp的均值矩阵和方差矩阵 其中,为第二中间变量;分别为在计算Zp时编码器和解码器的权重矩阵;s和t分别为在计算Zp时编码器和解码器输出向量的维度;是邻接矩阵Ap的对称归一化;是矩阵σp的第行、第列元素;是矩阵μp的第行、第列元素;是Gp的度矩阵;使用公式20计算使用重要作者图Gp优化过程中的第二文献嵌入向量矩阵Zp:Zp=μp+εp*σp20;其中,是服从标准高斯分布N0,1的随机数组成的第二矩阵;使用公式21计算英文文献Di和Dj之间存在边的第二概率 其中,为的第行、第列元素;为的转置,和分别是Zp的第行和第行;使用公式22计算第三损失函数值 其中,pZp是由服从标准高斯分布N0,1的随机数组成的与Zp同样行数、列数的第二矩阵;表示Zp的数学期望函数;使用梯度下降算法更新Wp和W′p;步骤5.5、重复步骤5.4,直到收敛为止,得到最终的权重矩阵和步骤5.6、使用步骤5.5得到的权重矩阵和再次代入公式17-公式20,得到使用重要作者图Gp优化完成的第二文献嵌入向量矩阵其中是的第行,表示第i篇英文文献Di的嵌入向量;步骤6、基于优化后的第二文献嵌入向量矩阵,对待消歧作者的所有英文文献进行聚类,获得消歧结果。

全文数据:

权利要求:

百度查询: 山东科技大学 一种基于关系融合与表示学习的文献作者姓名消歧方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。