买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种面向学术论文同名消歧的可视化分析方法_北京工业大学_202110921609.2 

申请/专利权人:北京工业大学

申请日:2021-08-12

公开(公告)日:2023-12-15

公开(公告)号:CN113780001B

主分类号:G06F40/30

分类号:G06F40/30;G06F16/35;G06F16/33;G06F16/16;G06N3/02

优先权:

专利状态码:有效-授权

法律状态:2023.12.15#授权;2021.12.28#实质审查的生效;2021.12.10#公开

摘要:本发明提出了一种面向学术论文同名消歧的可视化分析方法。在科学文献管理领域内,如何提高同名消歧的效率已成为一个亟待解决的热点问题。鲜有一种可交互的、直观的可视化工具,在结合机器学习算法的基础上,对同名作者之间的合作关系进行深入的分析和解释。本发明首先根据论文合著者存在的合作网络,生成合作关系图,用于揭示科研团队中作者的合作关系。为了展示不同作者研究方向之间的相关性,设计了合作关系图和发文期刊图之间的可视化联动。通过结合深度学习模型分别对论文和作者进行分类,实现从作者和团队任意主体出发的交叉分析与连贯推理。本发明基于真实论文数据集进行了案例研究,验证了本发明在解决论文同名消歧问题上的有效性。

主权项:1.一种面向学术论文同名消歧的可视化分析方法,其特征在于包括以下步骤:步骤1:获取原始数据并将数据导入可视化系统1获取数据;将论文数据从数据库导出为CSV格式的文件,并作为本系统的输入;2导入CSV文件;使用者在进行搜索和消歧之前,需要按照系统指定的格式要求导入CSV文件;点击"导入CSV"按钮,并选择准备好的CSV文件上传即可;上传文件应包含论文名、发文年份、发文期刊、发文关键词和论文作者;步骤2:利用查询模块搜索待消歧论文作者此部分包含了需要查询的两部分内容,以论文作者作为节点的查询和时间范围的查询;在姓名框中输入论文作者的姓名后,在时间栏中选择希望查询的时间;选择完成后点击"搜索"按钮即可;在确定查询作者和查询时间后,系统会在已上传数据集中搜索被查询的作者姓名,而包含被查询姓名的所有论文都会被从上传的总数据集中检索出来,被检索的论文形成一个小型的待消歧数据集;对于论文作者进行同名消歧和其它模块中的可视化渲染都依据这个待消歧数据集;步骤3:利用关联程度模块寻找可疑节点可视化系统将待消歧数据集中所有论文作者看作一个团队,这个团队中的人数是不确定的,规模可能从数人到数十人;因为使用者对团队中的每名成员均详细调查会耗费大量时间和精力;所以系统引入关联程度模块来帮助使用者快速确定这个团队中最有可能被算法错误的分配到这个团队中的论文作者;在关联程度模块中,可以直观地看到每名作者与团队中其他作者之间的关联程度和此作者的发文数量;采用纵坐标代表不同作者,每名作者都被赋予了一种独有的颜色,同一个作者在不同模块均使用同一颜色标识,以增加相同作者在不同模块之间的识别度,保证使用者更快速准确地区分不同作者;圆圈的颜色为作者独有的颜色,圆圈在横坐标的位置代表此作者与整个团队的关联程度得分;关联程度得分情况由每名作者和团队中其他作者的合作发文数和度中心性综合得出,公式如下: 其中,GLv为节点v的关联程度得分,得分越高,则此节点在团队中重要性越高;Hv为节点v与团队中其他教师合作发表论文的篇数,Zv为节点v发表论文的总篇数;n为节点的数量;Nv为节点v的度,即所有与节点v直接相连的节点数量;关联程度得分经过归一化之后的取值范围为0,1,当得分小于0.2,则此节点可能为错误节点,需要使用者将此节点作为此步骤的输出和下一步骤的输入,对此节点进行重点了解;步骤4:利用图神经网络进行节点分类考虑到需要消歧的作者虽然拥有相同的姓名,但通常研究方向却不同;故本方法利用相同姓名的作者研究方向不同作为系统消歧的切入点;分别对论文作者以及论文进行分类;1论文分类利用论文的关键词和发表期刊信息来对论文进行分类,并将论文分类结果展示在作者发文方向中,以此来辅助使用者确定论文作者的研究方向;2论文作者分类利用作者曾经的发文关键词作为作者的特征来对作者进行分类,并将分类结果展示在合作关系图中,以此来帮助使用者在同一张图中快速直观地区分不同研究方向的作者以及作者之间的关系;步骤5:利用合作关系模块确定节点间错误合作关系并修改合作关系模块着重展现了团队中不同作者之间的合作关系,而探索不同作者之间的合作关系也是本方法进行消歧的主要方法;系统默认进入合作关系模块中的普通模式,此时看到模块中包含了网络关系图和发文期刊图;1网络关系图与发文期刊图网络关系图中的每个节点代表了一名作者,作者节点的颜色与之前提到过的关联程度模块相同;两名作者曾经合作发表过同一篇论文,两个节点之间就会产生连线;分类算法将多个作者判断为同一研究方向,系统就会用同一颜色的色块将同一研究方向的节点包裹起来,达到更直观的效果;发文期刊图采用基于桑基图的呈现方式来展示论文作者的发文期刊;展示的信息分为两列,左列为团队中包含的所有论文作者姓名,且作者姓名颜色与关系图中同一作者颜色一致,便于使用者直观地了解作者发文情况;右列为论文作者的发文期刊;作者在某个期刊发表过文章,那么左列作者名和右列期刊名之间就会产生连线;2关系图与期刊图的交叉分析当使用者点击合作关系图中某一节点时,节点会被高亮显示;与此同时,发文期刊图中会自动隐去其他作者所发表的期刊,只显示被点击作者发表期刊情况;此时关系图与期刊图的交叉分析图中显示的是正确情况,即被点击作者属于此团队的情况;当使用者点击了有可能被错误划分为此团队的作者时,会看到可疑节点与其他节点不同,仅在少数期刊上发表过文章,则此作者并不属于团队内,只是由于人工或算法对论文分配错误导致;要验证猜想,则将鼠标移动到可疑作者发表期刊上;由于同一团队中作者通常都会在一个或几个期刊中发表论文,故看到同一期刊中同时有多位团队中作者发表过文章,则代表此时数据分配正确;3关联关系的修改使用者需要进一步了解团队中作者之间的关系,点击合作关系图的全屏模式;全屏模式分为左侧的关联论文、中间的关系图和右侧的强联系三部分;当使用者通过基础信息模块中论文原始信息发现两个作者合作发表过同一篇论文时,便点击两节点之间的线段,被点击的线段会高亮强调,同时右侧强联系框中会出现两人已添加强联系的显示;被添加强联系的作者会被认定为一定有合作关系,此结果会被反馈到分类算法中,用来提升算法准确度;使用者同时点击两个节点,在两个节点高亮显示的同时,左侧也会同时显示出被点击的作者因为哪些论文而产生的联系;使用者通过此功能判断节点之间的联系是否正确;当使用者确定可疑节点为错误节点时,通过在错误节点上点击鼠标右键,在弹出窗口中点击添加或删除节点,便可对错误数据做出修改;步骤6:使用基础信息模块验证修改是否正确基础信息模块帮助使用者在使用关联程度和合作关系模块时,了解作者或期刊的详细信息;此模块包含了论文原始数据标签页、作者信息标签页和期刊信息标签页;论文数据标签页:系统会默认进入论文数据标签页,此标签页中包含了待消歧数据集中所有的论文数据,包括论文名、发文年份、发文期刊、发文作者和发文关键词信息;为使用者提供了最原始的论文数据供参考;作者信息标签页:当使用者在合作关系图中点击了某个节点时,基础信息模块会自动显示被点击节点的相关信息;包括作者的发文数量、发文年份、发文关键词和发文方向;其中发文方向是通过分类算法对作者发表的论文进行分类得到的结果;此标签页帮助使用者了解不同作者的研究方向,以便于更好地进行同名消歧;期刊信息标签页:此标签页中包含了待消歧数据集中发文期刊的详细信息,包括期刊名、影响因子和期刊方向信息;使用者通过点击发文期刊图中的右侧期刊名来进行切换。

全文数据:

权利要求:

百度查询: 北京工业大学 一种面向学术论文同名消歧的可视化分析方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。