买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于复杂网络的科研人员数据处理方法_杭州师范大学_202111671262.7 

申请/专利权人:杭州师范大学

申请日:2021-12-31

公开(公告)日:2024-04-16

公开(公告)号:CN114328673B

主分类号:G06F16/2458

分类号:G06F16/2458;G06F16/2457;G06F16/25;G06F17/18;G06F18/2431;G06Q10/0639

优先权:

专利状态码:有效-授权

法律状态:2024.04.16#授权;2022.04.29#实质审查的生效;2022.04.12#公开

摘要:本发明公开了一种基于复杂网络的科研人员数据处理方法。本发明方法包括数据采集与处理、科研合作网络构建、特征提取、结果评估四个模块。数据处理包括清理脏数据、补全遗失数据以及提取精准信息、作者重名处理和数据统计分析等。科研合作网络构建是项目合作网络和论文合作网络的构建。特征提取包括计量特征提取、网络拓扑特征提取和网络隐含特征提取,这三部分特征可以保证数据处理结果的准确性与可靠性。结果评估采用基于混淆矩阵的ROC曲线测试本专利的数据处理效果。本发明方法从数据挖掘和网络特征的角度研究国家自然科学基金等科研人员的科研数据,通过计量特征、网络拓扑特征和网络隐含特征对科研人员数据进行细致而准确的处理。

主权项:1.一种基于复杂网络的科研人员数据处理方法,其特征在于:该方法包括数据采集和数据预处理模块、合作网络构建模块、特征提取模块、结果评估模块,具体如下:1数据采集和数据预处理模块:1-1数据收集:通过公开数据平台,获得科研人员往年项目的所有信息;通过科研项目,在论文库中检索获得与之相关的所有论文;1-2数据预处理:将没有论文信息的科研项目数据和没有科研项目信息的论文数据删除,并将科研项目数据和论文数据处理成用于后续研究的格式;1-3数据统计分析:统计不同科研项目数量下的平均论文数量,得到不同科研项目对应的平均论文数;统计不同科研项目数量下的平均职业年龄;对科研项目数量、论文数量和职业年龄按照学科进行数量分布统计;分别对不同类型、不同学科项目的等待时间和生存时间进行数量分布统计;对科研项目等待时间内的论文数进行统计分析;按照职业年龄的不同对项目负责人的生存时间进行统计分析;2合作网络构建模块:2-1科研项目合作网络:对所有的科研项目数据排除异常值,并对数据中的项目负责人和参与人加以区分,异常值包括空值、乱码和信息严重缺失;项目合作网络中以人员编号是唯一标识符;构建科研项目合作网络Gf=Vf,Ef,其中Vf表示节点集,即项目人员,包括项目负责人和参与人,Ef表示边集,表示两个人员共同出现在同一个项目中,边权表示共同的项目数;2-2论文合作网络:构建论文合作网络Gp=Vp,Ep,Vp表示节点集,即论文作者;Ep表示边集,表示两个作者共同合作发表文章,边的权重表示共同发表论文篇数;3特征提取模块:提取的特征包括计量特征、网络拓扑特征和网络隐含特征;3-1计量特征:基于科研人员的项目信息和论文信息,提取以下特征:3-1-1基于项目的特征:科研人员的项目总数、每年的项目数、平均每年项目数、项目级别、项目类型和项目学科;3-1-2基于论文的特征:科研人员的论文总数、每年的论文数、每年的第一作者论文数、通讯作者论文数和其他作者论文数;3-2网络拓扑特征:从科研项目合作网络和论文合作网络中提取特征,包括:科研人员的度、科研人员的强度、科研人员的特征向量中心性;所述的科研人员的度为与该科研人员相连的边的数量;所述的科研人员的强度为与该科研人员相连的边权重之和;所述的科研人员的特征向量中心性为全局结构上的科研人员重要性;3-2-1科研项目合作网络中科研人员的度和论文合作网络中科研人员的度上标F表示科研项目合作网络,上标P表示论文合作网络: 其中,NF表示科研项目合作网络中的节点个数,如果科研项目合作网络中节点i和节点j有连边,则否则NP表示论文合作网络中的节点个数,若论文合作网络中节点i和节点j有连边,则否则3-2-2科研项目合作网络科研人员的强度和论文合作网络科研人员的强度 其中,表示科研项目合作网络中节点i和节点j的连边权重,若节点i和节点j有共同的项目,则等于共同项目数,否则表示论文合作网络中节点i和节点j的连边权重,若节点i和节点j有共同发表论文,则等于共同发表论文数,否则3-2-3科研项目合作网络中科研人员的特征向量中心性ECFi和论文合作网络中科研人员的特征中心性ECPi: 其中,是矩阵AF的最大特征值λF对应的特征向量,表示科研项目合作网络的邻接矩阵;具体计算通过给定的初值ECF0,使用迭代算法计算向量ECF,直到ECFt=ECFt-1;表示论文合作网络中节点i的重要性,科研项目合作网络中特征向量中心性表明科研人员的重要性取决于其合作者的重要性;3-3网络隐含特征的提取:对于一个网络G=V,E,V和E分别表示节点集和边集,节点集表示科研人员,边集表示人员之间有过合作;节点嵌入的目标是需要找到一个映射f,使得每个节点被表示为一个向量,即f:V→Rd,其中d为特征向量的维度;采用node2vec算法进行网络嵌入,使用有偏的随机游走方法得到顶点的近邻序列,然后用Skip-gram模型进行训练,得到节点向量;4结果评估模块:4-1数据集划分:对于每个科研人员,将计量特征、网络拓扑特征和网络隐含特征进行整合,并基于数据的时序性构造了训练样本和测试样本;4-2基于划分好的数据集,使用随机森林方法对科研人员的科研数据进行结果评估;4-3结果评估:评估结果通过AUC指标进行评估;AUC表示ROC曲线下的面积,ROC曲线是将假阳性率FPR定义为x轴,真阳性率TPR定义为y轴; TP表示测试集中科研人员有科研项目且预期结果为有科研项目的个数;FP表示测试集中没有科研项目且预期结果为有科研项目的个数;FN表示测试集中有科研项目且预期结果为没有科研项目的个数;TN表示测试集中没有科研项目且预期结果为没有科研项目的个数;根据4-2的模型结果绘制ROC曲线并得到AUC,AUC的值越大,即越接近于1表示模型的预期效果越好。

全文数据:

权利要求:

百度查询: 杭州师范大学 一种基于复杂网络的科研人员数据处理方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。