买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于单纯形模体的高阶链路预测方法_电子科技大学长三角研究院(湖州)_202311428327.4 

申请/专利权人:电子科技大学长三角研究院(湖州)

申请日:2023-10-31

公开(公告)日:2024-03-01

公开(公告)号:CN117633544A

主分类号:G06F18/22

分类号:G06F18/22;G06N20/00;G06F18/214;G06F18/24;G06N3/084

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.03.19#实质审查的生效;2024.03.01#公开

摘要:本发明公开了一种基于单纯形模体的高阶链路预测方法,该方法计算高阶网络中的单纯形模体,并作为机器学习模型的预测器进行高阶链路预测,有效地提升链路预测算法的预测精度,该方法通过分析单模体预测精度在不同数据集中的表现以及和样本分布差异性的相关系数,提供了两种开发通用模体的特征选择策略,只需要使用部分模体就可以达到较高的预测精度。在Email网络、药物网络、人类接触网络、合作网络、药物滥用警告网络、问答网站网络等不同类型的十个实证数据中进行了预测,预测效果普遍优于传统指标,验证了该方法的有效性和精确性,为预测高阶交互关系提供了帮助,可以有效地推广在社交网络分析、药物研发、推荐系统等应用场景中。

主权项:1.一种基于单纯形模体的高阶链路预测方法,其特征在于,包括有以下步骤:S1、将时序高阶网络中所有单纯形按照对应的时间戳从小到大排序,划分训练集和测试集;S11、将前60%的时间戳作为训练集,构建训练集的单纯形网络和对应的骨架网络,枚举骨架网络中所有的开三角形,若开三角形在60%-80%的时间戳中闭合,则为训练集正样本,否则,为训练集负样本;S12、将前80%的时间戳作为测试集,构建测试集的单纯形网络和对应的骨架网络,枚举骨架网络中所有的开三角形,若开三角形在80%-100%的时间戳中闭合,则为测试集正样本,否则,为测试集负样本;S2、计算时序单纯形网络中所有mm=3,4阶单纯形模体,根据边在模体中的位置不同,共计算25种模体;S3、构建单纯形模体预测器,对于每个待预测的开三角形x,y,z,计算每条边在模体Mf中的出现次数,分别为使用算术平均、几何平均以及调和平均三种不同的平均方式,计算单纯形平均关联的模体数量,计算公式为 其中,为边xi,xj在模体Mf中的出现次数,分别为单纯形x,y,z按照算数平均、几何平均、调和平均计算的模体数量,k为阶数,本方法中k=2;S4、将S3的计算结果作为机器学习模型的输入,训练二分类的逻辑回归模型,进行高阶链路预测,模型的参数设置为solver='liblinear',penalty='l2',max_iter=1000,评价指标的计算公式为 其中,PR-AUC是为不同分类阈值下的召回率和精确率曲线下的面积,PR-AUC的值越高,模型的预测效果越好,RandomBaseline是测试集中正样本数量与测试集所有样本数量的比例;S5、构建单模体预测器,使用单个模体Mf与局部信息特征作为机器学习模型的输入,进行训练和预测,选择所有数据集最优模体的集合,得到集合M={M3,M4-2,M8-3,M10-2,M11-1,M15};S6、分别计算每种模体在正样本和负样本中的数量分布情况,并计算两个分布的KL散度,衡量两个分布之间的相似性,KL散度越大表示两个分布之间的差异性越大,计算公式如下 其中,P是模体Mf在正样本中的分布,Q是模体Mf在负样本中的分布,是分布P对于分布Q的KL散度,对每种模体计算KL散度和单个模体链路预测性能的相关系数ρ,选择强相关性ρ0.6的模体,得到集合M={M1,M3,M5,M7-1,M7-2,M8-2,M9-2,M11-1,M12,M13};S7、根据S5和S6所述的两种模体筛选策略进行特征选择,分别使用筛选出的6种和10种模体作为特征,使用机器学习模型进行高阶链路预测,得到的结果预测精度较高,和使用所有模体接近,同时大幅度减少统计模体数量的计算开销。

全文数据:

权利要求:

百度查询: 电子科技大学长三角研究院(湖州) 一种基于单纯形模体的高阶链路预测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。