买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于因子分析和图聚类的IDMapping方法_南京烽火星空通信发展有限公司_202111269662.5 

申请/专利权人:南京烽火星空通信发展有限公司

申请日:2021-10-29

公开(公告)日:2022-02-22

公开(公告)号:CN114077865A

主分类号:G06K9/62(20220101)

分类号:G06K9/62(20220101)

优先权:

专利状态码:在审-实质审查的生效

法律状态:2022.03.11#实质审查的生效;2022.02.22#公开

摘要:本发明公开了一种基于因子分析和图聚类的IDMapping方法,本方法基于各种数据源,对数据进行两两关系提取,并选择时间跨度、采集时间、采集次数、数据来源可靠性和数据来源种类个数作为数据的特征维度并静进行归一化处理后,通过因子分析判断这些特征是否符合要求,最终对数据进行权重计算,最后通过图的聚类算法实现IDMapping。本发明针对各种来源的海量碎片化数据进行合并,提高数据质量,最终形成一条用户画像数据。

主权项:1.一种基于因子分析和图聚类的IDMapping方法,其特征在于包括以下步骤:S1,数据预处理:1基于各数据源获取的数据,对数据进行两两关系提取,并对每对关系数据中不同属性数据按关系起点和关系终点进行排序编号,并获取每对关系数据的数据采集次数count、数据采集时间ctime、数据来源domain、数据来源可靠性rel;2选择时间跨度Tsapn、采集时间T、采集次数N、数据来源可靠性REL和数据来源种类个数TYPE作为数据的特征维度,并按式1~5对每个特征维度进行归一化处理; 式中,x为某一组相同关系数据中最早采集时间和最近采集时间的差值,ctimej为该组相同关系数据中第j个关系的数据采集时间,m为该组相同关系数据中的数据总个数;xi为第i组相同关系数据中最早采集时间和最近采集时间的差值,n为相同关系数据组的总个数;Tsapni是相同关系数据最早采集时间和最近采集时间的差值的归一化数值;j表示某组相同关系数据中某个采集的关系数据的序号,m为该组相同关系数据中的关系数据的总个数,i表示某组相同关系数据组的序号,n为相同关系数据组的总个数; 式中,T为同一关系数据最新采集时间距离当前时间的天数的归一化值,now为当前时间,day为相同关系数据最新采集时间距离当前时间的天数,day为时间转换天数的函数,dayi为第i个关系数据采集时间的值; 式中,N为相同关系数据不同来源不同时间采集总次数的归一化值,c为某一相同关系的不同来源和不同时间采集产生相同数据的条数,ci为第i个关系数据的采集次数; 式中,REL是数据来源可靠性的归一化值,r为某个关系数据的可靠性得分,relj为第j个关系数据来源可信度由领域专家判断评价,rel∈{0.1,0.5,1},k为来源可信度分数的个数如{0.1,0.5,1}为3个,Cl为第l个来源的可信度分数个数,r为相同关系的可靠性分数, 式中,TYPE为数据来源种类个数的归一化值,y为同一关系数据的不同来源个数,yi为第i个关系数据的采集次数;3去除异常数据节点;4对关系数据的关系起点排序编号NOStar和关系终点排序编号NOEnd,以及经过预处理并归一化得到时间跨度Tsapn、采集时间T、采集次数N、数据来源可靠性REL和数据来源种类TYPE的五个特征维度进行数据输出,输出数据格式如下:{NOStarNOEndTspanTNRELTYPE};步骤S2,权重计算:5基于KMO检验统计量对上述五个特征维度进行可靠性权重评分,KMO计算公式如下式: 式中,X和Y为上述五个特征维度的向量,rXY是X和Y之间的皮尔森相关系数,αXY是X和Y之间的偏相关系数;6因子分析通过检验后,计算每个两两关系数据的所有特征值的贡献率,首先计算样本的5×5协方差矩阵cov: 式中,X为关系数据的5个特征维度的向量,T为X向量的转置,D为维度数;然后,通过下式计算获得特征值λ和特征值贡献率fi 式中,A为式8结果的矩阵,E为单位矩阵,λ为特征值矩阵,下角标d为维度数,di为求和维度个数;7最后,通过下式计算获得最终两两关系数据中各特征维度的权重w作为输出数据, 式中,fd为第d个特征维度的贡献率值,yd为第d个维度的值;步骤S3,数据进行图聚类处理:8通过SparkGraphX对步骤7中的输出数据创建点对象EdgeRDD和边对象VertexRDD,从而生成图结构对象Graph对象图;9通过连通子图算法对生成的Graph对象图进行切分,得到若干个相互连通的子图,得到的子图即为每个用户的画像,并以子图中所有节点中最小的ID值设为该子图唯一健OneID,其中,每个所述子图为一个用户或存在冲突的若干个用户的数据。

全文数据:

权利要求:

百度查询: 南京烽火星空通信发展有限公司 一种基于因子分析和图聚类的IDMapping方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。