首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于聚类的金融缺失数据处理方法_江南大学;浪潮卓数大数据产业发展有限公司_202111565832.4 

申请/专利权人:江南大学;浪潮卓数大数据产业发展有限公司

申请日:2021-12-20

公开(公告)日:2024-04-26

公开(公告)号:CN114443628B

主分类号:G06F16/215

分类号:G06F16/215;G06F18/23213

优先权:

专利状态码:有效-授权

法律状态:2024.04.26#授权;2022.05.24#实质审查的生效;2022.05.06#公开

摘要:本发明公开了一种基于聚类的金融缺失数据处理方法,包括:获取金融数据集;对金融数据集进行两步处理;对经过两步处理得到数据集进行聚类操作,整合其聚类后的簇;通过相似度度量将缺失数据对象划分的到最想似的簇中,并通过簇内信息进行填补。本发明提出一种整体和局部相结合的基于聚类的金融缺失数据处理方法,极大程度上保留了原样本的分布情况,减少缺失数据所导致的误差,更准确的对缺失数据进行填充。

主权项:1.一种基于聚类的金融缺失数据处理方法,其特征在于,包括:获取金融数据集;对所述金融数据集进行两步处理;两步处理包括,一步是不处理数据集中的缺失值,一步是将数据集分为缺失数据集和完整的数据集;所述不处理数据集中的缺失值包括,对金融缺失数据集进行k-means聚类处理;k-means聚类处理过程如下:选定簇的个数k为8,使用余弦相似度计算各个样本点到簇中心的距离;余弦相似度计算公式为: 其中,cosθ表示余弦相似度,A表示对象点向量x1,y1,B表示质心向量x2,y2;对于分类后的产生的8个簇,使用欧式距离计算到簇内其他点距离均值最小的点作为质心,重复以上过程直至簇中心没有移动,得8个簇;欧式距离的计算公式为: 其中,dx,y表示欧式距离,n表示维数,i表示第i维,xi表示第一个点的第i维坐标,yi表示第二个点的第i维坐标;判断所述簇中心没有移动的标准为所述质心没有改变;对所述完整数据集进行k-means聚类处理,得到8个簇;将所述数据集分为缺失数据集和完整数据集的分类标准包括根据是否有缺失值将所述数据集分为缺失数据集和完整数据集;对经过所述两步处理得到数据集进行聚类操作,整合其聚类后的簇;使用皮尔森相关来进一步分析通过两次聚类得到的簇,将第一次聚类得到的簇视为变量X,第二次聚类得到的簇视为变量Y,使用皮尔森来计算X与Y的相似程度,皮尔森计算公式: 其中,N为样本总量;如果ρX,Y大于预设值,表示两个簇之间相关,即在聚类中这个簇没有因为信息的缺失而受影响,则选用这类簇用于缺失值填补;计算所述缺失数据集中的缺失数据对象和采用皮尔森相关选出来的簇的欧式距离: 其中,dx,y表示欧式距离,n表示维数,i表示第i维,xi表示第一个点的第i维坐标,yi表示第二个点的第i维坐标;基于计算结果进行相似度的度量,将所述缺失数据对象划分到最相似的簇中,并将所述簇的属性均值填充给所述缺失数据对象;通过相似度度量将缺失数据对象划分的到最相似的簇中,并通过簇内信息进行填补。

全文数据:

权利要求:

百度查询: 江南大学;浪潮卓数大数据产业发展有限公司 一种基于聚类的金融缺失数据处理方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。