买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种用于脉冲星搜寻中候选体信号挖掘的并行的混合聚类方法_贵州师范大学_202210036692.X 

申请/专利权人:贵州师范大学

申请日:2022-01-13

公开(公告)日:2024-04-05

公开(公告)号:CN114386466B

主分类号:G06F18/24

分类号:G06F18/24;G06F18/22;G06F18/23213;G06F18/2413;G06F17/16

优先权:

专利状态码:有效-授权

法律状态:2024.04.05#授权;2022.05.10#实质审查的生效;2022.04.22#公开

摘要:本发明公开了一种用于脉冲星搜寻中候选体信号挖掘的并行的混合聚类方法,包括:脉冲星候选体信号的聚类分析;基于滑动窗口的分组策略对数据集进行分组,按照特定的窗口值Batchsize=1160进行划分,设置滑动窗口尺寸为w=2;拟通过从真实样本中挑选较完备的各类脉冲星候选体特征数据1600颗作为一组样本,并分别加入到每轮滑动窗口所对应的待检测数据形成1个数据块,将数据集分为多个大小相同的并行数据块;用基于MapReduceSpark计算模型的数据块并行化实现该聚类。本发明能提高聚类性能、提升筛选召回率并减少执行时间。

主权项:1.一种用于脉冲星搜寻中候选体信号挖掘的并行的混合聚类方法,包括步骤如下:1脉冲星候选体信号的聚类分析:采用K近邻的多项式核函数计算数据点密度,筛出密度值小于阈值0.01的样本,这些样本将进一步通过候选体诊断图判断是噪声还是新天文现象,排除密度过小的离群点干扰;结合密度峰值及层次的聚类过程特点,用于数据集中多密度簇类层次的划分,合并同一区域内部分密度相近、距离邻近的微簇群,确定初始聚类中心点;运用基于高斯径向基核距离的k-means迭代对所有数据点的进行分配与簇中心优化,采用核函数计算样本数据点之间相似度计算可实现测度距离对高维空间的转换;2基于滑动窗口的分组策略对数据集进行分组,按照特定的窗口值Batchsize=1160进行划分,设置滑动窗口尺寸为w=2;拟通过从真实样本中挑选较完备的各类脉冲星候选体特征数据1600颗作为一组样本,并分别加入到每轮滑动窗口所对应的待检测数据形成1个数据块,将数据集分为多个大小相同的并行数据块;3用基于MapReduceSpark计算模型的数据块并行化实现该聚类;其中步骤1中所述的聚类分析方法为:①进行数据预处理,通过特征提取方法和主成分分析方法PCA对在基于PRESTO软件的脉冲星搜索流程中的脉冲星候选体数据进行特征选择和降维,从而得到特征向量为b的新特征空间输入数据集;可选的候选体物理特征值包括有脉冲辐射单峰、双峰和多峰、周期、色散值、信噪比、噪声信号、信号斜波、非相干功率之和、相干功率;②根据式1计算数据点i和j之间的马氏距离为 其中,S是多维随机变量的协方差矩阵;再根据式2计算各数据点基于K近邻的局部Polynomial核密度,Polynomial核函数拥有的全局特性,使其泛化性能强; 其中,c为偏置系数,d为多项式的阶;为消除数据变异大小和数值大小的影响,对dij和ρi均采用离差标准化处理如下; 其中,mind和minρ分别代表dij和ρi的最小值,maxd和maxρ分别代表dij和ρi的最大值;③根据式5剔除离群点,再由式6计算非离群点之间的距离δi,剔除离群点有助于簇类中心点的选择;另外,密度过小的数据点数量少且分布边缘化;由于其稀缺性及低密度化,在数据分布中呈异常,而异常现象可能是纯噪声或天文新现象比如特殊脉冲星;这部分数据后续将通过对应的候选体诊断图作进一步的确定;inlier={ρi>ρthrehold},ρthrehold=0.015 ④所有距离δ大于阈值λ的数据点可生成1个二维决策图;其中,横轴用密度ρ表示,纵轴用距离δ表示;在二维决策图上进行密度层次微簇群的合并,方法为:若在ρ轴或δ轴划分区域上包含两个或两个以上的无数据点存在区域,则称该空隙区域为空区;空区把所有的数据点划分为两个密度区域,将最右的密度区域称作最大密度区域,其余为低密度区域;A在低密度区域,由于区分度不高,将该区域相应的微簇均合并成一个簇类;B在最大密度区域,若所有的代表点都在同一个δ区,则将这些代表点均选作独立的簇类中心;若不在同一个δ区,则这些代表点间距离区分度不高,可能属于同一个簇类,因此需要将相应的微簇合并成一个大簇;⑤确定簇类数k以及对应集群Ci1≤i≤k的中心centeri;⑥根据就近原则将各个数据点xj分配给距离最近的centeri所在的簇类,相似性测度方式采用RBF核距离,如式7所示;RBF核函数拥有局部特性且学习能力强,通过RBF核距离可实现测度距离对高维空间的转换; 其中,η代表核函数宽度;按照式8计算新簇Ci'内所有数据点的均值作为新的中心centeri',ni表示属于Ci'的数据点总数; ⑦计算数据集所有对象的误差平方和SSE: 直到SSE值不再发生变化,算法停止,否则回到步骤⑥;其中步骤3中基于MapReduceSpark计算模型的数据块并行化实现该聚类的方法为:针对大规模的脉冲星数据处理,依据Sun-Ni定理,研究该聚类算法在MapReduce计算模型的并行化实现是非常有必要的;一方面,可提高聚类结果的精确度;另一方面,能够降低数据比较的次数;Sun-Ni定理中引入了一个函数Gp表示存储容量受限时工作负载的增加量;该定律提出在满足固定时间加速比所规定的时间限制的前提下且拥有足够的内存空间时,对问题进行放缩能有效地利用内存空间;首先通过上述基于滑动窗口的方法将数据划分为L个数据块Block1,...,BlockL后并行执行;下一步,由Map1和Reduce1函数完成各Blocki1≤i≤L中数据点的密度计算以及初始聚类中心点clustercenters的选取需要说明的是,Map阶段的key,value输入:key是行号,value是当前样本各维度的值组成的列表;Reduce阶段输出:key.id即初始聚类中心;最后,Map2和Reduce2函数迭代完成Blocki内每个数据点到聚类中心clustercentersi的距离计算并重新标记其属于的簇类别,其中用Reduce2函数计算出新的簇中心为下一轮聚类任务作准备;比较当前轮簇中心与上一轮对应簇中心之间的距离,若变化小于给定的阈值,则运行结束;否则将新簇中心作为下一轮的聚类中心;在聚类结束后,提取出脉冲星簇和异常噪声点;Spark作为一种大规模数据处理通用的计算引擎,其计算过程与MapReduce类似。

全文数据:

权利要求:

百度查询: 贵州师范大学 一种用于脉冲星搜寻中候选体信号挖掘的并行的混合聚类方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。