【发明授权】一种用于脉冲星搜寻中候选体信号挖掘的并行的混合聚类方法_贵州师范大学_202210036692.X

申请/专利权人：贵州师范大学

申请日：2022-01-13

公开（公告）日：2024-04-05

公开（公告）号：CN114386466B

主分类号：G06F18/24

分类号：G06F18/24;G06F18/22;G06F18/23213;G06F18/2413;G06F17/16

优先权：

专利状态码：有效-授权

法律状态：2024.04.05#授权;2022.05.10#实质审查的生效;2022.04.22#公开

摘要：本发明公开了一种用于脉冲星搜寻中候选体信号挖掘的并行的混合聚类方法，包括：脉冲星候选体信号的聚类分析；基于滑动窗口的分组策略对数据集进行分组，按照特定的窗口值Batchsize=1160进行划分，设置滑动窗口尺寸为w=2；拟通过从真实样本中挑选较完备的各类脉冲星候选体特征数据1600颗作为一组样本，并分别加入到每轮滑动窗口所对应的待检测数据形成1个数据块，将数据集分为多个大小相同的并行数据块；用基于MapReduceSpark计算模型的数据块并行化实现该聚类。本发明能提高聚类性能、提升筛选召回率并减少执行时间。

主权项：1.一种用于脉冲星搜寻中候选体信号挖掘的并行的混合聚类方法，包括步骤如下：1脉冲星候选体信号的聚类分析：采用K近邻的多项式核函数计算数据点密度，筛出密度值小于阈值0.01的样本，这些样本将进一步通过候选体诊断图判断是噪声还是新天文现象，排除密度过小的离群点干扰；结合密度峰值及层次的聚类过程特点，用于数据集中多密度簇类层次的划分，合并同一区域内部分密度相近、距离邻近的微簇群，确定初始聚类中心点；运用基于高斯径向基核距离的k-means迭代对所有数据点的进行分配与簇中心优化，采用核函数计算样本数据点之间相似度计算可实现测度距离对高维空间的转换；2基于滑动窗口的分组策略对数据集进行分组，按照特定的窗口值Batchsize＝1160进行划分，设置滑动窗口尺寸为w＝2；拟通过从真实样本中挑选较完备的各类脉冲星候选体特征数据1600颗作为一组样本，并分别加入到每轮滑动窗口所对应的待检测数据形成1个数据块，将数据集分为多个大小相同的并行数据块；3用基于MapReduceSpark计算模型的数据块并行化实现该聚类；其中步骤1中所述的聚类分析方法为：①进行数据预处理，通过特征提取方法和主成分分析方法PCA对在基于PRESTO软件的脉冲星搜索流程中的脉冲星候选体数据进行特征选择和降维，从而得到特征向量为b的新特征空间输入数据集；可选的候选体物理特征值包括有脉冲辐射单峰、双峰和多峰、周期、色散值、信噪比、噪声信号、信号斜波、非相干功率之和、相干功率；②根据式1计算数据点i和j之间的马氏距离为其中，S是多维随机变量的协方差矩阵；再根据式2计算各数据点基于K近邻的局部Polynomial核密度，Polynomial核函数拥有的全局特性，使其泛化性能强；其中，c为偏置系数，d为多项式的阶；为消除数据变异大小和数值大小的影响，对dij和ρi均采用离差标准化处理如下；其中，mind和minρ分别代表dij和ρi的最小值，maxd和maxρ分别代表dij和ρi的最大值；③根据式5剔除离群点，再由式6计算非离群点之间的距离δi，剔除离群点有助于簇类中心点的选择；另外，密度过小的数据点数量少且分布边缘化；由于其稀缺性及低密度化，在数据分布中呈异常，而异常现象可能是纯噪声或天文新现象比如特殊脉冲星；这部分数据后续将通过对应的候选体诊断图作进一步的确定；inlier＝{ρi＞ρthrehold}，ρthrehold＝0.015 ④所有距离δ大于阈值λ的数据点可生成1个二维决策图；其中，横轴用密度ρ表示，纵轴用距离δ表示；在二维决策图上进行密度层次微簇群的合并，方法为：若在ρ轴或δ轴划分区域上包含两个或两个以上的无数据点存在区域，则称该空隙区域为空区；空区把所有的数据点划分为两个密度区域，将最右的密度区域称作最大密度区域，其余为低密度区域；A在低密度区域，由于区分度不高，将该区域相应的微簇均合并成一个簇类；B在最大密度区域，若所有的代表点都在同一个δ区，则将这些代表点均选作独立的簇类中心；若不在同一个δ区，则这些代表点间距离区分度不高，可能属于同一个簇类，因此需要将相应的微簇合并成一个大簇；⑤确定簇类数k以及对应集群Ci1≤i≤k的中心centeri；⑥根据就近原则将各个数据点xj分配给距离最近的centeri所在的簇类，相似性测度方式采用RBF核距离，如式7所示；RBF核函数拥有局部特性且学习能力强，通过RBF核距离可实现测度距离对高维空间的转换；其中,η代表核函数宽度；按照式8计算新簇Ci'内所有数据点的均值作为新的中心centeri'，ni表示属于Ci'的数据点总数； ⑦计算数据集所有对象的误差平方和SSE：直到SSE值不再发生变化，算法停止，否则回到步骤⑥；其中步骤3中基于MapReduceSpark计算模型的数据块并行化实现该聚类的方法为：针对大规模的脉冲星数据处理，依据Sun-Ni定理，研究该聚类算法在MapReduce计算模型的并行化实现是非常有必要的；一方面，可提高聚类结果的精确度；另一方面，能够降低数据比较的次数；Sun-Ni定理中引入了一个函数Gp表示存储容量受限时工作负载的增加量；该定律提出在满足固定时间加速比所规定的时间限制的前提下且拥有足够的内存空间时，对问题进行放缩能有效地利用内存空间；首先通过上述基于滑动窗口的方法将数据划分为L个数据块Block1,...,BlockL后并行执行；下一步，由Map1和Reduce1函数完成各Blocki1≤i≤L中数据点的密度计算以及初始聚类中心点clustercenters的选取需要说明的是，Map阶段的key,value输入：key是行号，value是当前样本各维度的值组成的列表；Reduce阶段输出：key.id即初始聚类中心；最后，Map2和Reduce2函数迭代完成Blocki内每个数据点到聚类中心clustercentersi的距离计算并重新标记其属于的簇类别，其中用Reduce2函数计算出新的簇中心为下一轮聚类任务作准备；比较当前轮簇中心与上一轮对应簇中心之间的距离，若变化小于给定的阈值，则运行结束；否则将新簇中心作为下一轮的聚类中心；在聚类结束后，提取出脉冲星簇和异常噪声点；Spark作为一种大规模数据处理通用的计算引擎，其计算过程与MapReduce类似。

全文数据：

权利要求：

百度查询：贵州师范大学一种用于脉冲星搜寻中候选体信号挖掘的并行的混合聚类方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：电子设备_深圳市嘉晋实业有限公司_202322601396.2

下一篇：一种卷帘门帘片成型机_重庆久广门业有限公司_202322413811.1

相关技术

电子设备_深圳市嘉晋实业有限公司_202322601396.2

一种卷帘门帘片成型机_重庆久广门业有限公司_202322413811.1

一种英语听力训练用耳机_大同师范高等专科学校_202322527447.1

一种打孔装置_广州市骏褀无纺布实业有限公司_202321762517.5

配备可拆固定式导纸嘴的打印装置_长城信息股份有限公司_202322616485.4

一种不锈钢带输送机构_佛山市南海区东励森金属制品有限公司_202322463638.6

无功补偿柜柜体_广东澳江电气有限公司_202322547060.2

再生废液处理系统_山东荣信集团有限公司_202322260404.1

一种LED灯珠生产用烘箱_深圳市立彩光电科技有限公司_202322576244.1

一种用于污水处理的自动化污水处理设备_江苏欧跃环保科技有限公司_202322615536.1

涨紧机构及包含该机构的内模组件_江苏江扬建材机械有限公司_202322625490.1

一种可调节车挡_自贡市城市规划设计研究院有限责任公司_202322421392.6

体相关技术

药液、药液收容体_富士胶片株式会社_201980046121.0

玻璃捆包体_日本电气硝子株式会社_202311256457.4

开闭体驱动装置_株式会社爱信_202311364489.6

无功补偿柜柜体_广东澳江电气有限公司_202322547060.2

助威工具结构体_朴泳_202310387247.2

层叠体、层叠体的制造方法、层叠用膜、图像显示装置_大日本印刷株式会社_202080089572.5

一种盒体及双层盒体底部连接纸的粘贴方法_中科天工(武汉)智能技术有限公司_202210267720.9

屏体翻折治具和屏体翻折方法_合肥维信诺科技有限公司_202111370062.8

一种钳体一体成型铸造设备_安徽盛隆铸业有限公司_202322374008.1

聚酯弹性体树脂组合物_东洋纺MC株式会社_202180016681.9

挖掘相关技术

一种挖掘机用可调节机械臂_济宁瑞来德重工科技有限公司_202322609185.3

漏洞挖掘方法、装置、电子设备及存储介质_清华大学_202310641080.8

一种用于挖掘机的冷却装置_爱克奇换热技术(太仓)有限公司_202322511925.X

一种花生挖掘翻秧晾晒机_河南省农业科学院长垣分院_202410286346.6

一种挖掘机铲斗_武汉科技大学_202322383191.1

电子文档信息隐藏深度挖掘方法、系统和装置_北京信息科技大学_202410077349.9

一种挖掘机斗齿总成_宁波吉威熔模铸造有限公司_202210621237.6

一种挖掘机铲斗_合肥盖特工程设备制造有限公司_202322452373.X

一种挖掘机用抑尘装置_安徽圆石建设工程有限公司_202322501200.2

一种基于大数据的挖掘计算系统_常州德汇智能化工程有限公司_202311762357.9

信号相关技术

一种信号发送方法、信号接收方法及装置_华为技术有限公司_201980101711.9

同步信号的发送方法、同步信号的接收方法及相关设备_华为技术有限公司_202310152684.6

信号灯管理系统和信号灯管理方法_丰田自动车株式会社_202210021572.2

屏蔽芯片信号干扰的散热结构_苏州浩曦微电子科技有限公司_202322463108.1

毫米波信号传输整合装置_神基科技股份有限公司_202310129592.6

升压控制信号产生器_恩智浦有限公司_201811282626.0

信号线铝箔自动去除装置_鸿硕精密电工(湖北)有限公司_202322324079.0

用于控制帧的带宽信号_迈凌有限公司_202280056658.7

一种GPS信号接入装置_京信网络系统股份有限公司_201811638630.6

一种信号调理采集装置_杭州仁牧科技有限公司_202322713940.2

龙图腾网&IPTOP

【发明授权】一种用于脉冲星搜寻中候选体信号挖掘的并行的混合聚类方法_贵州师范大学_202210036692.X

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务