买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种集合聚集k-means法的数据库实现方法_电信科学技术第十研究所有限公司_202410119600.3 

申请/专利权人:电信科学技术第十研究所有限公司

申请日:2024-01-29

公开(公告)日:2024-04-16

公开(公告)号:CN117891819A

主分类号:G06F16/22

分类号:G06F16/22;G06F16/245;G06F16/28;G06F18/22;G06F18/23213

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.05.03#实质审查的生效;2024.04.16#公开

摘要:本发明公开了一种集合聚集k‑means法的数据库实现方法,首先计算集合之间的距离;然后将业务表和距离表同步到Oracle数据库,通过plsql编程来完成聚集,并与业务表关联得到最终结果。本发明方法能使得用户能够从大量繁杂的、无规律的数据中得到有规律的事实、知识,能够迅速聚焦目标,极大地提升了用户的工效。

主权项:1.一种集合聚集k-means法的数据库实现方法,其特征在于,包括如下步骤:步骤1:计算集合之间的距离;集合是由元素组成的,元素不能重复;用A表示集合,A的基数用|A|表示,|A|的含义在离散集合的情形下,是元素的个数,在一维连续集合的情形下,|A|是区间长度,对于时间区间来说,就是时长;集合A、B的交集,用AnB表示,是属于A且属于B的元素组成的集合;集合A、B的并集,用AuB表示,是属于A或属于B的元素组成的集合;A与B之间的相似性,用Jaccard相似性度量:j_simA,B=|AnB||AuB|就是A与B的交集的基数除以A与B的并集的基数,j_simA,B值在0与1之间;如果A、B完全相同,那么|AnB|=|AuB|,j_simA,B=1,即:A、B完全相同,相似性为1,1就是完全相同;如果A、B没有相同元素,那么|AnB|=0,j_simA,B=0,即:A、B完全不同,相似性为0,0就是完全不同;j_simA,B越靠近1,表明A、B越相似;j_simA,B越靠近0,表明A、B越不同;即A、B越相似,距离越小;A、B越不同,距离越大;A与B之间的距离定义如下:j_distA,B=1-j_simA,B即:距离就是相似性对于1的补数;步骤2:将业务表和距离表同步到Oracle数据库,通过plsql编程来完成聚集,并与业务表关联得到最终结果;将两两实体Entity在特征Feature下的集合属性Set的距离同步到oracle,通过数据库的编程性,利用k-means的编程,完成聚合;表tab_cm_k_means03存聚类的每一步结果;表tab_cm_k_means_b、tab_cm_k_means_c、tab_cm_k_means_d存储中间的结果,将中间结果更新到tab_cm_k_means03中;表tab_cm_sets_distance存储每两个样本之间的距离;步骤2-1:表tab_cm_k_means03初始质心选择;步骤2-2:将样本划归为不同的簇,存到临时表tab_cm_k_means_b中;将其他非质心样本距离每个簇质心的距离,查询tab_cm_sets_distance表,按最近距离将其划归为那个簇;步骤2-3:表tab_cm_k_means03样本所属簇的更新;将tab_cm_k_means_b信息更新到tab_cm_k_means03;步骤2-4:重新选择每一簇的质心,存到临时表tab_cm_k_means_c中;在每个簇内,根据样本距离同一簇内其他样本距离的平方和的最小值,重新选择每一簇的质心;步骤2-5:计算前后两次质心的距离及簇内代价函数,存到临时表tab_cm_k_means_d中;步骤2-6:经过计算后对表tab_cm_k_means03质心置换,非随机选取;步骤2-7:将样本划归为不同的簇,存到临时表tab_cm_k_means_b中;将其他非质心样本距离每个簇质心的距离,查询tab_cm_sets_distance表,按最近距离将其划归为那个簇;步骤2-8:表tab_cm_k_means03样本所属簇的更新;将tab_cm_k_means_b信息更新到tab_cm_k_means03;步骤2-9:重新选择每一簇的质心,存到临时表tab_cm_k_means_c中;在每个簇内,根据样本距离同一簇内其他样本距离的平方和的最小值,重新选择每一簇的质心;步骤2-10:计算前后两次质心的距离及代价函数,存到临时表tab_cm_k_means_d中;步骤2-11:判断前后质心没发生变化或后次代价函数不小于前次代价函数,在步骤2-8得到的tab_cm_k_means03即为最终结果;否则重复步骤2-5到步骤2-10。

全文数据:

权利要求:

百度查询: 电信科学技术第十研究所有限公司 一种集合聚集k-means法的数据库实现方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。