买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种隐私保护的分布式纵向K-means聚类_天翼电子商务有限公司_202011312048.8 

申请/专利权人:天翼电子商务有限公司

申请日:2020-11-20

公开(公告)日:2021-01-15

公开(公告)号:CN112231760A

主分类号:G06F21/62(20130101)

分类号:G06F21/62(20130101);G06K9/62(20060101)

优先权:

专利状态码:失效-发明专利申请公布后的视为撤回

法律状态:2024.02.20#发明专利申请公布后的视为撤回;2021.04.02#实质审查的生效;2021.01.15#公开

摘要:本发明公开了一种隐私保护的分布式纵向K‑means聚类,包括以下步骤:步骤1,选择其中一个节点M1作为发起方节点,M1生成Paillier公私钥,并将公钥分发给参与方M1,M2…Mn;步骤2,初始化聚类中心生成;步骤3,计算样本点到聚类中心的距离;步骤4,重新计算样本聚类中心;步骤5,重复步骤3,4直到相邻两次聚类中心的距离在合理范围内或者达到了指定的迭代次数。本发明采用完全去中心化的分布式模式,在减少通信次数的同时可以改善聚类效果,同时去中心化可以有效保护数据隐私。

主权项:1.一种隐私保护的分布式纵向K-means聚类,其特征在于,包括以下步骤:步骤1,选择其中一个节点M1作为发起方节点,M1生成Paillier公私钥,并将公钥分发给参与方M1,M2…Mn;步骤2,初始化聚类中心生成:a方案1,随机初始化聚类中心:发起方节点M1随机选取K个样本ID,这些ID对应的样本作为该节点的样本中心,然后将这K个样本ID传给其他参与方M1,M2…Mn,其他参与方同样根据这些ID找到己方的所对应的样本中心,这样就找到了K个初始化聚类中心;b方案2,使用K-means++优化初始化聚类中心:发起方节点M1随机选取1个样本ID作为第一个初始化聚类中心,这个ID对应的样本作为该节点的样本中心,然后将这个样本ID传给其他参与方M1,M2…Mn,其他参与方同样根据这个ID找到己方的所对应的样本中心,接着发起方计算每个样本距离自己一方已有样本中心的欧式距离平方和,再将这个值加上随机数并用公钥加密再传给下一个参与节点,下一个节点同样计算每个样本距离自己一方已有样本中心的欧式距离平方和并加上上一个节点传过来的欧式距离平方和,直到N个节点全部计算完毕并且第N个节点把最终的平方和汇总到发起方节点M1,发起方减去每个距离对应的随机数并用私钥解密,然后发起方节点计算每个样本与当前已有聚类中心的最短距离,用Dx表示,接着计算每个样本被选为下一个聚类中心的概率最大的那个概率值对应的样本即被选为下一个初始化样本聚类中心,并将找到的下一个聚类中心ID发给其他参与方M1,M2…Mn,其他参与方同样根据这些ID找到自己的对应的样本,重复以上过程直到选取了K个样本中心为止;步骤3,计算样本点到聚类中心的距离:发起方M1计算自己的每个样本点到己方样本中心的欧式距离平方和,再将这个值加上随机数并用公钥加密再传给下一个参与节点,下一个节点同样计算每个样本距离自己一方已有样本中心的欧式距离平方和并加上上一个节点传过来的欧式距离平方和,直到N个节点全部计算完毕并且第N个节点把最终的平方和汇总到发起方节点M1,发起方减去每个距离对应的随机数并用私钥解密,并比较该样本点到所有聚类中心点的距离,并将其划分到距离最小的聚类中心所对应的类中,M1再将这些聚类中心的样本ID发给其他参与方M1,M2…Mn,直到所有样本都划分到对应的类中为止;步骤4,重新计算样本聚类中心:针对步骤3中生成的聚类中心,每一个节点计算每个类中的样本均值作为自己节点新的聚类中心;步骤5,重复步骤3,4直到相邻两次聚类中心的距离在合理范围内或者达到了指定的迭代次数。

全文数据:

权利要求:

百度查询: 天翼电子商务有限公司 一种隐私保护的分布式纵向K-means聚类

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。