买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】机器学习多源训练集的不经意存储访问方法_东南大学_202010717252.1 

申请/专利权人:东南大学

申请日:2020-07-23

公开(公告)日:2024-03-26

公开(公告)号:CN111898157B

主分类号:G06F21/62

分类号:G06F21/62;G06F12/02;G06F12/10;G06N20/00

优先权:

专利状态码:有效-授权

法律状态:2024.03.26#授权;2020.11.24#实质审查的生效;2020.11.06#公开

摘要:本发明公开了一种机器学习多源训练集的不经意存储访问方法,包括如下步骤:1用户使用映射标识,通过数据集的数据标识和标签标识生成地址数据,并将地址数据拆分成一系列地址用来存储数据和标签快;2用户使用随机化标识,通过数据集的数据和标签生成随机化数据,并将随机化数据拆分成随机数和存储顺序;3存储时,用户按照存储顺序将数据,标签和随机数存储到地址数据所拆分的地址中;4访问时,用户通过映射标识计算得到存储地址,并通过数据随机化的结果解析出数据,标签和随机数。本发明实现了用户在进行多源协作训练数据访问的情况下,对训练数据集信息的保护。

主权项:1.一种机器学习多源训练集的不经意存储访问方法,其特征在于,该方法包括如下步骤:1地址的映射与拆分阶段:用户使用自己持有的映射标识符k1、数据标识metadi和标签标识metali通过具有抗碰撞性的散列函数得到地址数据META,然后把获得的地址数据META拆分为一系列地址,分别存储随机化后的数据和标签块;2数据和标签的随机化阶段:用户使用自己持有的随机化标识k2、数据di和标签li通过具有抗碰撞性的散列函数得到随机化数据R,然后把获得的随机化数据R拆分为随机数ri和存储顺序;3数据不经意存储阶段:用户按照数据随机化过程中生成的存储顺序代码,将数据di、标签li、随机数ri存储到地址数据META包含的地址中;4数据不经意访问阶段:用户计算地址数据META获得存储位置,并根据数据随机化的结果解析出数据di、标签li、随机数ri;在地址的映射与拆分阶段中利用具有抗碰撞性的散列函数得到地址数据META并将数据进行拆分,其具体步骤为:11将用户自己持有的映射标识符K1、数据标识metadi和标签标识metali通过SHA1散列函数映射得到160位的地址数据META;12地址数据META本身作为随机数、标签数据和特征数据存储时的逻辑地址Q;13地址数据META拆分得到随机数、标签数据以及特征数据进行存储时的第二级标识即设地址数据META为X0X1...X159,Q1={X0X1...X51},Q2={X52X53...X103},Q3={X104X105...X156};在数据和标签随机化阶段中利用具有抗碰撞性的散列函数得到随机化数据R并将数据进行拆分,其具体步骤为:21:将用户自己持有的随机化标识符K2、数据di和标签标识li通过SHA1散列函数映射得到160位的随机化数据R={Y0Y1...Y159};22:将R进行拆分得到随机数ri、以及存储顺序,令ri={Y0Y1...Y39},特征数据存储顺序编码Pd={Y40Y41...Y79},标签数据存储顺序编码Pl={Y80Y81...Y119},随机数存储顺序代码Pr={Y120Y121...Y159};利用PathORAM的存储结构,按照生成的逻辑地址Q存储数据,其具体步骤为:31:对于每一个数据标识metadi及其对应的标签标识metali,将其生成逻辑存储地址Q与二叉树T中的某个叶子节点相对应,生成positionmap;32:比较数据和标签随机化阶段中生成的Pd、Pl、Pr数值并对其由小到大排序,按照该顺序为随机数ri、特征数据di以及标签数据li分配二级标识Q1、Q2、Q3;33:将随机数ri、特征数据di以及标签数据li分别存储在数据块block中,每个数据块包括唯一标识逻辑地址Q、二级标识以及数据;34:将数据块存储至其对应的叶子节点到根节点的路径中的任一数据桶bucket中;在数据不经意访问阶段中,按照PathORAM的数据访问流程访问数据,并解析出随机数ri、特征数据di以及标签数据li,其具体步骤为:41:将待访问数据标识metadi、标签标识metali、以及映射标识符K1通过SHA1散列函数映射得到逻辑地址Q,查询positionmap得到所需数据所对应的叶子节点leafi;42:将从根节点到leafi路径pi中所有的数据下载至本地存储空间stash中,并更新positionmap为Q重新选择一条叶子节点leafj;43:利用唯一标识Q得到存储随机数ri、特征数据di以及标签数据li的所有数据块,并将stash中数据写回pi,保证本次所访问数据在leafj与leafi共同的最深层bucket中;44:将得到的三个数据块中的数据两两组合并同随机化标识符K2通过SHA1散列函数映射得到随机化结果r',将r'前40位数据与未参与映射的数据d'进行比较,若相同,则d'为随机数;45由r'得到三类数据的存储编码,并比较其大小,由其大小排序结果可确认由Q拆分成的二级标识Q1、Q2、Q3所对应的数据类型,并通过二级标识区分出数据类型,所述数据类型包括特征数据、标签数据、随机数。

全文数据:

权利要求:

百度查询: 东南大学 机器学习多源训练集的不经意存储访问方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。