买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种分布式学习索引模型的构建方法及应用_华中科技大学_202111095824.8 

申请/专利权人:华中科技大学

申请日:2021-09-18

公开(公告)日:2024-04-23

公开(公告)号:CN113779154B

主分类号:G06F16/27

分类号:G06F16/27;G06F16/23;G06F16/22;G06N3/098

优先权:

专利状态码:有效-授权

法律状态:2024.04.23#授权;2021.12.28#实质审查的生效;2021.12.10#公开

摘要:本发明公开了一种分布式学习索引模型的构建方法及应用,属于计算机分布式存储技术领域,包括:对各存储节点,分别将其存储的数据根据键值的大小进行排序后,以其存储的数据的键值作为输入,对应的排序位置作为输出,训练机器学习模型,得到各存储节点的学习索引模型,并同步到所有的计算节点中;计算节点通过RDMA操作直接修改存储节点中的数据,而无需存储节点的CPU参与工作;同时,计算节点异步地对旧模型进行重新训练,并将新模型同步到存储节点中;通过将修改数据和模型的操作放到分布式系统中的计算节点来执行,大大降低了存储节点的CPU开销。

主权项:1.一种分布式学习索引模型的构建方法,其特征在于,包括:对各存储节点,分别将其存储的数据根据键值key的大小进行排序后,以其存储的数据的键值key作为输入,对应的排序位置作为输出,训练机器学习模型,得到各存储节点的学习索引模型,并同步到所有的计算节点中;所述学习索引模型包括多个相互独立的索引子模型;所述存储节点所存储的数据被划分到多个数据区间上,每个索引子模型分别用于索引一个数据区间内的数据,且各索引子模型所覆盖的数据区间互不重叠;各索引子模型分别由对应数据区间内的数据进行训练,以使各索引子模型的最大误差均小于预设阈值;其中,第k个索引子模型的最大误差为max_errork=|Yk,i-fXk,i|+δ;i为1,2,…,Nk;Nk为第k个索引子模型对应数据区间内的数据数量;Yk,i为第k个索引子模型对应数据区间内的第i个数据的排序位置;Xk,i为第k个索引子模型对应数据区间内的第i个数据的键值key;fXk,i为第k个索引子模型对应数据区间内的第i个数据经第k个索引子模型预测后所得的排序位置;δ为偏差值;所述存储节点中存储的数据排序后存储在多个大小为δ的数组中,所有数组的物理地址均存储在地址转换表中,且所述地址转换表被相应地同步到对应的计算节点中。

全文数据:

权利要求:

百度查询: 华中科技大学 一种分布式学习索引模型的构建方法及应用

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。