买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种按照hash规则切分数据使其更均匀的方法_天津南大通用数据技术股份有限公司_202110942746.4 

申请/专利权人:天津南大通用数据技术股份有限公司

申请日:2021-08-17

公开(公告)日:2024-02-06

公开(公告)号:CN113672619B

主分类号:G06F16/22

分类号:G06F16/22;G06F16/2458

优先权:

专利状态码:有效-授权

法律状态:2024.02.06#授权;2021.12.07#实质审查的生效;2021.11.19#公开

摘要:本发明提供了一种按照hash规则切分数据使其更均匀的方法,首先根据设置的内存大小去计算出hash桶的数量,然后将待切分的数据集合进行采样,在采样过程中,记录下相同数据出现的次数,然后把记录下来的数据和数据的出现次数按照出现次数进行排序,将顶端的数据进行记录形成topN数据信息,然后在进行单独划分形成独立的hash数据块。本发明所述的一种按照hash规则切分数据使其更均匀的方法,各数据块切分得更均匀可以使得多个线程可以在同一时间完成工作,避免单个线程由于划分的数据量巨大使得处理时间过长的问题。

主权项:1.一种按照hash规则切分数据使其更均匀的方法,其特征在于包括以下步骤:S1、根据以下公式进行hash桶数量评估;hash桶数量=总数据条数×1-数据重复率内存中能装下的数据条数;S2、进行数据采样,统计出数据出现次数,对统计数据按照出现次数排序,取前面最多的N个作为topN数据;S3、进行数据切分时,查看数据是否出现在统计出来的topN数据中:将出现在统计出来的topN数据中的值进行单独切分,不再进行hash运算,形成单值数据块;未出现在统计出来的topN数据中的值进行hash运算,划分到对应的hash桶中去,形成hash数据块;S4、待切分完成后,统计hash数据块平均行数;S5、将大于平均行数10倍的数据块再次按照S2、S3的方法进行统计;S6、将大数据块的topN和整体的topN合并形成新的整体统计数据记录。

全文数据:

权利要求:

百度查询: 天津南大通用数据技术股份有限公司 一种按照hash规则切分数据使其更均匀的方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。