买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种以Hadoop为核心的大数据服务器_泰安北航科技园信息科技有限公司_202311810915.4 

申请/专利权人:泰安北航科技园信息科技有限公司

申请日:2023-12-27

公开(公告)日:2024-03-22

公开(公告)号:CN117519608B

主分类号:G06F3/06

分类号:G06F3/06

优先权:

专利状态码:有效-授权

法律状态:2024.03.22#授权;2024.02.27#实质审查的生效;2024.02.06#公开

摘要:本发明涉及数据处理技术领域,本发明公开了一种以Hadoop为核心的大数据服务器;包括计算小文件数据的容量占用值和分布节点的容量剩余值,将容量占用值与容量剩余值对比分析,判定是否选择优化指令,计算选择系数,选择第一优化指令或第二优化指令,从而对小文件数据进行合并和调整数据块大小处理;相对于现有技术,能够对海量的小文件数据进行合并或调整数据块大小的处理,从而将海量的小文件数据优化到满足分布节点高效准确处理计算的数量,降低分布节点处理小文件数据时的空间占用幅度,进而提高服务器中分布节点对海量小文件数据存储和访问效率,增强服务器的运行计算速率,降低发生延迟或故障现象的概率。

主权项:1.一种以Hadoop为核心的大数据服务器,其特征在于,包括:数据采集模块,用于标记分布节点的小文件数据,采集小文件数据的综合容量参数,基于综合容量参数,计算容量占用值,综合容量参数包括数据总量、非结构占比率和可汇总占比率;节点容量计算模块,用于采集分布节点的容量总值和总占用值,基于容量总值和总占用值,计算容量剩余值;对比分析模块,用于将容量占用值与容量剩余值对比分析,获得容量差值,基于容量差值,判定是否进行优化处理;容量差值的表达式为: ;式中,为容量差值;是否进行优化处理的判定方法包括:当大于0时,判定进行优化处理;当小于等于0时,判定不进行优化处理;系数计算模块,用于采集小文件数据的选择参数,基于选择参数,生成选择系数;选择参数包括数据均值、访问频率和处理速率;数据均值的获取方法包括:随机标记个小文件数据,并记录个小文件数据对应的字节值;去掉个字节值中的最大值和最小值后,将剩下的个字节值累加后求平均,获得数据均值;数据均值的表达式为: ;式中,为数据均值,为第个字节值;访问频率的获取方法包括:通过分布节点的访问日志获取时刻至时刻小文件数据的访问次数,时刻与时刻不相邻;按照预设时长,将时刻至时刻等分为个子时刻,为2的整数倍,并将个子时刻依次编号;统计个编号为奇数的子时刻的访问次数,等于,获得个子频率;子频率的表达式为: ;式中,为第个子频率,为第个访问次数,为预设时长;将个子频率累加后求平均,获得访问频率;访问频率的表达式为: ;式中,为访问频率,为第个子频率;选择系数的表达式为: ;式中,为选择系数,为处理速率,处理速率通过分布节点对应的系统监控工具Ganglia获取,、、为权重因子;指令选择模块,用于将选择系数与预设的选择阈值比较,根据比较结果,选择第一优化指令或第二优化指令;第一优化指令或第二优化指令的选择方法包括:将小文件数据对应的选择系数与预设的选择阈值进行差值比较,大于0;当大于等于时,选择第一优化指令;当小于时,选择第二优化指令;合并执行模块,用于依据第一优化指令,对小文件数据进行合并处理;调整执行模块,用于依据第二优化指令,对小文件数据进行调整数据块大小处理。

全文数据:

权利要求:

百度查询: 泰安北航科技园信息科技有限公司 一种以Hadoop为核心的大数据服务器

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。