申请/专利权人:南京大学
申请日:2022-05-20
公开(公告)日:2023-05-09
公开(公告)号:CN114844781B
主分类号:H04L41/083
分类号:H04L41/083;H04L41/0823;H04L41/0833;H04L67/10
优先权:
专利状态码:有效-授权
法律状态:2023.05.09#授权;2022.08.19#实质审查的生效;2022.08.02#公开
摘要:本发明公开了一种Rack架构下编码MapReduce的Shuffle性能优化方法及系统。所述方法基于数据中心服务器部署时典型的Rack架构场景,将Shuffle阶段的通信优化问题规约为跨机架的通信量问题,并进一步规约为每个机架内每台服务器放置的Reduce函数的个数问题,最终通过对输入文件进行合理的冗余计算以及Reduce函数进行合理的放置,结合编码计算以及组播传输技术将数据进行压缩的方式,降低了Shuffle阶段的时间开销,并且缩短了MapReduce任务总的执行时间。
主权项:1.一种Rack架构下面向编码MapReduce的Shuffle性能优化方法,其特征在于,包括以下步骤:1根据输入文件数量和文件的计算负载,将文件放置到Rack机架内的相应服务器节点上,所述计算负载指示文件在多个不同服务器节点进行计算的节点数量;2根据文件的计算负载和每个机架内的服务器节点数目,确定每个服务器节点上放置Reduce函数的个数;3服务器节点利用本地冗余中间值进行异或编码计算,并通过组播的方式将数据传输至组播组内其他服务器节点;4服务器节点将接收到的编码数据结合本地冗余中间值进行反异或解码计算,恢复所需要的中间值,并执行Reduce计算。
全文数据:
权利要求:
百度查询: 南京大学 Rack架构下面向编码MapReduce的Shuffle性能优化方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。