买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于机器学习的近似查询优化系统_复旦大学_202210515794.X 

申请/专利权人:复旦大学

申请日:2022-05-11

公开(公告)日:2024-04-05

公开(公告)号:CN114911844B

主分类号:G06F16/2458

分类号:G06F16/2458;G06F16/2453;G06N3/0442

优先权:

专利状态码:有效-授权

法律状态:2024.04.05#授权;2022.09.02#实质审查的生效;2022.08.16#公开

摘要:本发明属于数据分析技术领域,具体为一种基于机器学习的近似查询优化系统。本发明系统包括数据诱导谓词和抽样器参数优化两部分;前者将一张表上的谓词转换为连接表上的诱导谓词,将谓词信息横向传递到其它表上来实现数据跳过,即让各表的输入数据变为各自的分区子集,从而引导查询优化器在削减后的数据上找出更好的查询计划;后者在数据诱导谓词部分找出的含诱导谓词的查询计划上插入抽样器来获取一系列候选查询计划,并通过训练深度学习模型来预测候选查询计划中抽样器的抽样率取值,从而在查询优化过程中降低局部数据与全局数据分布不一致时的负面影响。本发明在为用户提供查询误差保障性的同时降低查询执行时延。

主权项:1.一种基于机器学习的近似查询优化系统,其特征在于,包含两大部分:数据诱导谓词部分和抽样器参数优化部分,其中:所述数据诱导谓词,是通过使用大数据系统中维护的数据统计信息来在查询优化时将一张表上的谓词进行转换,以实现连接表上的数据跳过;具体流程为:首先,通过数据统计信息来获得查询谓词涉及的一张表上满足本地谓词条件的分区;接着,使用这些分区的数据统计信息,构建一个新的谓词来捕获这些分区中包含的所有连接列的值;该谓词对于真实的谓词来说是个必要条件,由于它仅使用连接列,它可以被用于连接表上;上述过程都发生在查询优化时,这样可以有效的将每一个连接表都替换为该连接表数据的分区子集,从而随着输入数据大小的改变,导致执行计划的改变,形成更有效率的执行计划;同时诱导谓词也会被添加到查询计划中,从而进一步实现数据跳过,并为抽样器参数优化部分中的深度学习模型提供数据诱导谓词的特征;所述抽样器参数优化,是通过深度学习模型来拟合数据的底层分布,并结合用户查询的特征,在用户给定的查询误差要求下预测查询计划中抽样器的抽样率的取值;在模型的训练过程中,依照底层数据的特征随机生成查询并计算准确结果;然后在查询中插入抽样器来生成大量的候选查询计划,并计算这些计划的近似查询结果与准确结果的相对误差;最后将查询计划和相对误差作为训练数据,使用回归模型拟合抽样率和相对误差的关系;当用户输入查询q后,在数据诱导谓词部分中得到的查询计划中插入抽样器并进行下推,获得一系列的含诱导谓词的候选查询计划,并将其和用户的查询误差要求β输入到深度学习模型中,为其中的抽样器预测抽样率,以此来在查询优化过程中减少局部与全局数据分布不一致时的影响。

全文数据:

权利要求:

百度查询: 复旦大学 基于机器学习的近似查询优化系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。