44118太阳成城集团(中国)有限公司 - 搜狗百科

学院新闻

珞珈图腾实验室在数据库A类会议ICDE2022上发表学术论文

发布时间:2021-12-21     浏览量:

近日,数据库领域A类会议IEEE International Conferences on Data Engineering(ICDE 2022)录用彭智勇教授研究组一篇论文,题目是“A Resource-Aware Deep Cost Model for Big Data Query Processing”。博士生李岩是第一作者,该论文是在王黎维、王胜、彭智勇三位老师共同指导下完成的。

论文重点研究大数据处理引擎的查询优化问题。大数据处理引擎Spark SQL的执行计划和资源分配对查询处理的效率影响很大。关系数据库的代价模型的研究较为成熟,但它们并不适用于Spark SQL。首先,在关系数据库中,总是假定修改后的基数会自动更正代价估计,而代价模型并不像基数估计那么重要。然而,对于大数据处理引擎来说,即使伴随实时基数,代价模型的误差仍然很大。此外,现有的代价模型考虑在固定的资源集上运行查询,而Spark SQL运行在多个应用共享资源的云计算环境中。此外,现有的Spark SQL的代价模型仍然是基于手工制定的规则,无法捕捉资源对查询计划性能影响的复杂模式。因此,需要设计一个自动的、可学习的代价模型,以获得实时资源和查询执行计划的最佳组合。与传统的代价模型相比,可学习的代价模型可以很容易地定期更新并适应不同的集群。

为了解决上述问题,本文详细分析了Spark SQL中资源对查询执行计划代价的影响并提出了一个资源感知深度学习模型RAAL(如下图所示),该模型可以基于历史数据自动预测查询计划的执行时间。本文基于查询计划树嵌入查询执行计划,并从分配的资源中提取特征。然后训练具有自适应注意机制的深度学习模型来预测查询计划的执行时间。实验表明,与传统的基于规则的优化方法和基于关系数据库学习的优化方法相比,本文的深度代价模型在预测查询计划执行时间方面具有更高的准确性。更多细节大家可以进一步阅读原文。

image.png

IEEE International Conferences on Data Engineering(ICDE 2022)是数据库方向的三大顶级会议之一,该文的发表是学院在数据库领域方向的重大研究成果。