首页 ›存档› 技术 › 查看内容

SQL优化:基于代价的优化方法的介绍与使用（上）

2018-3-30 13:00 |来自: 互联网 303 0

摘要: CBO概述 CBO 全称是Cost Based Optimization（基于代价的优化方式），是针对SQL执行计划进行优化的重要工具。CBO最初由开源Hive在0.14版本基于Apache Calcite项目引入，星环以此为基础对开源Hive CBO进行了功能增强 ...

CBO概述

CBO 全称是Cost Based Optimization（基于代价的优化方式），是针对SQL执行计划进行优化的重要工具。CBO最初由开源Hive在0.14版本基于Apache Calcite项目引入，星环以此为基础对开源Hive CBO进行了功能增强和扩展，在Inceptor中实现了Inceptor CBO，进一步提升SQL兼容性和执行性能。

与Hive中原有的主要基于RBO（Rule Based Optimization）的优化器相比，Inceptor CBO优化框架通过Join Reordering、Bush Join Tree Generation等优化手段，对经过特殊转换后的执行计划进行了等价关系代数变换，对可能的等价执行计划，估算出量化的计划代价，最终选择出代价最小的作为最终的执行计划。

举例来说，对于table_A、table_B、table_C三张表的内关联，若提供如下两种执行顺序：1.table_A INNER JOIN table_B INNER JOIN table_C”；2.table_A INNER JOIN table_C INNER JOIN table_B，如果前者的代价是1000，后者的代价是500，那么优化器会选择后者为最终执行计划。

进行实际生产时，如不采用CBO，SQL的优化通常依靠人工重写语句。CBO优化器的优点体现在当面临大型数仓业务部署时，若采用原始手工方式修改海量业务层的SQL，代价将十分高昂，而CBO优化器则能够自动对执行计划进行评估和优化，不需要手动干预业务逻辑，比如更改JOIN顺序、加MapJoin Hint等，就可以在提供最优性能的同时，实现SQL业务的迁移并节省大量的部署时间。

Inceptor CBO目前最常用于多表JOIN案例的执行计划优化，可支持ORC和MEM表，支持数据分区分桶，可应对广泛的业务场景。我们将通过两篇系列文章分别介绍CBO优化器的使用方法和应用案例。本文将介绍CBO的使用方法和优化性能。