基于流的SQL引擎:StreamSQL（基础介绍）

2018-3-30 13:00 |来自: 互联网 1357 0

摘要: Inceptor StreamSQL简介一些流处理平台（比如Spark Streaming，Storm）通常要求用户在创建流处理应用时必须用Java或者Scala进行开发，包括早期的TDH（4.3之前）也是如此。这要求业务人员只有对框架以及流处理本身， ...

Inceptor StreamSQL简介

一些流处理平台（比如Spark Streaming，Storm）通常要求用户在创建流处理应用时必须用Java或者Scala进行开发，包括早期的TDH（4.3之前）也是如此。这要求业务人员只有对框架以及流处理本身，甚至是底层技术足够熟悉，才能写出高效的流处理程序。大大地限制了流处理的推广和应用，架高了流处理应用的开发门槛，对于数据科学家和数据分析者而言增加了操作难度，导致无法将精力完全投入在业务分析上。

为降低流应用开发的入门要求，星环从TDH 4.3开始，在Transwarp Stream中引入全新的StreamSQL，允许用户通过SQL实现业务逻辑。StreamSQL几乎可以应对所有类型的业务场景，包括ETL工具，规则报警工具等简单业务场景。为了实现更复杂的业务逻辑，它还对PL/SQL作为高级功能提供了优美的支持。从4.8开始，StreamSQL又新增了基于事件驱动模式的流处理功能，在低延迟处理方面的性能表现更为出色。

关于StreamSQL的几个重要概念

StreamSQL有三个核心概念：Stream、StreamJob 和 Application。概括地说，Stream是数据流，StreamJob是对一个或多个Stream进行计算并将结果写进一张表的任务，Application是一个或多个StreamJob的集合。

Stream

Stream分为两种：Input Stream和Derived Stream。直接用于接收数据源传来的数据称为Input Stream；对已有Stream进行变形得到的新的Stream称为Derived Stream。
StreamJob

StreamSQL中的Stream是静态的它们仅仅描述了如何对数据源传来的数据进行接收和变形的计划，但并不执行这些计划。要让StreamSQL执行计划，需要有相应的Action操作来触发StreamJob。启动一个StreamJob时，StreamSQL会为每一个Input Stream启动一组称为 receiver的任务来接收数据，接收的数据经过一系列Derived Stream的变形最终被插入一张表，供用户查询。
Application

Application是一组业务逻辑相关的StreamJob的集合。合理地使用Application划分StreamJob可以实现资源的共享和隔离。之后我们会有文章对Application的隔离能力进行专门介绍。