大数据的核心是处理大量的数据,然后分析,挖掘。大数据火的本质原因是互联网的兴起带动大量用户使用,由此产生大量数据,这么多数据是以前的单台机器无法在规定时间内处理完的,由此产生了需要用多台电脑一起计算的思想。 因此在计算机软件领域就产生了一系列的大数据技术,比如Hadoop,hdfs,storm,Spark等等。至于为什么会产生这么多技术,关键的问题是一是用户的大量使用,二是硬件的发展赶不上软件的发展。 关于此话题,我们从5个主题方向展开研究和讨论: Spinach:基于Spark SQL在生产环境中实现即席查询 When TiDB meets Kubernetes 甲骨文大数据云服务 基于私有云的大数据运维实践 The Best Practices for Moving Oracle Database to the Cloud 关于以上诸多问题的疑惑,在5月1113日举行的DTCC2017第八届中国数据库技术大会上,我们特邀了Intel、甲骨文、PingCAP、飞谷云等的5位高级技术专家,特设【专场9:大数据云服务】从生产环境、云调度、云方案部署、数据运维等几个角度展开分享,就以上五个问题展开分享。 5月12日下午13:30,5位云部署方面的高级技术专家,给你带来全新的「专场9:大数据云服务」: 专场9:大数据云服务 5月12日 下午13:30-18:00
Spinach:基于Spark SQL在生产环境中实现即席查询 5月12日下午13:30-14:20 演讲简介: 随着Spark的广泛应用,在数据仓库中用Spark SQL进行批量查询已经较为常见。尽管Spark SQL已经能支持对丰富的数据源进行高效的数据处理,但对于秒级的查询需求,Spark SQL还有不足之处,而很多企业对此也有很大需求。我们基于Spark SQL开发的项目Spinach,正是为了满足秒级甚至更高要求的即席查询需求。 具体来说,Spinach以Fiber为基本单位提供了一套细粒度的分层缓存机制,将数据缓存在堆外内存中,可以有效加速数据的加载。同时,Spinach拓展了Spark SQL的DDL,允许用户自定义索引,目前支持B 树索引和布隆过滤器,可以让用户根据数据特点定义高效的索引,进一步减少IO操作,提升查询效率。Spinach运行时与Spark SQL共享同一个进程,不会引入额外的维护成本。 2016年,Intel与百度合作的Spinach平台首个版本在百度内部开放使用,帮助多个核心产品团队从过去低效的批量作业查询方式升级至即席查询模式。在百度的凤巢广告系统中,数据工程师基于每日数T的点击、展现日志进行广告效果分析,Spinach将查询性能提升至原生Spark SQL的5倍,尤其在复杂查询及大数据量分析的场景下将平均延迟从分钟级降低至秒级,同时仅增加3%的索引数据消耗。
When TiDB meets Kubernetes 5月12日下午14:20-15:10 演讲简介: TiDB 是一个开源的分布式关系型数据库,Kubernetes 是 Google 开源的分布式集群调度器,集群调度器也是未来云的核心基础组件之一,但是一直以来,现有的集群调度方案对于带状态的服务,例如数据库这样的系统的支持略显单薄。分布式数据库作为另一个云的基础组件,如何与调度器结合,包括平滑的容灾,无痛的滚动更新等是一个很前沿的话题,本次 Talk 我会介绍一下在 TiDB 这边做的一些与 Kubernetes 整合的开创性的工作和经验分享。
甲骨文大数据云服务 5月12日下午15:10-16:00 演讲简介: 甲骨文作为业界领先的云计算提供商,提供公有云、私有云和混合云的解决方案。本演讲介绍在公有云方面,甲骨文提供的完整的、基于多种技术组合的大数据解决方案,包括实时的数据采集,快速的整理和计算,精确化的呈现,一个从数据到智慧的全过程,带来了哪些信息技术的革命,以及在制造、能源、交通、电信、政府、金融等各个行业如何发挥着重要作用。
|
|
声明:文章版权归原作者所有 部分文章转自互联网 如有侵权请联系
[邮箱地址] 删除
|