首页 存档 技术 查看内容

跟踪呈爆炸式发展的开源软件行业

2018-3-30 13:00 |来自: 互联网 349 0

摘要: 作者:DharmeshThakker、Max Schireson和Dan Nguyen-Huu 来源:TechCrunch、云头条编译 当今许多最热门的新型企业技术都紧紧围绕“开源”技术。因此,从金融巨头、零售商到服务公司,许多大公司围绕新的、基于社区 ...

作者:DharmeshThakker、Max Schireson和Dan Nguyen-Huu

来源:TechCrunch、云头条编译


当今许多最热门的新型企业技术都紧紧围绕“开源”技术。因此,从金融巨头、零售商到服务公司,许多大公司围绕新的、基于社区的技术来开展业务,这种新技术与昔日的IT实践相比已发生了很大的变化。


但是企业客户和投资者如何评估所有这些新的开源产品?他们如何知道哪些项目(常常有着奇怪的名字:Ansible、Vagrant和Gradle等)受到客户的最大追捧?哪些项目在软件开发人员当中拥有最多的支持者、最有潜力夺取市场份额?


这些问题之所以特别难以回答,就是由于大多数开源公司仍然是私有公司,没必要披露用户和财务方面的关键度量指标。(不过这种情形在发生变化——开源巨头Cloudera最近宣布计划上市,加大了市场关注开源技术的力度。)


这就是为什么我们TechCrunch编制了一份新的、详细的索引,跟踪了解流行的开源软件项目,并且深入探讨这些技术支持的新公司。这份索引名为Battery开源软件索引(BOSS Index),我们花了几个月的时间来整理公开的信息,并在此公布。我们希望每个季度更新一次——随着使用其中一些项目的更多开源公司发展壮大、上市,这份指数应该会显得更重要。


该索引包含40个开源项目,这是初步筛选GitHub源代码库网站上列出的项目后得出的,另外参照了同样跟踪分析开源项目的企业IT刊物《Datamation》。下面列出了前25个项目,完整列表可以在我们的网站上找到。


我们侧重于与企业IT有关的方面(比如IT运营)的项目,其中包括:支持系统运营和配置的技术;数据和分析,包括面向人工智能、机器学习工具以及数据库的工具;以及开发运维(DevOps),包括专注于“容器”这个热门新趋势的项目,容器则可以帮助人们在一种独立的环境中迅速开发软件。


Battery开源软件索引

排名

项目名称

项目总评分

类别

相关公司代表

1

Linux

100.00

IT运营

Red Hat和Ubuntu

2

Git

31.10

DevOps

GitHub和GitLab

3

MySQL

25.23

数据及分析

Oracle

4

Node.js

22.75

DevOps

NodeSource和Rising Stack

5

Docker

22.61

DevOps

Docker

6

Hadoop

16.19

数据及分析

Cloudera和Hortonworks

7

Elasticsearch

15.72

数据及分析

Elastic

8

Spark

14.99

数据及分析

Databricks

9

MongoDB

14.68

数据及分析

MongoDB

10

Selenium

12.81

DevOps

Sauce Labs和BrowserStack

11

NPM

12.31

DevOps

NPM

12

Redis

11.61

数据及分析

Redis Labs

13

Tomcat

11.04

IT运营

NA

14

Jenkins

10.47

DevOps

CloudBees

15

Vagrant

8.15

IT运营

HashiCorp

16

Postgres

8.02

数据及分析

EnterpriseDB

17

Gradle

7.68

DevOps

Gradle

18

Nginx

7.57

IT运营

Nginx

19

Ansible

7.42

IT运营

Ansible

20

Kafka

7.22

数据及分析

Confluent

21

GitLab

6.42

DevOps

GitLab

22

Hbase

6.41

数据及分析

Cloudera和Hortonworks

23

Chef

6.37

IT运营

Chef

24

TensorFlow

5.97

数据及分析

谷歌

25

Cassandra

5.74

数据及分析

DataStax


公司按照四个因素来排名。项目总评分是指四个单项评分中两个的几何平均数,这四个单项评分体现了在线讨论活动、搜索活动、工作影响和GitHub活动。所有数据截至2017年2月9日。


榜单上有一些大名鼎鼎的名字,包括孕育了几家大公司的项目。它们包括Linux、MySQL和Hadoop;Linux可谓是Red Hat的基础;MySQL是同名公司的生命线,早在2008年被SunMicrosystems(现隶属Oracle)斥资10亿美元收购;Hadoop则为我们带来了Cloudera和Hortonworks。


但是像Selenium这样不大知名的项目同样排名很高,这表明了草根创新在开源行业很活跃——外头还有许多新的项目在培育颇有价值的公司。不过我们的研究还发现,你的开源项目拥有大量用户,并不自然而然意味着就能打造一家商业上可行的公司。


我们根据四个因素对这些项目进行了排名,这些因素包括:


  • 公众对该项目具有的兴趣,按照谷歌搜索活动来衡量;

  • 用户活动,按照该项目在热门技术讨论网站Stack Overflow上的提及率进行评估;

  • 工作影响,按照提及招聘网站Indeed和Simply Hired上所列的每个开源项目的工作岗位数量来衡量;以及

  • 在开源社区具有的影响力,通过评估项目在GitHub上的影响力来跟踪。具体来说,我们跟踪了基于每个项目的“分支”或扩展的数量、某家公司得到的GitHub“星标”(star)数量(这表明其人气指数);以及另一个人气指数“watch”的数量,所有数据截至2017年2月9日。


由于一些项目在某些标准方面的表现可能极好或极差,可能某个项目拥有出类拔萃的谷歌搜索数字,但是工作岗位分数在平均标准以下,于是我们舍弃了每个项目的最高和最低的单项标准评分。这是一种称为“截尾均值”(trimmed mean)的方法,它类似奥林匹克体操比赛项目的评分,工作人员舍弃每个评委给某个运动员打的最高分和最低分,对剩余的分数求平均值。


即便如此,总是还有改进的余地。采用和人气方面的一些标准(比如下载度量指标)显然有点难以测量;当然我们并没有列出所有最热门的新兴工具。虽然我们计划每季度更新一次,但我们应该能够跟踪了解新出现的领导者。所以,我们希望得到社区的反馈,以便不断改进数据的准确性,从而改进索引。如果你对任何这些度量指标有进一步的看法,可以随时联系我们:[email protected]


下面是我们研究得到的另外一些主要结果。


Linux、Git和MySQL一路领跑


也许不足为奇的是,领跑我们这份索引的开源项目是Linux,这是1991年首次发布的技术,也是如今世界上采用最广泛的开源项目之一。它由许多公司实现了商业化,其中包括Red Hat以及Ubuntu和SUSE,而RedHat是少数几家公开交易的开源公司之一。


你的开源项目拥有大量用户,并不自然而然意味着就能打造一家商业上可行的公司。


Git在名单上排在第2位,它催生了GitHub和GitLab。这个大受欢迎的开源项目充当“版本控制系统”,用于跟踪代码变更、在软件开发人员之间协调工作。


同样名次靠前的是MySQL(排在第3位),这是早在1995年开发出来的数据库技术。MySQL目前帮助运行超大的大规模(Web-scale)公司,比如谷歌、Facebook和Twitter。但另外值得一提的是,几种“NoSQL”数据库技术同样排名很高——这些是非关系型数据库技术,不像MySQL,它们常常更适合解析如今许多公司生成的非结构化数据。


这些NoSQL技术包括:MongoDB在我们的索引中排在第9位;Redis由Redis Labs这家公司实现了商业化,排名第12位;Cassandra,排名第25位,是数据库公司DataStax的基础;以及Elasticsearch,排名第7位,它由Elastic实现了商业化。


MongoDB在2015年年底完成了新一轮的融资活动——如今该公司的市值估计约15亿美元,正在与Oracle、IBM和微软等老牌的数据库厂商一较高下。总的来说,这些NoSQL厂商中有几家在独自发展(在一些情况下势头相当猛),而不是融合成一个巨大的生态系统。这恰恰表明了更广泛的数据基础设施领域出现了进一步的“碎片化”,可能促使几家强大的NoSQL厂商出现,它们有望是将来的上市公司。


大数据为开源推波助澜


如今许多系统在生成这些数据,从安全软件、推特消息,到能够联网的传感器,不一而足,许多企业组织难以管理这些大量的结构化数据和非结构化数据,因此它们日益寻求新的数据管理和存储解决方案。这个趋势在我们的索引中有所体现,因为40个项目中十几个(15个)是驱动数据库和数据处理的开源技术。


之前提到的Hadoop就是这样一种技术。不过,Databricks等公司实现商业化的Spark是另一项技术,它在我们的名单中排在第8位。



需要了解的其他项目


Docker在我们的索引中排在第5位,它是容器技术领域的宠儿,可帮助提升软件开发的速度和效率。许多人认为Docker可能会取代上市的VMware这个巨头提供的技术;通过开源社区就很容易访问及使用Docker,而且成本低廉,这个优点提高了Docker的采用率。


Docker还在与谷歌的Kubernetes(排名第33位)和Mesos等开源平台技术相竞争,争向控制软件开发中的“编排”层,它们都能够跨不同的软件环境管理容器。


这些开源项目不是上一辈人所熟悉的Sun或Oracle。


开源社区的另一个热门领域是“持续集成和持续交付”,即能够使用与其他平台持续、无缝地集成的代码,编写软件。这个领域的一些工具包括得到CloudBees商业支持的Jenkins(排名第14位)和TravisCI。相关的开发运维(DevOps)领域则有诸如此类的技术:Maven(排名第30位),以及快速发展的Artifactory二进制代码库,这种软件工具旨在优化二进制文件的下载和存储,这是JFrog实现商业化的平台。


让它下雨


但正如我们前面提到的那样,尽管拥有大量用户对于最终在商业界受到追捧而言极其重要,但是这并不能保证开源项目就会大有生意为做。这需要付出大量的辛勤工作,需要极具创造力,尤其是要做好这些方面的工作:制定新型的商业模式,充分利用复杂的开源许可证,并且调整传统的企业销售实践,以适应开源产品。


此外,我们发现,如果充分利用开源的IT公司提供在某种“堆栈”(stack)中可以结合使用的几种开源技术,那么它们取得商业成功的机会有时会增加。比如说,Elastic就有“ELK”堆栈,包括Elasticsearch(排名第7位)、Kibana(排名第36位)和Logstash(排名第29位)这三个开源项目。


时间序列数据库公司InfluxData同样销售“TICK”堆栈的版本,TICK则代表Telegraf、InfluxDB、Chronograf和Kapacitor。在最后一个例子中,开发运维公司HashiCorp已使许多开源项目实现了商业化,包括两个榜上有名的项目:Vagrant(排名第15位)和Vault(排名第40位)。软件开发人员希望能够从这些堆栈中挑选自己喜欢的部分,遵循如今软件开发界盛行的“单项最佳”(best of breed)产品这一理念。


这些开源项目不是上一辈人所熟悉的Sun或Oracle。不过显而易见,大型跨国公司的CIO们现在依赖开源技术来运行其基础设施的关键部分,包括本文索引中着重介绍的许多技术,其中许多项目会长期存在。的确,在我们于去年举办的一场开源峰会上,来自高盛和第一资本(Capital One)等大公司的IT高管们探讨了他们在部署新的软件和基础设施时,奉行“开源优先”的理念。随着更多基于开源的公司在未来几年上市,我们会获得更多的信息,了解这些顶级项目表现如何,我们会继续跟踪它们的进展以及对行业的影响力。


相关阅读:

声明:文章版权归原作者所有 部分文章转自互联网 如有侵权请联系 [邮箱地址] 删除


路过

雷人

握手

鲜花

鸡蛋

相关分类

返回顶部