作者:DharmeshThakker、Max Schireson和Dan Nguyen-Huu 来源:TechCrunch、云头条编译 当今许多最热门的新型企业技术都紧紧围绕“开源”技术。因此,从金融巨头、零售商到服务公司,许多大公司围绕新的、基于社区的技术来开展业务,这种新技术与昔日的IT实践相比已发生了很大的变化。 但是企业客户和投资者如何评估所有这些新的开源产品?他们如何知道哪些项目(常常有着奇怪的名字:Ansible、Vagrant和Gradle等)受到客户的最大追捧?哪些项目在软件开发人员当中拥有最多的支持者、最有潜力夺取市场份额? 这些问题之所以特别难以回答,就是由于大多数开源公司仍然是私有公司,没必要披露用户和财务方面的关键度量指标。(不过这种情形在发生变化——开源巨头Cloudera最近宣布计划上市,加大了市场关注开源技术的力度。) 这就是为什么我们TechCrunch编制了一份新的、详细的索引,跟踪了解流行的开源软件项目,并且深入探讨这些技术支持的新公司。这份索引名为Battery开源软件索引(BOSS Index),我们花了几个月的时间来整理公开的信息,并在此公布。我们希望每个季度更新一次——随着使用其中一些项目的更多开源公司发展壮大、上市,这份指数应该会显得更重要。 该索引包含40个开源项目,这是初步筛选GitHub源代码库网站上列出的项目后得出的,另外参照了同样跟踪分析开源项目的企业IT刊物《Datamation》。下面列出了前25个项目,完整列表可以在我们的网站上找到。 我们侧重于与企业IT有关的方面(比如IT运营)的项目,其中包括:支持系统运营和配置的技术;数据和分析,包括面向人工智能、机器学习工具以及数据库的工具;以及开发运维(DevOps),包括专注于“容器”这个热门新趋势的项目,容器则可以帮助人们在一种独立的环境中迅速开发软件。
公司按照四个因素来排名。项目总评分是指四个单项评分中两个的几何平均数,这四个单项评分体现了在线讨论活动、搜索活动、工作影响和GitHub活动。所有数据截至2017年2月9日。 榜单上有一些大名鼎鼎的名字,包括孕育了几家大公司的项目。它们包括Linux、MySQL和Hadoop;Linux可谓是Red Hat的基础;MySQL是同名公司的生命线,早在2008年被SunMicrosystems(现隶属Oracle)斥资10亿美元收购;Hadoop则为我们带来了Cloudera和Hortonworks。 但是像Selenium这样不大知名的项目同样排名很高,这表明了草根创新在开源行业很活跃——外头还有许多新的项目在培育颇有价值的公司。不过我们的研究还发现,你的开源项目拥有大量用户,并不自然而然意味着就能打造一家商业上可行的公司。 我们根据四个因素对这些项目进行了排名,这些因素包括:
由于一些项目在某些标准方面的表现可能极好或极差,可能某个项目拥有出类拔萃的谷歌搜索数字,但是工作岗位分数在平均标准以下,于是我们舍弃了每个项目的最高和最低的单项标准评分。这是一种称为“截尾均值”(trimmed mean)的方法,它类似奥林匹克体操比赛项目的评分,工作人员舍弃每个评委给某个运动员打的最高分和最低分,对剩余的分数求平均值。 即便如此,总是还有改进的余地。采用和人气方面的一些标准(比如下载度量指标)显然有点难以测量;当然我们并没有列出所有最热门的新兴工具。虽然我们计划每季度更新一次,但我们应该能够跟踪了解新出现的领导者。所以,我们希望得到社区的反馈,以便不断改进数据的准确性,从而改进索引。如果你对任何这些度量指标有进一步的看法,可以随时联系我们:[email protected]。 下面是我们研究得到的另外一些主要结果。 Linux、Git和MySQL一路领跑 也许不足为奇的是,领跑我们这份索引的开源项目是Linux,这是1991年首次发布的技术,也是如今世界上采用最广泛的开源项目之一。它由许多公司实现了商业化,其中包括Red Hat以及Ubuntu和SUSE,而RedHat是少数几家公开交易的开源公司之一。 你的开源项目拥有大量用户,并不自然而然意味着就能打造一家商业上可行的公司。 Git在名单上排在第2位,它催生了GitHub和GitLab。这个大受欢迎的开源项目充当“版本控制系统”,用于跟踪代码变更、在软件开发人员之间协调工作。 同样名次靠前的是MySQL(排在第3位),这是早在1995年开发出来的数据库技术。MySQL目前帮助运行超大的大规模(Web-scale)公司,比如谷歌、Facebook和Twitter。但另外值得一提的是,几种“NoSQL”数据库技术同样排名很高——这些是非关系型数据库技术,不像MySQL,它们常常更适合解析如今许多公司生成的非结构化数据。 这些NoSQL技术包括:MongoDB在我们的索引中排在第9位;Redis由Redis Labs这家公司实现了商业化,排名第12位;Cassandra,排名第25位,是数据库公司DataStax的基础;以及Elasticsearch,排名第7位,它由Elastic实现了商业化。 MongoDB在2015年年底完成了新一轮的融资活动——如今该公司的市值估计约15亿美元,正在与Oracle、IBM和微软等老牌的数据库厂商一较高下。总的来说,这些NoSQL厂商中有几家在独自发展(在一些情况下势头相当猛),而不是融合成一个巨大的生态系统。这恰恰表明了更广泛的数据基础设施领域出现了进一步的“碎片化”,可能促使几家强大的NoSQL厂商出现,它们有望是将来的上市公司。 大数据为开源推波助澜 如今许多系统在生成这些数据,从安全软件、推特消息,到能够联网的传感器,不一而足,许多企业组织难以管理这些大量的结构化数据和非结构化数据,因此它们日益寻求新的数据管理和存储解决方案。这个趋势在我们的索引中有所体现,因为40个项目中十几个(15个)是驱动数据库和数据处理的开源技术。 之前提到的Hadoop就是这样一种技术。不过,Databricks等公司实现商业化的Spark是另一项技术,它在我们的名单中排在第8位。 需要了解的其他项目 Docker在我们的索引中排在第5位,它是容器技术领域的宠儿,可帮助提升软件开发的速度和效率。许多人认为Docker可能会取代上市的VMware这个巨头提供的技术;通过开源社区就很容易访问及使用Docker,而且成本低廉,这个优点提高了Docker的采用率。 Docker还在与谷歌的Kubernetes(排名第33位)和Mesos等开源平台技术相竞争,争向控制软件开发中的“编排”层,它们都能够跨不同的软件环境管理容器。 这些开源项目不是上一辈人所熟悉的Sun或Oracle。 开源社区的另一个热门领域是“持续集成和持续交付”,即能够使用与其他平台持续、无缝地集成的代码,编写软件。这个领域的一些工具包括得到CloudBees商业支持的Jenkins(排名第14位)和TravisCI。相关的开发运维(DevOps)领域则有诸如此类的技术:Maven(排名第30位),以及快速发展的Artifactory二进制代码库,这种软件工具旨在优化二进制文件的下载和存储,这是JFrog实现商业化的平台。 让它下雨 但正如我们前面提到的那样,尽管拥有大量用户对于最终在商业界受到追捧而言极其重要,但是这并不能保证开源项目就会大有生意为做。这需要付出大量的辛勤工作,需要极具创造力,尤其是要做好这些方面的工作:制定新型的商业模式,充分利用复杂的开源许可证,并且调整传统的企业销售实践,以适应开源产品。 此外,我们发现,如果充分利用开源的IT公司提供在某种“堆栈”(stack)中可以结合使用的几种开源技术,那么它们取得商业成功的机会有时会增加。比如说,Elastic就有“ELK”堆栈,包括Elasticsearch(排名第7位)、Kibana(排名第36位)和Logstash(排名第29位)这三个开源项目。 时间序列数据库公司InfluxData同样销售“TICK”堆栈的版本,TICK则代表Telegraf、InfluxDB、Chronograf和Kapacitor。在最后一个例子中,开发运维公司HashiCorp已使许多开源项目实现了商业化,包括两个榜上有名的项目:Vagrant(排名第15位)和Vault(排名第40位)。软件开发人员希望能够从这些堆栈中挑选自己喜欢的部分,遵循如今软件开发界盛行的“单项最佳”(best of breed)产品这一理念。 这些开源项目不是上一辈人所熟悉的Sun或Oracle。不过显而易见,大型跨国公司的CIO们现在依赖开源技术来运行其基础设施的关键部分,包括本文索引中着重介绍的许多技术,其中许多项目会长期存在。的确,在我们于去年举办的一场开源峰会上,来自高盛和第一资本(Capital One)等大公司的IT高管们探讨了他们在部署新的软件和基础设施时,奉行“开源优先”的理念。随着更多基于开源的公司在未来几年上市,我们会获得更多的信息,了解这些顶级项目表现如何,我们会继续跟踪它们的进展以及对行业的影响力。 相关阅读: | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||