首页 存档 技术 查看内容

大数据鄙夷链

2018-3-30 13:00 |来自: 互联网 394 0

摘要: 前些天我和朋友交流,朋友问你们 zoomeye.org 数据多大,我说 1T 差不多。朋友说那么少?我说提炼后的,你懂:) 恩,明白明白... 有个非常有趣的现象是,现在很多人玩大数据,如果数据量不到 1PB(=1024*1TB) 都不好意 ...

前些天我和朋友交流,朋友问你们 zoomeye.org 数据多大,我说 1T 差不多。朋友说那么少?我说提炼后的,你懂:) 恩,明白明白...

有个非常有趣的现象是,现在很多人玩大数据,如果数据量不到 1PB(=1024*1TB) 都不好意思出来打招呼。另外一位朋友不屑笑道:「那哪是什么大数据,那是数据大!」是呀,其实很多人搞错了一点,把大数据当成了目的,存呀存,越大越好。其实大数据只是我们的手段,利用好大数据能力提炼出我们需要的情报,足矣。

没有完美的架构,只有最适合的架构。

当我们玩大数据时,有的人一上来就大刀阔斧,这个过程中很容易诞生鄙夷链。比如吧,玩 NoSQL 的鄙夷玩 SQL 关系型数据库的;玩分布式架构的鄙夷玩单机的;玩数据库统计的鄙夷玩 awk 的;玩 Kibana 的鄙夷玩 Excel 的;玩各种分类聚类算法的鄙夷简单逻辑操作的。

很多时候杀鸡焉用牛刀?

我是功能主义者,我没有程序世界里的宗派之分,管你采用什么方式,搞定我的功能就是好方式,并且这种搞定方式还利于进化。好的架构是进化出来的,是因地制宜的。没有谁是预言家,可惜的是很多人是马后炮。

还可惜的是很多人过于宗教,比如写程序非得严格 PEP8,搞个事非得符合固化的敏捷,如果核心代码不是自己亲手一行行诞生出来的就会觉得丢人,如果不用一些酷炫吊炸天的架构组件就不好意思说自己是有上进心的程序员。如果你反驳这类人,他们会拿出他们的「圣经」告诉你为什么必须这样。其实很多时候我们不是在反驳,而是希望功能尽快出来、吸收反馈、快速迭代。

这种鄙夷链何止存在于大数据领域?

当我们在玩大数据时,我们应该明确我们需要从其中得到什么。这种结果导向可以指导我们上什么样的架构,用什么样的技术。如果 awk 就能轻易搞定一个千万数据的分析那为什么还需要扔进数据库里?如果 Excel 就能输出客户需要的情报解读,为什么非得折腾 Kibana?

说到这,你能明白我的意思了吧?玩大数据,不在于数据大,也不在于运用了多么酷炫吊炸天的架构组件。技多不压身,但让我们切记,好的架构是进化出来的,是因地制宜的。

我们需要明白我们到底要从这个大数据里得到什么!

本文转载自:微信公众账号 - 懒人在思考,版权归原作者所有!

声明:文章版权归原作者所有 部分文章转自互联网 如有侵权请联系 [邮箱地址] 删除

路过

雷人

握手

鲜花

鸡蛋

相关分类

返回顶部