读 coolshell 的“数据的游戏:冰与火”

今天无意中看到 coolshell 上一篇讲数据处理的一篇文章(原文:http://coolshell.cn/articles/10192.html)。
我作为一个才开始接触数据处理不久的人就说说我自己对这篇文章的看法吧。

目前所流行的Buzz Word——大数据是相当误导人的。在我眼中,数据不分大小,只分好坏。
coolshell

这是里面的一句话,coolshell 非常偏激的认为数据质量是最重要的。好吧,既然是偏激,那我以初学者的身份也说说我的偏激的看法:数据只有大小,没有好坏。

我们从不同的数据源收集数据。并不是每个数据源都会非常忠实的遵守同一个协议。于是我们收集到数据总是各式各样,不同的数据源有不同的差异。
数据源又是我们不可控的,它遵守协议的程度会和实现它的程序员有关,包括程序员的技术技术水平、以及双方对协议的理解是否有偏差。当然还有部分是历史原因。

既然我们无法控制数据源的质量,我们自然也不能要求数据源提供给我们的数据 100% 的格式化, 100% 的符合标准。如果一份数据 100% 的标准,那还要数据分析员干嘛?数据处理不就是从不规范、不标准的数据中提取有用的信息嘛?

可能我这么说是因为我已经被各种的脏数据虐的麻木了吧O(∩_∩)O~

所以,我觉得,数据分析的结果并不仅仅只是把数据呈现出来,而更应该关注的是通过这些数据后面可以干什么?如果看了数据分析的结果后并不知道可以干什么,那么这个数据分析是失败的。
coolshell

整篇文章,也就这么一句话是很认同的吧。总觉得现在的产品中都只是展示一些数据,而且这些数据都是我们可以通过其他途径预测出来,对于我们解决问题毫无帮助。现在我也正尝试着在一堆垃圾数据中发现有用的数据(something valuable)。尝试着去关注数据之间的因果关系,尝试着去解释数据之所以发生变化的原因

发表评论

电子邮件地址不会被公开。 必填项已用 * 标注