Currently browsing tag

数据统计

Scala 数据统计之 Hello World

最近要做一个报表,可是其中有一项 CDN 相关的数据就是不对,差了好几个数量级。于是我从最原始的数据源头开始分析。下面的几行是我们的数据的样本,我们需要统计其中数字部分的总和。
需求有了,那我们应该用什么工具来进行统计呢? 我们有各种的脚本语言可以帮我们完成这个统计任务,甚至我们还可以写 Java 程序来统计。在这篇文章中,我想演示的是如何用 Scala 完成任务。Scala 丰富的 Collection 的类型,及其相应的一些方法,使得 Scala 非常的适合于这类型的数据统计的任务。

下面便是我们要统计的数据的一个片段,每一行都类似于 JSON 的一个 Object,Key 是 CDN 的名称,Value 是对应的 CDN 下载的流量(当然了,这里的 CDN 名称是做过处理的啦~)。我们统计所有的 Value 的总和。这里我用正则表达式的方式去获取 Value。对于每个匹配:(\d+)的 Match,我们取其的 group(1),再toLong就可以得到 CDN 的下载量。
阅读全文 “Scala 数据统计之 Hello World” »