Currently browsing tag

数据分析

Hive TODO: query over time-based window

先给自己挖一个坑:给 Hive 增加一个能够在滑动的时间窗口上查询的功能。

类似于下面的语句:

select symbol, min(ticks.timestamp, news.timestamp) as minT
  from StockTickEvent.win:time(30 sec) as ticks, NewsEvent.win:time(30 sec) as news
  where ticks.symbol = news.symbol

静态数据上进行基于时间的滑动窗口查询(哎,这名字起的)

难点是

  • 进行基于时间的滑动窗口查询的前提是数据按时间排序的,而静态的数据是不保证这点的,必须先按某个字段对数据进行排序。
  • 完备的语义定义。
  • 理解 Hive 的 Antlr 语法。并增加相应的语法。
  • 编写 Map Reduce, 把查询转化成最优的 Hadoop job。

读 coolshell 的“数据的游戏:冰与火”

今天无意中看到 coolshell 上一篇讲数据处理的一篇文章(原文:http://coolshell.cn/articles/10192.html)。
我作为一个才开始接触数据处理不久的人就说说我自己对这篇文章的看法吧。

目前所流行的Buzz Word——大数据是相当误导人的。在我眼中,数据不分大小,只分好坏。
coolshell

这是里面的一句话,coolshell 非常偏激的认为数据质量是最重要的。好吧,既然是偏激,那我以初学者的身份也说说我的偏激的看法:数据只有大小,没有好坏。
阅读全文 “读 coolshell 的“数据的游戏:冰与火”” »