Tag - hadoop

hive hbase nginx linux hadoop    2016-03-01 11:46:18    103    0    0

目录

Nginx的相关配置,以及测试数据

Hadoop中创建使用目录

Hive的日志表创建,并同步到Hbase中

0.1 创建自增长ID的类,并添加到Hive环境中

0.2 在Hive中创建日志表

0.3 将Nginx的日志数据导入到Hive日志表中

a) 方法一:将本地目录中的文件导入到Hive中

b) 方法二:从HDFS导入数据,我们先将表删除,重新创建一次,然后尝试从HDFS导入数据

c) 方法三:通过如Flume、Kafka一类的工具监控日志数据,自动导入

0.4在Hive中创建Hbase可以识别的表

0.5 将Hive的日志表,使用自增长Id做为rowkey导入到Hbase可识别的表中

0.6 到Hbase中验证效果使用get、scan、filter获取指定数据

FAQ

扩展阅读

大数据 hadoop hbase Flume 日志收集    2016-02-29 18:46:33    361    0    0

  flume 作为 cloudera 开发的实时日志收集系统,受到了业界的认可与广泛应用。Flume 初始的发行版本目前被统称为 Flume OG(original generation),属于 cloudera。但随着 FLume 功能的扩展,Flume OG 代码工程臃肿、核心组件设计不合理、核心配置不标准等缺点暴露出来,尤其是在 Flume OG 的最后一个发行版本 0.94.0 中,日志传输不稳定的现象尤为严重,为了解决这些问题,2011 年 10 月 22 号,cloudera 完成了 Flume-728,对 Flume 进行了里程碑式的改动:重构核心组件、核心配置以及代码架构,重构后的版本统称为 Flume NG(next generation);改动的另一原因是将 Flume 纳入 apache 旗下,cloudera Flume 改名为 Apache Flume

ubuntu ubuntu12.04 hadoop zookeeper hbase hive 基础知识    2016-02-29 15:57:35    369    0    0

  hadoop2.2.0的介绍以及特性,参考这里:http://blog.yidooo.net/archives/hadoop-2-2-0-new-features.html

  zookeeper的介绍,参考这里:http://baike.baidu.com/view/3061646.htm

  hbase的介绍,参考这里:http://baike.baidu.com/view/1993870.htm

  hive0.13的介绍以及特性,参考这里:http://www.csdn.net/article/2014-04-22/2819438-Cloud-Hive