Tag - hbase

hive hbase nginx linux hadoop    2016-03-01 11:46:18    107    0    0

目录

Nginx的相关配置,以及测试数据

Hadoop中创建使用目录

Hive的日志表创建,并同步到Hbase中

0.1 创建自增长ID的类,并添加到Hive环境中

0.2 在Hive中创建日志表

0.3 将Nginx的日志数据导入到Hive日志表中

a) 方法一:将本地目录中的文件导入到Hive中

b) 方法二:从HDFS导入数据,我们先将表删除,重新创建一次,然后尝试从HDFS导入数据

c) 方法三:通过如Flume、Kafka一类的工具监控日志数据,自动导入

0.4在Hive中创建Hbase可以识别的表

0.5 将Hive的日志表,使用自增长Id做为rowkey导入到Hbase可识别的表中

0.6 到Hbase中验证效果使用get、scan、filter获取指定数据

FAQ

扩展阅读

大数据 hadoop hbase Flume 日志收集    2016-02-29 18:46:33    372    0    0

  flume 作为 cloudera 开发的实时日志收集系统,受到了业界的认可与广泛应用。Flume 初始的发行版本目前被统称为 Flume OG(original generation),属于 cloudera。但随着 FLume 功能的扩展,Flume OG 代码工程臃肿、核心组件设计不合理、核心配置不标准等缺点暴露出来,尤其是在 Flume OG 的最后一个发行版本 0.94.0 中,日志传输不稳定的现象尤为严重,为了解决这些问题,2011 年 10 月 22 号,cloudera 完成了 Flume-728,对 Flume 进行了里程碑式的改动:重构核心组件、核心配置以及代码架构,重构后的版本统称为 Flume NG(next generation);改动的另一原因是将 Flume 纳入 apache 旗下,cloudera Flume 改名为 Apache Flume

ubuntu ubuntu12.04 hadoop zookeeper hbase hive 基础知识    2016-02-29 15:57:35    388    0    0

  hadoop2.2.0的介绍以及特性,参考这里:http://blog.yidooo.net/archives/hadoop-2-2-0-new-features.html

  zookeeper的介绍,参考这里:http://baike.baidu.com/view/3061646.htm

  hbase的介绍,参考这里:http://baike.baidu.com/view/1993870.htm

  hive0.13的介绍以及特性,参考这里:http://www.csdn.net/article/2014-04-22/2819438-Cloud-Hive

hbase golang php thrift1 thrift2    2016-02-28 18:38:29    283    0    0

  从Hbase0.94.11开始有两套thrift接口(可以叫Thrift1和Thrift2),根据官方文档,Thrift1很可能被抛弃,但网上的文章基本是介绍Thrift1的,本文则兼容介绍Thrift1和Thrift2,目前在网上是比较详细的介绍Thrift2文章了。

  Thrift2相比较Thrift1做了简化和合成,但不提供查询所有Table、创建Table、删除Table的功能了。日常在工作中应该也很少会在Hbase中使用Thrift来创建Table。

  从Thrift0.9.1开始支持golang语言,相关使用和demo可以参考这里《Golang、Php、Python、Java基于Thrift0.9.1实现跨语言调用》,不过由于写本文时Thrift0.9.1中对Golang访问Hbase支持的并不友好,在0.9.2中的Thrift2已经进行了改进可以很好的支持Golang访问Hbase。所以后面在使用Golang访问Hbase时,使用的是Thrift0.9.2。

  网上关于Thrift1的文章一搜索有很多,也就不在这里多描述,在后面的演示中Thrift2中90%的方法都会有,不过在实际使用中可能还需要根据你的系统要求进行二次封装 。