Tag - linux

java linux kafka292    2016-05-16 12:37:36    179    0    0

  kafka是LinkedIn开发并开源的一个分布式MQ系统,现在是Apache的一个孵化项目。在它的主页描述kafka为一个高吞吐量的分布式(能将消息分散到不同的节点上)MQ。Kafka仅仅由7000行Scala编写,据了解,Kafka每秒可以生产约25万消息(50 MB),每秒处理55万消息(110 MB)。

  kafka目前支持多种客户端语言:java,python,c++,php等等。

  kafka集群的简要图解如下,producer写入消息,consumer读取消息

hive hbase nginx linux hadoop    2016-03-01 11:46:18    103    0    0

目录

Nginx的相关配置,以及测试数据

Hadoop中创建使用目录

Hive的日志表创建,并同步到Hbase中

0.1 创建自增长ID的类,并添加到Hive环境中

0.2 在Hive中创建日志表

0.3 将Nginx的日志数据导入到Hive日志表中

a) 方法一:将本地目录中的文件导入到Hive中

b) 方法二:从HDFS导入数据,我们先将表删除,重新创建一次,然后尝试从HDFS导入数据

c) 方法三:通过如Flume、Kafka一类的工具监控日志数据,自动导入

0.4在Hive中创建Hbase可以识别的表

0.5 将Hive的日志表,使用自增长Id做为rowkey导入到Hbase可识别的表中

0.6 到Hbase中验证效果使用get、scan、filter获取指定数据

FAQ

扩展阅读