想应用日志方面的分析和挖掘。应该注意什么?

HADOOP刚起步,想应用日志方面的分析和挖掘。应该注意什么?
参与13

8同行回答

han11jijihan11jiji数据库运维工程师中科软科技股份有限公司
由于刚刚标题有要求,写的较短,希望能给出一些硬件方面规划的建议和具体用HADOOP的那些组件方便实现,日志格式非结构化的,想在HBASE里做查询,我选择了FLUME+HDFS,眼下想用HBASE进行查询,但是数据不是结构化数据,不知道怎么规划,如果数据能结构化,数据入HBASE的时候,应注意什么?...显示全部
由于刚刚标题有要求,写的较短,希望能给出一些硬件方面规划的建议和具体用HADOOP的那些组件方便实现,日志格式非结构化的,想在HBASE里做查询,我选择了FLUME+HDFS,眼下想用HBASE进行查询,但是数据不是结构化数据,不知道怎么规划,如果数据能结构化,数据入HBASE的时候,应注意什么?收起
保险 · 2015-07-03
浏览1894
michaelhugangmichaelhugang产品总监星环科技
日志服务器硬件选型配置:性能测试采集:cacheServer->syslogNG(udp)->Flume Agent在边缘节点,采集速度为2万条/秒(非峰值处理能力,而是日志服务器峰值为2万条/秒在超级节点,采集速度为14万条/秒入库:Flume Agent -> TDH HDFS        耗时(s)    &n...显示全部
日志服务器硬件选型配置:
性能测试
采集:cacheServer->syslogNG(udp)->Flume Agent
在边缘节点,采集速度为2万条/秒(非峰值处理能力,而是日志服务器峰值为2万条/秒
在超级节点,采集速度为14万条/秒

入库:Flume Agent -> TDH HDFS
        耗时(s)        速度(M/s)        每秒条数(条/s)
单份        21                36.45        186620
双份        28                27.34        139964
存储:TDH HDFS -> Hyperbase
1。E5-2680双核,8节点,峰值导入速度单机平均20万条/秒
2。E5506双核,5节点,峰值导入速度单机平均5万条/秒
3。E5-2650和E5-2620双核CPU导入速度,峰值导入速度单机平均12万条/秒收起
软件开发 · 2015-07-03
浏览1979
michaelhugangmichaelhugang产品总监星环科技
FLUME到HBASE一样没问题,FLUME的SINK,可以是HDFS,HIVE,也可以是HBASE。我们在一个CDN日志项目里面搞定过。显示全部
FLUME到HBASE一样没问题,FLUME的SINK,可以是HDFS,HIVE,也可以是HBASE。我们在一个CDN日志项目里面搞定过。收起
软件开发 · 2015-07-03
浏览1883
han11jijihan11jiji数据库运维工程师中科软科技股份有限公司
回复 7# 尘世随缘    先谢谢大神,FLUME到HDFS已落地,现在是想FLUME到HBASE里。不知道怎么对非结构化的数据,进行存储。有好建议吗?显示全部
回复 7# 尘世随缘


   先谢谢大神,FLUME到HDFS已落地,现在是想FLUME到HBASE里。不知道怎么对非结构化的数据,进行存储。有好建议吗?收起
保险 · 2015-07-03
浏览1856
尘世随缘尘世随缘技术总监上海某互联网金融公司
简单点说:1、你要先去了解下hadoop,建议你从hadoop2.5以上版本看起2、解析后的日志需要最终落地,如果数据量比较大,建议使用hbase,有电子版的hbase权威指南3、在了解下flume学习了以上知识点,可以开始了。...显示全部
简单点说:
1、你要先去了解下hadoop,建议你从hadoop2.5以上版本看起
2、解析后的日志需要最终落地,如果数据量比较大,建议使用hbase,有电子版的hbase权威指南
3、在了解下flume
学习了以上知识点,可以开始了。收起
互联网服务 · 2015-07-03
浏览1898
han11jijihan11jiji数据库运维工程师中科软科技股份有限公司
从专业角度讲,你说的非常好,我也非常认可,但是这些落地的经验,和我现在刚起步知识,认知起来比较难,能通俗点说就好了。我感觉你这个应该是一站式产品形成的。显示全部
从专业角度讲,你说的非常好,我也非常认可,但是这些落地的经验,和我现在刚起步知识,认知起来比较难,能通俗点说就好了。我感觉你这个应该是一站式产品形成的。收起
保险 · 2015-07-03
浏览1896
michaelhugangmichaelhugang产品总监星环科技
虽然日志是半结构化的,但一般还是有SCHEMA的。所以日志可以入HBASE。在HBASE里面,结合SPARK STREAMING。既可以做在线高并发查询,也可以实时分析,告警,还可以离线分析。显示全部
虽然日志是半结构化的,但一般还是有SCHEMA的。所以日志可以入HBASE。在HBASE里面,结合SPARK STREAMING。既可以做在线高并发查询,也可以实时分析,告警,还可以离线分析。收起
软件开发 · 2015-07-03
浏览1779
michaelhugangmichaelhugang产品总监星环科技
数据采集完成缓存服务器日志数据从节点到中心的数据采集汇聚,在每个节点内部署日志采集Agent,通过UDP方式采集服务器syslog日志,节点Agent将采集的数据通过流式传输的方式发送至中心汇聚服务器,中心汇聚服务器将汇聚的日志数据写入数据存储分析平台。系统部署600+ Agent,20个...显示全部
数据采集完成缓存服务器日志数据从节点到中心的数据采集汇聚,在每个节点内部署日志采集Agent,通过UDP方式采集服务器syslog日志,节点Agent将采集的数据通过流式传输的方式发送至中心汇聚服务器,中心汇聚服务器将汇聚的日志数据写入数据存储分析平台。系统部署600+ Agent,20个汇聚服务器。平台采用Transwarp Data Hub方案构建,支持峰值928w/sec的数据写入和分析,将数据进行清洗整理后,进行实时压缩处理,输出至第三方系统。平台依赖于Transwarp Inceptor对采集的日志流数据进行实时的统计分析,为业务质量监控和后续服务的优化提供数据支撑。收起
软件开发 · 2015-07-03
浏览1783

提问者

han11jiji
数据库运维工程师中科软科技股份有限公司
擅长领域: 大数据分布式系统服务器

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2015-07-03
  • 关注会员:0 人
  • 问题浏览:6618
  • 最近回答:2015-07-03
  • X社区推广