这种基本上都是配置问题,建议前期不要使用NameNode HA,先考虑单NameNode,等你熟悉了hadoop架构后再做NameNode HA
考虑下你的操作系统的问题,hadoop不会对磁盘做权限限制。
根据媒体的业务量和业务要求来规划,一般初期可以搞个小型的集群7台左右的机器即可。
这种各有千秋,但是替代肯定是不现实的。业务场景不一样,使用的工具不一样。业务决定工具
所有的优化总的大纲无非就是增加集群可用资源数量、增加Task的内存大小、增加RPC handler的数量,这只是大的方面,具体如何优化你看根据你的业务情况来优化。比如,只是MR计算或者HIVE计算,那么优化的重点是考核如何增加集
简单点说:1、你要先去了解下hadoop,建议你从hadoop2.5以上版本看起2、解析后的日志需要最终落地,如果数据量比较大,建议使用hbase,有电子版的hbase权威指南3、在了解下flume学习了以上知识点,可以开始了。
可以通过MR程序解析HDFS上的文件,然后写入Hbase中。
大数据的目标在于预测,我感觉金融行业的重点在于为决策层提供决策依据。例如收集用户相关的消息行为、理财产品的购买转化率,用户存款的行为等等因素。为每个用提供决策依据。
个人见解:这种东西不能一蹴而就,应该是分布是实现。可以先将数据分发平台部分数据割接到大数据中大数据的用途主要是用来预测,所以不能100%保证数据的可靠,使用大数据需要容忍一定的错误概率。
hadoop导入oracle? 谁来备份数据?
关于TWT使用指南社区专家合作厂商入驻社区企业招聘投诉建议版权与免责声明联系我们 © 2024 talkwithtrend — talk with trend,talk with technologist京ICP备09031017号-30