这块还是要用分布式存储来解决数据容量大、数据种类多的问题。实时数据采集可以使用flume或kafka来解决,不过对服务器网卡要求和内存较高。实时处理使用spark stream或者storm来实现。
数据清洗和过滤是在什么平台做的?数据量较大这块工作还是比较费时的。
BULKLOAD方式批量导入数据到hbase性能最高了。首先生成hfile。然后加载到hbase表。
大数据平台技术和传统分析技术,只是支撑的数据量不同,大数据平台可以考虑更多的属性来优化模型。如朋友圈网络发发策略,能否考虑交易朋友圈、用户通话朋友圈、微信微博朋友圈等来优化投资倾向模型
通过hdfs API可以查到到这些状态信息,web界面上的也是调用的API,数据没有落地。需要的时候可以查询,也可以自己写个脚本定时将状态信息写到数据库中。提供个命令供你参考hdfs dfsadmin -report
请问下平台对外的话,安全性这块如何保障,各位专家有没有好的建议啊?
计费部分有开源的软件可以引入么?用于统计用户在集群中的使用情况,例如内存,硬盘,CPU,带宽等情况
双写是个好办法,但是没有那么多机器吧,最初也是想这样做,但是机器申请不下来。如果在现在的集群上面部署两个版本,存储也不够。
关于TWT使用指南社区专家合作厂商入驻社区企业招聘投诉建议版权与免责声明联系我们 © 2024 talkwithtrend — talk with trend,talk with technologist京ICP备09031017号-30