纯水一个啊,业界标准没研究,其实仍然逃不出以前的框框,其实所谓大数据,现在更多是提供了一个存储层(hdfs)一个运算框架(mapre),spark也基本差不多。如果从整体来看,依然是业务-应用-存储 三层,分到大数据层面来看,我觉得无法做好
用户画像 其实经分的话,现在挖掘的数据库都能做,不能做的在运维口子上的数据,跑hadoop,经分目前没听说移植到hadoop上的吧?
是的,spark目前可用的文件系统还有一个,一般在hadoop上还行
SSD的话,我觉得跑mapreduce都不会太慢了吧? pcie的么?
回复 尘世随缘 非常感谢
但是我觉得按照排序顺序来说,它本身应该是第一个最多的
另外,每个节点上的配置,必须一样? 如果用一个独立的服务器配置了pig 和hadoop 这里pig运行过程中的内存参数是这个独立机器上的配置还是hadoop环境上的配置?
回复 尘世随缘 mahout目前不也不接受使用mapreduce做得算法了么。。。 这段时间一直在摇摆,scala感觉还是比java要好些,起码代码不用写那么多,毕竟学习成本太高了,这方面是有所顾虑的。 现在大数据方面,我们用的比较多
key的字段拼接?
回复 jackbillow sqoop ?
关于TWT使用指南社区专家合作厂商入驻社区企业招聘投诉建议版权与免责声明联系我们 © 2024 talkwithtrend — talk with trend,talk with technologist京ICP备09031017号-30