hadoop和spark 如何选择?
现在一般公司都用hadoop的hdfs进行存储,用spark做数据引擎分析。也有用mapreduce分析的。这2个怎么选择呢?
理论上是数据量大,spark并不是很合适,另外你讲的20TB的数据MR处理shuffle是个硬伤,这个可以通过两个方面解决
业务方面:
看看你的具体的场景,是不是可以对数据进行一下拆解拆分,数据分析其实也是抽取一部分数据作为样品,等训练成熟了再去拿剩余数据去测试
技术方面:
2看看根据你的具体运行环境能否进行优化
关于TWT使用指南社区专家合作厂商入驻社区企业招聘投诉建议版权与免责声明联系我们 © 2024talkwithtrend — talk with trend,talk with technologist京ICP备09031017号-30