用户的话单大小为100KB左右每天大约有上亿条待处理,使用HADOOP处理明显要比1G左右的JOB更消耗资源,怎样的建构使物理资源得到充分的发挥,又有效的做到数据的稽核比对?
Job的优化一直是分布式计算的核心,最关键是要知道哪些job执行时间长,影响整个计算模型的结果,然后 通过调整split大小,改变中间文件类型等手段加速。
关于TWT使用指南社区专家合作厂商入驻社区企业招聘投诉建议版权与免责声明联系我们 © 2024talkwithtrend — talk with trend,talk with technologist京ICP备09031017号-30