1、我们在目前项目中,搭建的Hadoop平台,因为涉及到多个厂家使用,所以想使资源的数据隔离,保证多个厂家使用的时候互不影响,我们目前采用的是Kerberos+CDH多租户,请问一下,还有哪些较好的解决方案呢?请问一下目前大的互联网公司又是怎么解决资源和数据隔离的呢?2、在内存计算这方面,请问一下大家使用Spark Standalone模式,还是On Yarn模式呢?或者使用其他什么模式?3、使用Hive on Spark 较多呢还是直接使用Spark SQL直接处理问题呢?
很感谢这位兄弟提的问题,因为你的问题也是互联网公司正在寻求解决的方法途中,hadoop底层已经通过多用户队列资源分配的方式同时采用CapacitySheduler来进行资源的调度,但是这样可能会造成同一个队列中的资源使用不均衡的情况,后来通过设置每个提交task的最大的map,reduce个数等限制进程数,也就是间接限制了资源个数,第二代设计一款框架动态调整用户的资源,但是最近几年有公司开始利用mesos,或者docker等容器的方式进行资源隔离,
关于TWT使用指南社区专家合作厂商入驻社区企业招聘投诉建议版权与免责声明联系我们 © 2024talkwithtrend — talk with trend,talk with technologist京ICP备09031017号-30