大数据多租户管理问题 (立项调研)

运营商的数据接入应用都涉及到很多部门,也是非常头疼的问题。这样如果对于不同的应用/数据使用不同的集群,就涉及到数据共享问题,这肯定是难以接受的,也不符合大数据的架构特点。而使用同一个集群就涉及到应用资源抢占(比如CPU 内存)的问题,每个应用都应该都一个特定的资源比例,...显示全部
运营商的数据接入应用都涉及到很多部门,也是非常头疼的问题。
这样如果对于不同的应用/数据使用不同的集群,就涉及到数据共享问题,这肯定是难以接受的,也不符合大数据的架构特点。而使用同一个集群就涉及到应用资源抢占(比如CPU 内存)的问题,每个应用都应该都一个特定的资源比例,比如A应用理论能使用集群80%的资源,B应用重要性比较低使用20%的资源,在实际执行中如何达到这样资源隔离的效果。
另外数据的安全管控是一个问题,希望达到一个多应用、多数据管控公用的集群效果,有什么好的建议?收起
参与22

查看其它 14 个回答xuyanhui的回答

xuyanhuixuyanhui信息分析/架构师58同城大数据
按照现在大数据处理平台Hadoop中的一些思想是可以帮你解决这种问题的
1. 多租户在Hadoop的权限集成部分已经比较完善,利用kerberos与ldap集成做用户权限管理,可以限制不同客户与群组的数据权限问题
2.在Hadoop yarn中的数据运算粒度细化到container,其思想与Linux中的cgroup来相互弥补,实行运算的控制。其自身的资源池划分也很完善。
另外在此问题中大数据的一些特定性,与虚拟化是有冲突的,Hadoop大数据计算是IO密集型应用,并不适合在虚拟化环境中搭建在线服务。
互联网服务 · 2015-03-11
浏览3545

回答者

xuyanhui
信息分析/架构师58同城大数据
擅长领域: 服务器大数据大数据平台

xuyanhui 最近回答过的问题

回答状态

  • 发布时间:2015-03-11
  • 关注会员:2 人
  • 回答浏览:3545
  • X社区推广