互联网企业使用分布式存储的探讨?

目前企业使用linux自带的nfs,提供存储共享和数据存储,集中备份功能,供业务使用。架构采用两台SAS接口的大容量7500转的硬盘,raid10,双机keepalive热备,提供vip和切换后的映射以及双机间的rsync数据同步。nfs采用v3版本,含有部分目录acl控制,客户端包括linux5、6、aix5.5、6.1。存...显示全部

目前企业使用linux自带的nfs,提供存储共享和数据存储,集中备份功能,供业务使用。
架构采用两台SAS接口的大容量7500转的硬盘,raid10,双机keepalive热备,提供vip和切换后的映射以及双机间的rsync数据同步。nfs采用v3版本,含有部分目录acl控制,客户端包括linux5、6、aix5.5、6.1。
存储的数据绝大多数是K级小文件,txt或xls,访问方式是http和ftp等不同的协议,非书序读密集,目前遇到的问题如下:
1.容量,扩容只能采用横向硬件扩容,目录拆分的方式,傻大粗!
2.数据量上来以后,受rsync限制,主备机数据同步跟不上。
3.nfs协议在支持数量大的目录时,有些力不从心,千万级数据目录罗列耗时长,且用户感觉明显。

曾经参考过的替换方式:
1、hadoop,基于分片、副本存储的方式,对小文件的支持并不理想。
2、http应用负载分发,客户端访问方式不一,如,对支持ftp传送数据上,此种方式并不合适。
3、ceph,复杂的配置和管理在维护成本上投入过高,有些喧宾夺主。听说还有mysql的对象存储,还没研究,请问各位有什么好的点子提示下?

收起
参与39

查看其它 8 个回答美国队长的回答

美国队长美国队长  研发工程师 , Alibaba

尝试使用阿里的tair进行存储,hadoop只适合大文件,小文件会造成很多碎片,浪费空间浪费效率,我个人觉得是不是可以考虑对热点小文件进行单独存储,定时同步到分布式文件系统中

互联网服务 · 2017-05-05
浏览4976
BJ-也许 邀答
  • 这种方法不错,问题是怎么解决客户端在不改变访问路径的情况下,迁移数据?
    2017-05-05

回答者

美国队长
研发工程师Alibaba
擅长领域: 大数据大数据平台数据库

美国队长 最近回答过的问题

回答状态

  • 发布时间:2017-05-05
  • 关注会员:12 人
  • 回答浏览:4976
  • X社区推广