问:
分布式存储分为 :分布式文件系统与分布式块系统
对象存储系统:是结合文件的共享与块的性能,在分布式存储系统往对象存储系统迁移数据与业务时,需要注意什么坑?
答:
分布存储的数据迁移到对象存储要注意以下几点:
分布式对象的数据,不能直接复制拷贝到对象存储,需要开发接口或第三方工具,将数据导入到对象存储中,同样,对象存储中的数据也需要通过接口和第三方工具将数据导出。
采用虚拟网关会好一些
问:
文章中提及测试情况:2000万128k小文件,nas为5ms是比对象存储10ms快的;而在10亿128k小文件情况下,nas为50ms比对象存储20ms慢了许多。那么是否有一个临界值,可以做为使用nas还是对象的参考指标?
答:
最大的差别在于2000万和10亿,在处理海量非结构化的小文件时才能发挥对象存储的优势。因此最重要的参考指标应该是你需要用分布式存储做什么?你的数据量有多少?未来增长量多少?数据类型是什么?
答:
从服务端角度,如何尽快将更新后的数据分布到整个系统,降低达到最终一致性的时间窗口,是提高系统的可用度和用户体验非常重要的方面。对于分布式存储系统:
N — 数据复制的份数
W — 更新数据是需要保证写完成的节点数
R — 读取数据的时候需要读取的节点数
如果W+R>N,写的节点和读的节点重叠,则是强一致性。例如对于典型的一主一备同步复制的分布式存储系统,N=2,W=2,R=1,则不管读的是主副本还是从副本的数据,都是一致的。
如果W+R<=N,则是弱一致性。例如对于一主一备异步复制的分布式存储,N=2,W=1,R=1,则如果读的是从副本,就可能无法读取主副本已经更新过的数据,从而读到了脏数据所以是弱一致性。
对于分布存储式系统,为了保证高可用性,一般设置N>=3,且强制在主副本读取,也是通常说的分布式存储系统使用强一致性原则。
答:
(1)对象存储有以下优点:
1、支持广域的访问和数据共享
2、具备精细化的多版本和高效的备份方案
3、海量文件下没有目录层级设计,访问性能更好
4、文件访问接口更丰富,不局限与数据的IO访问,可以更偏平化业务架构
(2)根据我司采用的S3对象存储的使用情况总结出如下几个特点,仅供参考:
1、支持S3接口,特别适合小文件的存储,像影像、图片等;
2、采用纠珊算法和氦气大盘,安全可靠;
3、可直接与第三方软件对接,像commvault等,图形化配置,简单易用;
4、价格便宜;
5、易于维护,图形化界面监控;
对象存储的适应场景:
1、历史数据归档备份;
2、小文件,图片和影像文件存储;
答:
ceph采用crush算法,pg/pgp数量越多,那么在pg和osd的mapping中,对象就能够更平均更离散的分布在磁盘中,官网上有个pg和osd的计算公式,计算标准大概是:pg_num=100*osd_num/3,最前面的100可以按集群未来的扩展规模进行变化
答:
理论上1个节点都可以做POC,但是可靠性肯定有问题了,至少mon节点是单点故障,ceph是分布式存储区别于HA双控的传统存储。
答:
开源和商业的解决方案始终没有停止过战争,我觉得在对象存储这个细分市场,传统行业也可以采用两条腿走路的方式,核心的业务系统推荐使用商业产品,因为商业产品较之于开源解决方案有更多的企业级特性,比如容灾和成熟的EC纠删码技术,此外,商业产品的服务方面要胜于开源产品,开源产品需要我们IT人员更多的技术积累
问:
对于开源对象存储产品,有没有合适的第三方备份软件可供选择?感觉NBU、comvault等针对对象存储的备份功能还不是很完善
答:
之前也就此问题和对象存储的主流厂商探讨过,首先,行业对于对象存储一般没有备份的解决方案,因为对象存储在很多情况下是作为历史数据的归档,所以从设计上就没有传统一级存储的备份考虑,另外,对象存储从自身的文件多版本的支持以及跨站点的EC纠删、混合云场景下的数据流动来看,对象存储也实现了“免备份”情况下的数据保护和历史数据回溯。
答:
首先协议不同,一个是文件型一个是对象,这就要看前端的业务情况,是否需要基于对象协议开发业务系统,另外从底层原理来讲,文件和对象的存储方式是不同的,一个是基于inode的树形目录结构,一个是key-value的扁平架构,所以对象存储在文件体量和容量上来时,比如pb级、文件数在千万、亿级时,就会体现出比传统文件存储更好的性能。此外,我们看商业的NAS和对象存储,前者的磁盘介质大多是10k的SAS盘,后者是7.2K的sata慢速盘,由此可见对象存储的定位大多是归档型需要长时间保存的历史数据,所以,在文件体量不大的情况下,传统的文件型存储是不错的选择!
问:
ceph应用于我们的生产环境,需要注意什么地方?
个人感觉不能用于核心业务中,刚开始研究ceph,只能在测试环境中部署成功过。
答:
ceph底层是对象存储协议,上层通过封装各种协议可以实现统一存储的功能,也就是可以同时支持块、文件和对象协议,块协议这块也就是rbd,主要的场景就是作为openstack云平台的后端块存储支撑,文件这块我们还没有铺开,对象这块主要是通过radosgw支撑aws的s3协议,所以可以基于S3构建各种对象型的应用,不错的选择比如构建网盘应用亦或是内容管理平台之类的应用。ceph作为开源的软件定义存储解决方案,我感觉在传统行业要想遍地开花需要很长一段时间的积淀,一个是运维人员的软技能积累,把ceph的各种场景、各个模块尽量研究透,需要大量的可靠性和性能测试,再者就是作为传统商业解决方案的一个很好补充,要从企业上层决策层形成企业战略,定好业务系统分级分类原则,总之,一项新的技术,特别是来自互联网思维的解决方案在传统行业落地生根,需要很多的探索和实践验证。
答:
1.分级存储
2.数据迁移
3.数据备份
答:
(1)选择对象存储时,性价比,品牌、安全性、可扩展性等方面
(2)在进行技术选型时一定记住,技术是为业务服务的,选择技术一定要和自身业务契合。
建议分别从可靠性、可用性、时延以及一致性四方面来进行考虑。
答:
主要风险有两点:
1、应用改造,对生产来讲,任何改造都是高风险点。
2、数据迁移,庞大的历史数据如何迁移,这是改造过程中最大的难题。
答:
分布式对象存储架构替换传统的IP存储架构,能够解决海量非结构化数据的集中存储及访问问题,提升非结构化文件存取效率,解决影像系统单点问题。分布式对象存储能够保证不丢失数据、不中断服务、提供良好的用户体验,解决存储扩容复杂问题。由于分布式对象存储采用扁平化的数据组织方式,所以目录架构扩展性强,耦合性低,增删节点时所需迁移的数据少。整体而言,在业务系统、IT性能以及运维方面都带了本质的提升。
答:
1、业务的需求,量越来越大、访问需求越来越多。
2、技术的需求,提高海量文件的检索效率。
3、备份的需求,传统存储架构无法满足现有的备份需求。
4、成本的需求,设备老化、设备更换维保等费用太高。
如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!
赞3
添加新评论0 条评论