jampg
作者jampg·2018-07-12 09:37
系统运维工程师·某大型保险

某保险企业基于对象存储解决非结构化数据管理实践经验在线答疑总结

字数 3331阅读 5331评论 0赞 3

1、从分布式存储系统迁移至对象存储系统有哪些难点?

问:
分布式存储分为 :分布式文件系统与分布式块系统
对象存储系统:是结合文件的共享与块的性能,在分布式存储系统往对象存储系统迁移数据与业务时,需要注意什么坑?

答:
分布存储的数据迁移到对象存储要注意以下几点:
分布式对象的数据,不能直接复制拷贝到对象存储,需要开发接口或第三方工具,将数据导入到对象存储中,同样,对象存储中的数据也需要通过接口和第三方工具将数据导出。

采用虚拟网关会好一些

2、nas存储与对象存储的使用选择问题?

问:
文章中提及测试情况:2000万128k小文件,nas为5ms是比对象存储10ms快的;而在10亿128k小文件情况下,nas为50ms比对象存储20ms慢了许多。那么是否有一个临界值,可以做为使用nas还是对象的参考指标?
答:
最大的差别在于2000万和10亿,在处理海量非结构化的小文件时才能发挥对象存储的优势。因此最重要的参考指标应该是你需要用分布式存储做什么?你的数据量有多少?未来增长量多少?数据类型是什么?

3、分布式存储如何保证数据一致性?

答:
从服务端角度,如何尽快将更新后的数据分布到整个系统,降低达到最终一致性的时间窗口,是提高系统的可用度和用户体验非常重要的方面。对于分布式存储系统:

N — 数据复制的份数
W — 更新数据是需要保证写完成的节点数
R — 读取数据的时候需要读取的节点数

如果W+R>N,写的节点和读的节点重叠,则是强一致性。例如对于典型的一主一备同步复制的分布式存储系统,N=2,W=2,R=1,则不管读的是主副本还是从副本的数据,都是一致的。

如果W+R<=N,则是弱一致性。例如对于一主一备异步复制的分布式存储,N=2,W=1,R=1,则如果读的是从副本,就可能无法读取主副本已经更新过的数据,从而读到了脏数据所以是弱一致性。

对于分布存储式系统,为了保证高可用性,一般设置N>=3,且强制在主副本读取,也是通常说的分布式存储系统使用强一致性原则。

4、分布式存储的解决方案有很多,为什么要选择对象存储?对象存储适应的场景有哪些?

答:
(1)对象存储有以下优点:
1、支持广域的访问和数据共享
2、具备精细化的多版本和高效的备份方案
3、海量文件下没有目录层级设计,访问性能更好
4、文件访问接口更丰富,不局限与数据的IO访问,可以更偏平化业务架构

(2)根据我司采用的S3对象存储的使用情况总结出如下几个特点,仅供参考:
1、支持S3接口,特别适合小文件的存储,像影像、图片等;
2、采用纠珊算法和氦气大盘,安全可靠;
3、可直接与第三方软件对接,像commvault等,图形化配置,简单易用;
4、价格便宜;
5、易于维护,图形化界面监控;

对象存储的适应场景:
1、历史数据归档备份;
2、小文件,图片和影像文件存储;

5、为什么在ceph中pg/pgp num 数字越大osd分布才会越均匀?

答:
ceph采用crush算法,pg/pgp数量越多,那么在pg和osd的mapping中,对象就能够更平均更离散的分布在磁盘中,官网上有个pg和osd的计算公式,计算标准大概是:pg_num=100*osd_num/3,最前面的100可以按集群未来的扩展规模进行变化

6、2个节点的ceph能部署出来吗? 能不能达到类似于双控HA的效果?

答:
理论上1个节点都可以做POC,但是可靠性肯定有问题了,至少mon节点是单点故障,ceph是分布式存储区别于HA双控的传统存储。

7、开源产品如ceph、Swift与商用产品如hds、华为等相比在适用场景上有何区别?

答:
开源和商业的解决方案始终没有停止过战争,我觉得在对象存储这个细分市场,传统行业也可以采用两条腿走路的方式,核心的业务系统推荐使用商业产品,因为商业产品较之于开源解决方案有更多的企业级特性,比如容灾和成熟的EC纠删码技术,此外,商业产品的服务方面要胜于开源产品,开源产品需要我们IT人员更多的技术积累

8、对于开源对象存储产品,有没有合适的第三方备份软件可供选择?

问:
对于开源对象存储产品,有没有合适的第三方备份软件可供选择?感觉NBU、comvault等针对对象存储的备份功能还不是很完善
答:
之前也就此问题和对象存储的主流厂商探讨过,首先,行业对于对象存储一般没有备份的解决方案,因为对象存储在很多情况下是作为历史数据的归档,所以从设计上就没有传统一级存储的备份考虑,另外,对象存储从自身的文件多版本的支持以及跨站点的EC纠删、混合云场景下的数据流动来看,对象存储也实现了“免备份”情况下的数据保护和历史数据回溯。

9、关于分布式文件系统、分布式NAS、分布式对象的优劣对比?

答:
首先协议不同,一个是文件型一个是对象,这就要看前端的业务情况,是否需要基于对象协议开发业务系统,另外从底层原理来讲,文件和对象的存储方式是不同的,一个是基于inode的树形目录结构,一个是key-value的扁平架构,所以对象存储在文件体量和容量上来时,比如pb级、文件数在千万、亿级时,就会体现出比传统文件存储更好的性能。此外,我们看商业的NAS和对象存储,前者的磁盘介质大多是10k的SAS盘,后者是7.2K的sata慢速盘,由此可见对象存储的定位大多是归档型需要长时间保存的历史数据,所以,在文件体量不大的情况下,传统的文件型存储是不错的选择!

10、ceph作为对象存储,是否可以用于生产环境?

问:
ceph应用于我们的生产环境,需要注意什么地方?
个人感觉不能用于核心业务中,刚开始研究ceph,只能在测试环境中部署成功过。
答:
ceph底层是对象存储协议,上层通过封装各种协议可以实现统一存储的功能,也就是可以同时支持块、文件和对象协议,块协议这块也就是rbd,主要的场景就是作为openstack云平台的后端块存储支撑,文件这块我们还没有铺开,对象这块主要是通过radosgw支撑aws的s3协议,所以可以基于S3构建各种对象型的应用,不错的选择比如构建网盘应用亦或是内容管理平台之类的应用。ceph作为开源的软件定义存储解决方案,我感觉在传统行业要想遍地开花需要很长一段时间的积淀,一个是运维人员的软技能积累,把ceph的各种场景、各个模块尽量研究透,需要大量的可靠性和性能测试,再者就是作为传统商业解决方案的一个很好补充,要从企业上层决策层形成企业战略,定好业务系统分级分类原则,总之,一项新的技术,特别是来自互联网思维的解决方案在传统行业落地生根,需要很多的探索和实践验证。

11、非结构化数据存储如何进行相对应的方案设计?应该从哪些方面考虑?

答:
1.分级存储
2.数据迁移
3.数据备份

rnyy3a3sguv3cx3htjik65hfr

rnyy3a3sguv3cx3htjik65hfr

12、选择对象存储时,应该如何进行选择?有什么指标和建议?

答:
(1)选择对象存储时,性价比,品牌、安全性、可扩展性等方面

(2)在进行技术选型时一定记住,技术是为业务服务的,选择技术一定要和自身业务契合。
建议分别从可靠性、可用性、时延以及一致性四方面来进行考虑。

13、在进行对象存储改造的过程中,遇到了哪些风险?贵公司是如何应对的?

答:
主要风险有两点:
1、应用改造,对生产来讲,任何改造都是高风险点。
2、数据迁移,庞大的历史数据如何迁移,这是改造过程中最大的难题。

14、保险企业使用对象存储,能够带来怎样的收益?包括技术上的收益及成本上的收益?

答:
分布式对象存储架构替换传统的IP存储架构,能够解决海量非结构化数据的集中存储及访问问题,提升非结构化文件存取效率,解决影像系统单点问题。分布式对象存储能够保证不丢失数据、不中断服务、提供良好的用户体验,解决存储扩容复杂问题。由于分布式对象存储采用扁平化的数据组织方式,所以目录架构扩展性强,耦合性低,增删节点时所需迁移的数据少。整体而言,在业务系统、IT性能以及运维方面都带了本质的提升。

15、保险企业目前在非结构化数据存储方面遇到哪些问题?有哪些解决方法?

答:
1、业务的需求,量越来越大、访问需求越来越多。
2、技术的需求,提高海量文件的检索效率。
3、备份的需求,传统存储架构无法满足现有的备份需求。
4、成本的需求,设备老化、设备更换维保等费用太高。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

3

添加新评论0 条评论

Ctrl+Enter 发表

本文隶属于专栏

活动总结
活动总结是社区交流活动内容的总结及延伸,为大家提供了社区专家们丰富且高水平的理论知识、实践经验以及常见问题的最佳解决方法,非常值得大家收藏学习。

作者其他文章

相关文章

相关问题

相关资料

X社区推广