pysx0503
作者pysx0503·2017-11-27 08:49
系统工程师·第十区。散人

70TB级以上非结构化数据,如何进行高效、简易的存储管理精华

字数 2641阅读 4556评论 0赞 5

非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、XML, HTML、各类报表、图像和音频/视频信息等等。

计算机信息化系统中的数据分为结构化数据和非结构化数据。非结构化数据其格式非常多样,标准也是多样性的,而且在技术上非结构化信息比结构化信息更难标准化和理解。所以存储、检索、发布以及利用需要更加智能化的IT技术,比如海量存储、智能检索、知识挖掘、内容保护、信息的增值开发利用等。

随着信息化的多样性,非结构化数据也变得越来越复杂,多样。海量的非结构数据无法完全进入数据库,给信息化的运维和发展带来了不小的麻烦。IBM“迷你版”Cleversafe为我们提供了一个颠覆性私有云平台,,用于解决全球企业的 PB 级及以上级别的存储挑战,本次活动的主旨就是和大家共同讨论制造业中非结构化数据的管理和存储,如何为制造业非结构化数据提供一套合适的解决方案,用更合理的资源去建设一套安全,可靠,高效的私有云存储架构。

讨论1:制造业中存在那些类型的非结构化数据?

我所在的是钢铁制造业,目前比较大的非结构化数据是公文,虽然所有文件只有100多G。但是数量比较多。都是细小的文档。在做备份时候的效率非常低,另一部分是整个厂区内的安全监控视频。、由于都是高清视频,而且又要求保存时间比较长,原来的硬盘录像机本身的容量已经无法满足这一需求。另外还有研发产品设计图纸,文档等。

讨论2:针对制造业中的非结构化数据,如何去进行存储和管理?

观点1:通过anyshare产品可以进行很好的管理,可以实现非结构化数据的存储,文件,及用户权限管理,随时随地可以访问,同时可以实现云灾备功能。

观点2:针对制造业会有很多非结构化数据产品,例如生产车间的视频,零部件的高清照片等等,这些照片往往还需要共享多部门间协作使用,所以用ibm cos对象存储是比较合适的,必要的话结合GPFS一起使用,它是相对比较经济性和即存即服务的特性。

讨论3:对象存储cleversafe与传统存储高可用性对比有哪些优势?

采用传统的存储在RAID6架构下1PB的原始数据要占用1.2PB的存储空间,为了实现数据安全做本地镜像和同城复本后数据要占用3.6PB(1.2*3)的存储空间,那么膨胀因子就是3倍,采用IBM Cleversafe对象存储1PB的原始数据要占用1.7PB的存储空间, Cleversafe对象存储使用1.7倍的膨胀因子就可以实现建设与RAID6相同或是还要高可靠的存储系统, Cleversafe对象存储占用更少的磁盘,占用更少的机架,节约机房空间,降低了运营成本,降低了运维管理的难度,无需其它软件就可以实现高可靠性和高可用性。

特性方面:

1、经济性:传统存储通常需要做副本来获得可靠性,因此冗余至少是2倍,但是Cleversafe只是在切片运算上额外根据配置有冗余的部分,大大小于做副本的方式
2、安全性:我们前面说的每个切片数据,实际上是乱码不可读的,如果没有Cleversafe纠删码的算法的话,是没有办法知道原数据的倍数关系的,因此,获取切片数据也无意义
3、扩展性:Cleversafe以纠删码为技术原型,同时,结合自研的信息离散算法(IDA)可以异地分发所有的切片。同时,在访问节点,通过HTTP的方式,是能够知晓每一台访问节点的,因此,访问节点之间是解耦不需要通讯的,所以可以做到在线扩容。其次,存储节点之间,当宽度一定时,每一次扩容就是一个存储集的扩容,不同存储集由逻辑上统一的存储池来管理,从而扩展使用空间。
4、可用可靠性:这正是Cleversafe的强项所在,对比传统存储,因为IDA的算法,从而无需副本、RAID方式,就能够在配置合理的情况下,有对应40%的节点失效,然而也不会影响业务系统的正常工作。同时,IDA native的可以做到纠删码算法后的切片能够分发到异地,因此Cleversafe如果在部署DC允许的情况下,不需要做任何数据同步备份即可基本容灾特性。

讨论4:对象存储cleversafe纠删码技术工作原理是什么?

IBM Cleversafe对象存储使用纠删码技术实现存储系统的高可靠和高可用,纠删码技术首先对原始数据进行分段(每段4M),之后对一个分段进行切片,例如一个分段切7片,之后通过ECC校验算法变换为12片,这样膨胀因子就是1.7,1PB的原始数据就占用了1.7PB的存储空间,这1.7PB的存储空间由12个切片组成,把这12个切片均匀的部署在多个站点的每一台服务器中,例如在三个站点每个站点部署4台服务器,这样在这三个站点中只要有7台服务器是正常运行的,数据就是完好的可以正常读取,可以避免服务器硬件故障或断电,网络故障,甚至1个站点故障都不会影响数据的可靠性和可用性,任何一个站点的任意一台服务器硬盘损坏后,只需插入一块新硬盘而无需做RAID就可以正常使用了。

讨论5:对象存储cleversafe如何设计?对企业现有系统有什么影响?

IBM Cleversafe对象存储由三部分组成,包括CS Manager管理节点、Accesser访问节点和Silcestor存储节点,其中管理节点安装Cleversafe软件实现对Cleversafe对象存储系统的监控和管理,访问节点提供对外的用户访问,存储节点用于代替原有的NAS系统保存海量的数据。

当用户的访问量很大时无需关心存储节点,只需关心访问节点就可以了, 增加访问节点的数量就可以提升用户的访问速度。当存储节点的容量不足时,去除购买并加电服务器的时间只需要十几分钟就可以实现存储的扩容。

采用IBM GPFS+ Cleversafe解决方案,使用GPFS做并行分布式文件系统,在后端加入Cleversafe作为一个分层的存储解决方案,GPFS负责性能,而Cleversafe负责容量的无限制扩展。

讨论6:对象存储cleversafe软硬件如何配置?有哪些注意事项?

CS Manager管理节点和Accesser访问节点可以选用1U或是2U的X86服务器,配置大内存如128GB,256GB,对其它硬件没有特殊要求。

Silcestor存储节点服务器可以选用4U高密度x86服务器,该服务器满配48块硬盘,每块硬盘配置8Tb,这样一台服务器的祼容量就是384Tb,12台服务器可以提供4.5Pb的祼容量,冗余系数是1.7,那么可用容量有2.6Pb。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

5

添加新评论0 条评论

Ctrl+Enter 发表

本文隶属于专栏

活动总结
活动总结是社区交流活动内容的总结及延伸,为大家提供了社区专家们丰富且高水平的理论知识、实践经验以及常见问题的最佳解决方法,非常值得大家收藏学习。

作者其他文章

X社区推广