黄呆毛
作者黄呆毛2018-03-14 09:27
技术经理, 某大型汽车集团

52PB级国家健康医疗大数据中心存储经验谈

字数 2179阅读 11940评论 3赞 24

在大数据领域,健康医疗行业是大家雄心勃勃想做出一番事业的热门目标行业。近期德勤进行的一项新调查显示,医疗界人士正在聚焦大数据分析,357名受访者中有84%认为大数据分析对他们的长期竞争成功来说“非常”或“非常重要”。

负责运维国家健康医疗大数据中心的杰若创一直对大数据在健康医疗行业的魔力深信不疑。要建立一整套大数据平台和高性能计算平台,要保障大数据中心的平稳运行,绝非易事。去年刚刚落户南京的国家健康医疗大数据中心就以其52PB级存储中心规模和复杂的大数据应用成为存储科技领域一个国际级标杆。

据介绍,国家健康医疗大数据中心由存储中心、应用中心和展示中心组成。其中,存储中心一期工程于2017年9月底全面完成,存储容量达52PB,并配置了2340 TFLOPS的超算设备,江苏省8000万人的个人健康档案和电子病历及全省174家三级医院影像资料等健康医疗大数将统一存储在该中心;应用中心的建设以基因测序为特色,购置了50台基因检测设备,引进了数家一流的基因测序企业入驻,目前是全亚洲最大的基因测序基地,年测序能力达40-50万人次。

对数据的高标准严要求

要想数据驱动业务,就意味着数据要以业务为导向。杰若创现阶段的主要业务之一围绕国家健康医疗大数据中心展开,涉及到数据中心的设计技术支持、建设实施管理、运行和维护,以及对外提供服务的相关的所有技术支持工作,当然还包含生物信息领域和医疗健康领域方面的数据挖掘和数据分析。

从业务重点的角度出发,杰若创总结了对整个系统平台的四个主要要求:

第一个方面就是数据容量大。医疗数据覆盖人群广,涵盖种类多,数据量基数大,加之又向基因组计划延伸,数据量增势迅猛;

第二个方面是读取速度快。实时存储,按需应用,对传输的便捷性和速度都提出了很高的要求;

第三个要求是安全保证。健康医疗数据关乎用户的健康问题乃至生命问题,在安全性上的要求比别的数据更甚;

第四个要求是数据开放性,让数据在更多的科研单位、公司机构之间流动起来,进行多样化的挖掘和处理开发出更多价值。

这四个方面的要求也代表了健康医疗行业在大数据方面的典型要求。杰若创坦承,安全性和开放性存在矛盾的地方——如果要保障很高程度的安全,可能就不能兼顾开放性;而如果要强调开放和可用,可能安全性就会有一些折扣。如何找到能够平衡和兼顾这四方面要求的IT架构?

传统IT架构行不通

在杰若创看来,传统的用于大数据分析的IT架构无法胜任对国家健康医疗大数据中心的支撑。

首先是扩容性问题。

集中式的存储和计算在集群扩容时必须同时扩充,但实际上往往是计算资源充裕而存储资源不足,这两种资源无差别地扩容直接导致浪费。此时将存储和计算分离的架构所具备的优势就明显了,扩展时自由度高,灵活性强,只有真正缺乏的资源才按需进行扩容——钱花在了刀刃上。

其次是存储容量和实时性。

传统架构,即使是分布式架构,要实现大容量费力且费资源。而杰若创需要的存储容量动辄数百PB甚至上亿B。另外,基因测序技术的发展意味着单个全人类基因组的数据就有90GB,测序仪平台产生的数据要无间断地实时存储——传统架构要做到这一点基本不可能。

再有就是安全性。

传统的平台很难有原生的、严格的数据保护安全机制。尤其是对于国家健康医疗大数据中心这样一个企业级平台来说,收集到的第一手原始资料极为珍贵,其安全性不容有失。

到大数据分析应用层面,对IT架构的要求更上一层楼——在同一标准下对数据进行安全和快速的存储和管理;应用主体体量不一,实施各异,需求多样化。

三层次关键架构

基于需要,杰若创选用了IBM三个层次的方案:对象存储、存储、调度系统。

这三个层次各司其职——最底层的对象存储容量大、安全性好,目前杰若创向前期采购的15PB对象存储里导入了大量的基因组数据;之上利用存储解决多用户负载平衡的问题,在应用层有效地提取底层数据,满足用户对数据的请求;在更上的应用层对接方面,使用IBM LSF调度系统对多用户的不同需求进行业务调度,并在此基础上有效地进行二次开发。

从系统运行的流程来看,IBM提供的解决方案贯穿国家健康医疗大数据中心平台——将从实验室的基因测序仪传过来的数据有效地保存和分类,根据不同用户的安全性和权限性分配相应的数据,调度计算资源分析和应用数据。目前,系统可以对上百个用户提交的不同任务进行有效调度。

从性能提升的角度看, ESS高速存储实现了物理服务器中计算和存储的成功分离,灵活地保证存储跟计算的独立扩容,支持多协议的并发读写,即以企业级的可用性和稳定性支持多种访问协议,而安全性大幅提升;对象存储通过先进的数据纠缠码的加密技术保证可用空间的高效率。

从业务使用的角度看,常用的热数据存放在读写速度较高的ESS高速存储,不常用的冷数据存放于对象存储中。这样可以更高效地配置资源,匹配数据特点与存放位置。

杰若创表示,IBM存储解决方案从基本需求角度满足了对数据容量、数据安全、数据传输速率和数据管理各方面的多种需要,从日常运营角度保证了业务的可扩展性和多样性。从管理成效角度节省了人力成本并提升了灵活性。

不止步于国家健康医疗大数据平台的成功运营,杰若创希望突出体现这一平台对之前运营模式的变革——运用新的技术、新的存储底层、新的整体解决方案实现大数据的聚集和有效应用,挖掘数据里面的价值,从而成为行业的示范,推动整个行业的标准制定。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

24

添加新评论3 条评论

ArchaphylArchaphylCIO, 浪潮集团贵州分公司
2019-08-08 10:09
有没有遇到基于Lustre文件系统的实现?
awp111awp111系统分析师, dtt
2019-05-08 10:29
谢谢分享
wuwenpinwuwenpin软件开发工程师, 南京
2018-11-12 22:22
非常不错,值得收藏!
Ctrl+Enter 发表

作者其他文章

相关文章

相关问题

相关资料

X社区推广