要考虑数据类型、业务场景、时效要求、性能要求等因素。因为数据的多样性必然导致基础架构的复杂性、差异性和多样性。多种类型的数据库、存储架构并存应该是医疗大数据平台的常态,鉴于底层架构对数据及应用上层的透明性特点,结构化关系型数据虽然也能存放在分布式或对象存储中,但是其性能必然大打折扣,不同的数据库设计是,其适宜存储和处理的数据对象是一定的,所以我们在考虑医疗大数据平台基础架构是,要结合业务场景、数据类型、以及各类数据库、存储架构的技术特点综合去考虑。
收起目前各种类型的数据库在数据平台上都有一定的实践,数据平台的选择一般从数据量和负载两个层面来考虑:
从医疗大数据的实际情况看,医疗领域除影像系统外其实很难说有真正意义上的“大”数据,一般来讲都在几十__TB__到数百__TB__之间,有些规模比较小的医院可能只有几__TB__;这些虽然都被称作数据平台或大数据平台,但在实际运行中有很大的不同。而不同医院间数据平台业务负载的区别就更大。_
一般来讲在数据量较小的情况下,各种数据库功能性上都没有问题,但__NoSQL__数据库或分布式数据库在运维管理上会相对复杂一些;一般的关系型数据库(类似__oracle__)是以行方式进行数据操作,这种方式在几十__TB__的数据量上会有比较一定的效率问题,在这时候就可以开始考虑使用以列为方式操作的__NoSQL__数据库,以提升数据检索、计算的效率;在业务负载较重的情况下,如果考虑到单机性能无法满足业务需求,则可以考虑使用分布式的部署方式,利用多台机器并发以达到提升运行效率的目的。_
收起