医疗数据分为结构化数据、非结构性化数据和半结构化数据,例如,His多系统产生的数据基本上是结构化数据,而PACS影像系统产生的是非结构化数据,电子病历系统EMR有可能产生的是半结构化数据,我的问题是,如何来根据数据结构类型来选择大数据的处理方式,使得处理框架最优化?
医疗数据包括结构化和非结构化还有半结构化数据,数据类型多种多样,有的数据适合批处理,而有的数据适合流处理 ,所以选用开源大数据架构的Apache Spark建设医院大数据分析平台。
Spark Sql 是Spark来操作结构化数据的程序包,可以让我使用SQL语句的方式来查询数据,Spark支持多种数据源,包含Hive表,parquest以及JSON等内容。
在Spark程序中使用一个预训练过的模型,将其并行应用于大型数据集的数据处理。比如,给定一个可以识别图片的分类模型,其通过一个标准数据集训练过(如ImageNet)。可以在一个Spark程序中调用一个框架(如TensorFlow或keras)进行分布式预测。通过在大数据处理过程中调用预训练模型可以直接对非结构化数据进行直接处理。