医疗数据包括结构化和非结构化还有半结构化数据,数据类型多种多样,有的数据适合批处理,而有的数据适合流处理 ,所以选用开源大数据架构的Apache Spark建设医院大数据分析平台。
Spark Sql 是Spark来操作结构化数据的程序包,可以让我使用SQL语句的方式来查询数据,Spark支持多种数据源,包含Hive表,parquest以及JSON等内容。
在Spark程序中使用一个预训练过的模型,将其并行应用于大型数据集的数据处理。比如,给定一个可以识别图片的分类模型,其通过一个标准数据集训练过(如ImageNet)。可以在一个Spark程序中调用一个框架(如TensorFlow或keras)进行分布式预测。通过在大数据处理过程中调用预训练模型可以直接对非结构化数据进行直接处理。