医疗行业大数据项目技术难点包括以下几个方面:
一是非结构化文档及自然语言的结构化处理。包括中文分词、标准化、XML解析、本体构建、语义标注等。例如,电子病历的“结构化”是从医学信息学的角度将以自然语言方式录入的医疗文书按照医学术语的要求进行结构化分析,并将这些语义结构最终以关系型结构的方式保存到数据库中。
二是医疗大数据标准化与整合。将不同科室,不同业务系统的非结构化、零乱的数据整合成有利用价值的数据;对大数据进行过滤,设计脏数据过滤规则;数据一致性检查,无效值和缺失值处理。
三是数据聚类分析、算法与建模。包括贝叶斯模型、人工神经网络、随机森林算法、决策树理论、d-s证据理论、临床决策指标矩阵理论等,有可能在一类应用中要涉及多个模型与算法。
四是大数据快速检索与处理。包括基础设施建设;大容量医疗数据的组织、存储与索引技术,实现数据的高并发访问与快速提取等。采用全闪存阵列实现对原有存储系统加速的方式,为大数据分析平台的搭建提供存储架构的支持。
五是数据安全。要确保医疗大数据利用过程中,不被外界窃取和修改,要建立相应的数据加密技术和数据访问授权机制等。数据加密采用ssl vpn技术加密,保障数据的传输安全和内容安全,数据的访问要实现双因子认证,帐号密码加专用密钥的方式。