sandos
作者sandos2019-04-04 17:23
系统架构师, 上海中医药大学附属曙光医院

临床大数据趋势下医疗数据标准和质量评估体系建立经验分享

字数 9659阅读 1039评论 2赞 5

近年来,随着医疗卫生信息化的迅速发展,大数据在医药研发、疾病管理、公共卫生和健康管理等方面逐渐突显出优势。美、英等发达国家已先后投入巨资开展区域医疗健康信息化建设,希望借助更多、更新的信息化技术,使得医疗健康信息化系统能够最大限度的辅助公民医疗质量和安全,以提升整体医疗服务质量,提高医疗服务可及性,降低医疗费用,减少医疗风险。

对于研究型医院而言,对已有的临床数据的回顾性研究,是分析研究疾病最基本、最重要的研究方法之一。传统研究因很难获得大数量的样本,一般均通过抽样调查,抽取一定代表性的样本,进行统计学分析和研究,以获得预期结果。依托院内的临床大数据平台和临床数据中心,对历史数据进行回顾性统计分析,分析结果将为医生临床诊疗全过程提供疾病共享的发病及治疗总体情况信息,帮助医生科学决策,提高诊疗水平。

以专病数据专题分析研究为例,在院内进行临床大数据分析的技术路线主要包括四个重要步骤:建立专题数据标准和质量体系、纳入数据预评估、建立专题数据模型库以及制定院内数据管控体系,可以说选取适合的数据标准以及为临床专病数据分析建立数据质量体系,是临床大数据研究分析的基础和前提,下文将详细说明:

1、研究方案

建立数据标准和质量体系的目的是确定数据质量评估方案,并且评估数据的科研可用性,以提升数据质量,促进数据的交换共享和利用,首先需梳理专病相关的临床诊疗数据、科研需求数据;其次是筛选出国家、地方以及行业等符合专病的数据相关标准,针对院内的数据情况对选择标准进行扩展;最终根据数据评估情况和专题分析目标,建立和完善专题数据质量的评估体系。

2、研究方法

数据标准:筛选数据来源(以接口规范、院内CDR数据和合作医联体EMR数据为来源)中,符合专病诊断的病例数据,结合专病诊疗指南进行梳理,明确数据质量标准的编制范围。
编制原则:基于国家卫生信息标准进行本地扩展,即国家卫生信息标准已有的则直接采用国家标准,超出国家卫生标准范围之外的则按遵循国家标准编制思路进行扩展。首先是编制数据元标准,再根据电子病历基本数据集进行分类,进一步扩展制定数据集标准。最后是院内临床业务表单,根据专科电子病历需求,对电子病历共享文档规范做进一步的细化和补充,形成专科电子病历共享文档规范。

质量评估体系:首先针对数据质量问题来源,制定一套包括工作流程优化、数据录入质量提升、建立主数据管理、数据质量监控全流程控制、数据清洗的数据质量体系。其次在文献研究基础上,确定疗效分析为研究角度,针对患者住院数据设计数据质量评估方案,评估数据的科研可用性。

3、研究过程

3.1 需求调研

(1)需求范围
临床数据主要包括两大部分:一是临床类数据;二是影像类数据。临床类数据又分为:业务运营相关数据、临床诊疗病史相关数据、医院基础字典数据、医保费用相关数据、医院出院病人调查表。

(2)产出形式
在卫生信息数据标准方面,国家已陆续发布数据元标准、数据集标准、健康档案共享文档规范和电子病历共享文档规范,需在国家卫生信息标准建设的思路指导下,参照卫生信息数据元目录、电子病历数据集标准及电子病历共享文档规范,建立符合临床科研需求的院内专题数据标准体系。

3.2参考标准研究

(1)数据元标准
2011年8月国家卫生计生委统计信息中心编制颁布了《卫生信息数据元目录》,数据来源于城乡居民健康档案基本数据集,数据元目录包含数据元1405个,分为16个小类:标识、人口及社会经济学特征、健康史、健康危险因素、主诉与症状、体格检查、临床辅助检查、实验室检查、医学诊断、医学评估、计划与干预、卫生费用、卫生机构、卫生人员、药品、设备与材料、卫生管理。

《卫生信息数据元目录》属性设置和属性描述方法参照WS/T303-2009,根据数据元重复程度将数据元属性分为公用属性和专用属性两大类。其中公用属性有7项,分别是版本、注册机构、相关环境、分类模式、主管机构、注册状态额提交机构;专用属性有6项,分别为数据元标识符、数据元名称、定义、数据元值的数据类型、表示格式、数据元允许值组成。数据元公用属性在各部分统一描述,而专用属性则采用字典式目录通用描述格式。如数据元“患者姓名”,在数据元目录里的专用属性格式如下:
qtb3objwqt9

qtb3objwqt9

(2)数据集标准
为满足医疗机构临床诊疗信息的数据交换和共享需要,促进医疗机构之间的业务协同,2014年5月30日国家卫生计生委统计信息中心颁布了《WS 445-2014 电子病历基本数据集》。其是在2009年12月颁布的《电子病历基本架构与数据标准》(试行)基础上结合卫生部、国家中医药管理局颁布的《病历书写基本规范(2010)》和《中医病历书写基本规范(2010)》相关要求,将电子病历基本架构划分为病历概要、门(急)诊病历记录、住院病历记录、转诊(院)记录、医疗机构信息,共5个业务域。各业务域的信息内容再根据临床业务规范和实际应用需要,细分为若干个既相对独立又彼此关联的“业务活动记录类别”。基本数据集就是基于“业务活动记录类别”这一层级划分的,共分为17个基本数据集。特别需要说明的是其中病历概要并非直接产生于临床诊疗过程,而是对患者一次就诊过程关键诊疗信息的集成,包括患者的费用信息。设定此业务域的目的是为了给居民健康档案提供所需的医疗摘要数据。

数据集标准制定的关键在于数据元的筛选及其标准化,数据元筛选主要依据2009年以后颁布的卫生行业的业务标准与规范,主要包括《病历书写规范(2010)》、《电子病历基本规范(2010)》、《中医电子病历基本规范 (2010)》、《住院病案首页 (2011)》、《中医住院病案 首页 (2011)》等卫生行业规范。对于上述规范中明确要求记录的数据项,均考虑入选相应的数据集,但数据项是否作为数据元入选基本数据集,还需要根据数据项记录内容的复杂性进一步分析。本标准中数据元的标准化通过以下方式进行:首先将电子病历数据集中所选的数据元与已颁布的《WS363卫生信息数据元目录》进行比对,若WS363中已收录有相同数据元,则等同采用该标准中相应数据元的属性描述;若WS363中已有的数据元在电子病历特定语境下需要通过一定的约束才能使用,则结合特定语境通过对WS 363中的数据元的对象类或允许值进行适当的约束,实现即能与上位标准兼容、又能满足特定语境下数据元属性描述的需求。数据元值域标准化主要参照《WS364卫生信息数据元值域代码表》。对于WS364未包含但在电子病历语境下能够确定其允许值范围的,则列出该数据元允许值的值域代码表,这些值域代码表在WS364更新时将补充纳入其中。

(3)电子病历共享文档规范
2016年国家卫生计生委统计信息中心颁布《WS/T-500电子病历共享文档规范》,在结构上遵循《卫生信息共享文档编制规范》,并结合业务实际进行了细化和应用落地。该标准使用可扩展标记语言(Extensible MarkupLanguage,XML),遵循HL7 RIM模型,借鉴了国际上已有的成熟文档架构标准ISO/HL7 CDA R2三层架构,同时结合我国医疗卫生业务需求,进行本土化约束和适当扩展,以适合我国卫生信息共享文档共享与交换。

在文档架构中定义了每个医疗业务活动文档的内容构成,包括文档头、文档体以及文档体对应的文档章节、文档条目,以及包括的数据元素,并详细描述了每类元素组成及其与数据元的映射关系、数据元值域、属性及相对应的标识符等。数据元素主要以电子病历数据集为基础,以值域代码为标准来规范性记载电子病历共享文档的编码型数据元素。语义内容源自于共享的HL7参考信息模型(Reference Information Model,RIM),并使用HL7 V3的数据类型。
卫生信息共享文档使用了命名空间“xmlnx:pchis”以表示定义于标准中对原HL7 CDA标准命名空间的扩展。唯一对象标识符OID使用了中国卫生信息开放系统互连OID,以标识共享文档中的机构、组织、编码系统等信息对象。

具体研制中,按照确定的总体技术路线和文档架构,分析梳理我国医院面向信息共享的临床业务的实际需求,对各业务表单的内容进行业务梳理与划分,形成若干个内容模块,进一步划分形成若干章节,构建可重用的章节模板和条目模板。在此基础上,以电子病历基本数据集等规范为基础,选择确定共享文档的章节、条目,同时并将数据集的内容映射到共享文档的文档头、文档体中,进一步规范约束共享文档的数据元素,从而生成具体的电子病历共享文档。

3.3数据标准编制

(1)整理数据项
将规范接口、专病诊治指南、科研需求相关数据项汇总整理,删除重复数据项,合并相近、相似数据项,对数据项的名称、定义、字符长度进行统一,整理出院内中心数据库数据项1500多个;医联体补充数据包含数据项1300个左右。其中存在大量重复数据项,尤其是患者信息、医务人员信息。在整理过程中遇到的情况大概有以下几种:
1、数据项名称相同,定义不同或字符长度不同、小数点位数不同;
2、定义相同但名称不同,字符长度、小数点位数不同;
3、数据项名称和定义相同但代码不同,等等。对于以上情况,不能简单的进行合并取舍,应结合数据产生的业务本身来分析,才能整理出符合实际需求的业务数据项。经整理,得出两类疾病相关的数据项大概800余个,其中绝大部分是围绕患者的临床诊疗相关数据。

(2)扩展数据元目录
在国家颁布的卫生信息行业标准基础上,依据《WS/T 303-2009卫生信息数据元标准化规则》、《WS/T 304-2009卫生信息数据模式描述指南》、《WS/T 305-2009卫生信息数据集元数据规范》、《WS/T 306-2009 卫生信息数据集分类与编码规则》,对本研究范围内的数据进行标准化工作。

首先,与国家颁布的卫生信息行业标准《卫生信息数据元目录》、《卫生信息数据元值域代码》、《电子病历基本数据集》进行逐一比对,如在标准里已存在与数据项对应的数据元标准可直接引用,如在标准里没有对应的数据元,则遵循《WS/T 303-2009卫生信息数据元标准化规则》,对不在范围内的数据项进行数据元标准化和分类,包括值域代码标准编制。在编制过程中应特别注意的是,需从实际业务出发,兼顾国家标准和医院业务需求,不能一味追求与国家标准一致,本末倒置,而致所编制的数据元不适合本地使用。如遇到与国家标准一致的数据元,但医院数据的长度或小数位数比数据元要长,则应做扩展,视为新的数据元;如数据元值域代码与国家标准不一致,也需进行具体分析再做处理。原则是遵循国家标准,结合本地情况进行扩展。

在具体编制阶段,将整理得到的数据项,以《WS 363.1-2011卫生信息数据元目录 第1部分:总则》为指导,遵照卫生信息数据元目录编制规则,对数据元从属性与描述方面进行编制。
数据元属性设置参照WS/T303,统一规定采用5类13项属性,并按通用性程度分为两类:数据元公用属性和数据元专用属性。数据元公用属性包括7项,数据元专用属性包括6项,如下表所示。
0akmt6ipykp

0akmt6ipykp

A.数据元标识符
卫生信息数据元目录分16部分,包括标识、人口学及社会经济学特征、健康史、健康危险因素、主诉与症状、体格检查、临床辅助检查、实验室检查、医学诊断、医学评估、计划与干预、卫生费用、卫生机构、卫生人员、药品设备与材料、卫生管理。首先将需扩展的数据项先一一归入以上各类中,然后在《卫生信息数据元目录》基础上,在各类数据元目录后扩展,编制其数据元标识符。

卫生信息数据元(DE)标识符采用字母数字混合码,包含数据标识符(DI)和版本标识符(VI)两级结构。

a)DI按照分类法和流水号相结合的方式,采用字母数字混合码。按照数据元对应的主题分类代码、大类代码、小类代码、顺序码、附加码从左向右顺序排列。
其中:
——主题分类代码:用2位大写英文字母表示。卫生信息领域代码统一定为 “DE”。
——大类代码:用2位数字表示,数字大小无含义。
——小类代码:用2位数字表示,数字大小无含义;无小类时则小类代码为 00。小类与大类代码之间加“.”区分。
——顺序码:用 3位数字表示,代表某一小类下的数据元序号,数字大小无含义;从 001开始顺序编码。顺序码与小类代码之间加“.”区分。
——附加码:用 2位数字表示,代表一组数据元的连用关系编码;从 01开始顺序编码,附加码与顺序号之间加“.”区分。无连用关系的数据元其附加码为 “00”。
b) Ⅵ 结构由4部分组成,为“V”+“m..m”+“n..n”。其中“m..m”和“n..n”为阿拉伯数字构成,在数学上应是具有意义的正整数。“m..m”表示主版本号,“n..n”表示次版本号。

经统计,《卫生信息数据元目录》最后一个数据元的数据元标识符如下表所示:
表 2 《卫生信息数据元目录》数据元标识符统计
lo15qjc8h9

lo15qjc8h9

在《电子病历基本数据集》编制时,又补充了一部分《卫生信息数据元目录》没有的数据元,因此目前数据元标识符编号应该比以上表格要多一些。为避免编号冲突,本研究中扩展的数据元标识符编号顺序码均从501开始,如DE08.10.501.00。

B.数据元名称
遵循卫生信息数据元目录第1部分 总则的规定,数据元“中文名称”应当是唯一的,并且以字母汉字、数字式的字符串形式表示。数据元的命名应使用一定的逻辑结构和通用的术语。

完整的数据元名称 =对象类术语+特性类术语+表示类术语+(限定类术语)。
其中:
—— 一个数据元需要有一个且仅有一个对象类术语。在卫生信息数据元目录中若对象类术语为“本人”,则可酌情省略。
—— 一个数据元需要有一个且仅有一个特性类术语。特性类术语是任何一个数据元名称所必需的成分,在数据元概念可以完整、准确、无歧义表达的情况下,其他术语可以酌情简略。
—— 一个数据元需要有一个且仅有一个表示类术语。当表示类术语与特性类术语有重复或部分重复时,可从名称中将冗余词删除。
—— 限定类术语由专业领域给定,限定类术语是可选的。

C.定义
遵循卫生信息数据元目录第1部分 总则的规定,本研究中数据元定义以字母、汉字、数字式的字符串形式表示。

D.数据元值的数据类型
遵循卫生信息数据元目录第1部分 总则的规定,数据元值的数据类型分为以下几类:字符型(string)、布尔型 (boolean)、数值型(number)、日期时间型 (datetime)。具体描述规则详见卫生信息数据元目录第1部分 总则。

E.表示格式
遵循卫生信息数据元目录第1部分 总则的规定,除了布尔型,其他数据类型表示格式由字符表示和字符长度组成,如字符型AN..10,数字型N..10,2,时间型如DT15。

F.数据元允许值
遵循卫生信息数据元目录第1部分 总则的规定,数据元值域有两种类型:可枚举类型和不可枚举类型。可枚举值域中若可选值较少(如3个或以下)可直接列出,否则应标出值域代码表名称。

G.数据元目录格式
遵循卫生信息数据元目录第1部分 总则的规定,数据元公用属性在各部分统一描述,专用属性按摘要式目录通用格式来描述。详细信息可见总则部分。

(3)扩展电子病历数据集
收集医院内临床诊疗相关的业务表单进行梳理归纳,完成业务需求分析。确定数据集里的数据元条目,按照《WS 370-2012卫生信息基本数据集编制规范》,在《电子病历基本数据集》基础上进行扩展。

A.数据集元数据
直接采用《电子病历基本数据集》的元数据,对数据集进行描述,描述格式如下:
表3《电子病历基本数据集》元数据
507vr1p0tn7

507vr1p0tn7

B.数据集标识符编码规则
沿用《电子病历数据集》的数据集标识符编码规则,采用字母数字混合代码,结构为数据集类目编码(DCC)_版本标识符(VI)。其中数据集类目编码采用长度为9位的字母数字混合码,按业务域代码、一级类目代码、二级类目代码、顺序号从左到右顺序排列。业务域代码统一用HDS表示,一级类目代码应依据《卫生信息基本数据集编制规范》的附录A.1 卫生信息基本数据集分类代码。

C.数据元属性

C.1属性选取
沿用《电子病历基本数据集》里对数据元的描述,选取五类14项数据元基本属性,对扩展的数据元进行描述。
表 4 《电子病历基本数据集》数据元属性列表
wh2i1wx55u

wh2i1wx55u

C.2数据元描述格式
沿用《电子病历基本数据集》的描述格式,在同一个数据集中,公用属性采用下表方式统一描述。
表5《电子病历基本数据集》数据元公用属性描述格式
i67hxgl2ibj

i67hxgl2ibj

数据元专用属性采用下表的摘要式目录描述格式进行描述:
表 6 《电子病历基本数据集》数据元专用属性描述格式
1318qj7z42db
1318qj7z42db

其中内部标识符沿用《电子病历基本数据集》的长度13位的字母数字混合码格式,为避免发生冲突,扩展数据元的内部标识符编码的顺序号从500起往后顺序排列。除了内部标识符,其余的数据元专用属性描述格式均直接沿用数据元标准。

(4)专科电子病历共享文档规范
为实现医院之间以及医院与管理部门之间的电子病历共享,需依据实际的临床业务表单需求,在《电子病历共享文档规范》基础上,依据业务表单内容进行扩展,同时优化文档结构,形成本地化的电子病历共享文档规范。

在卫计委解读《电子病历共享文档规范》中提出,各地在进行医院信息化新建、改建、扩建项目,应以按本标准设定的共享文档为基准,并可结合实际情况按照《卫生信息共享文档编制规范》确定的技术路线进行扩展,以更好地契合各地卫生业务需求。

制定CDA的需求来源于确切的临床实践及数据标准落地,分析梳理医院面向信息共享的临床业务的实际需求,对各业务表单的内容进行业务梳理与划分,形成若干个内容模块,进一步划分形成若干章节,构建可重用的章节模板和条目模板。在此基础上,以电子病历基本数据集等规范为基础,选择确定共享文档的章节、条目,同时并将数据集的内容映射到共享文档的文档头、文档体中,进一步规范约束共享文档的数据元素,从而生成具体的电子病历共享文档。

前期已对需要扩展的数据项进行数据元、数据集的标准化扩展、分类,接下来可将确定的数据集根据临床概念进行章节归类,并映射到可参考的章节模板库里的章节。然后将各章节里的数据元映射到模板库的条目模板中,如果确实找不到合适的章节或条目模板,则可从模板库中选择相似的进行修改或者完全开发一个新的模板,再归入模板库中。下一步在遵循国家已发布的电子病历共享文档规范基础上,对章节模板和条目模板中的具体数据元素和元素属性进行确定,确定文档规范的内容。

3.4数据质量评估体系

大数据质量体系的制定,其根本是为了保证数据的真实性、可用性和适用性。通过分析发现,数据质量问题来源主要有四类。第一类,数据输入性错误,即输入是符合逻辑的,IT技术无法判断数据内容的真实性;第二类,数据一致性错误,数据库保存的数据有错误或因工作人员违规操作等;第三类,数据颗粒度不够。

通过建立数据质量体系来解决上述问题。具体内容包括:
(1)建立保证数据质量的工作流程,建立奖惩制度,如关键数据的录入及审核制度、关键数据发布的核对及审核制度等;
(2)对提高数据录入的环境和系统进行投资,如更新现有系统,降低界面录入的出错率,培训录入人员,增加新的技术和设备提高录入效率;
(3)制定元数据和标准化规范化的术语库,提高数据的准确性,便于检索和统计。
(4)建立数据质量监控指标,随时监测和管理医疗数据的质量,数据质量监控指标由数据项目和质量属性两个部分组成。其中,数据项目是指医院信息系统中需要进行数据质量监控和管理的数据项目,并非所有数据项目都涉及质量问题,需要选择。质量属性是指每个数据项目的质量描述,包括:数据的合法值域,表述数据的类型、长度和取值区间、正常值,以及遵从的标准等;数据的完整性,表述数据是否完整,有无缺失和漏项;数据的一致性,表述同一数据的同一属性在数据系统或数据集内是否一致;数据的关联性,表述数据系统或数据集内数据间是否存在逻辑、数值、应用等方面的关联;数据的有效性,表述数据是否满足应用系统定义的条件;数据的唯一性,表述数据在数据系统或数据集内是否存在重复记录。
(5)数据清洗维护,数据清洗主要目的是检测并消除数据中的错误和不一致,以提高数据质量。主要集中在几个方面:重复对象检测、缺失数据处理、异常数据检测、逻辑错误检测、不一致数据处理等。
A.重复对象检测
主要采用数据库和人工智能方法,主要包括关系数据库数据的重复记录检测和XML元素重复元素检测。对于关系数据库里数据重复记录检测,主要用以下方法进行识别:排序&合并方法、建索引方法、机器学习方法、根据上下文信息识别、基于特定领域知识的方法、根据数据特征的方法。对于重复XML元素检测,相比于传统关系数据库数据,识别层次状的XML数据中重复元素时,面临两个挑战性的问题:一是结构的多样性,二是不同于平面关系数据库数据,层次状的XML数据具有复杂的元素与子元素之间的依赖关系。一种方法是采用XQuery语言将具有不同子树结构的XML元素变换成统一的结构,并将同层次的XML元素的内容合并为一个元素来处理。但这种方法由于混淆了具有不同标签(元素名)的数据进行相似性计算,会损失精度。此外还有一种方法是将具有相似结构的XML元素进行合并的方法,通过三类启发式聚类算法来实现相似重复元素的合并:全部比较聚类、选择比较聚类、M树聚类方法来实现重复元素的有效合并。其主要不足在于它没有解决XML数据结构多样性的问题。因此XML数据清洗技术还有待完善。
B.缺失数据处理
缺失数据处理的研究主要分布在统计领域和数据库领域。主要分成单一填补法和多重填补法。其中单一填补法是指对缺失值构造单一替代值来填补,常见的方法有取平均值或中间数填补法、回归填补法、最大期望填补法、hotdeck填补等方法。其中hotdeck填补法也叫就近补齐,是指采用与有缺失的观测最“相似”的那条观测的相应变量值作为填充值。但单值填充方法常常不能反映原有数据集的不确定性,会造成较大的偏差。多重填补法是指用多个值来填充,然后用针对完整数据集的方法对它们进行分析得出综合的结果。需要指出,缺失值填补主要是为了防止数据分析时,由于相当部分的值空缺导致的分析偏差。但这种填补方法,对于填补的单个数据,只具有统计意义,不具有个体意义。
C.异常数据检测
数据中异常一般是由两种原因造成的:一是数据固有变异性造成的,另外一种则是由于度量或执行错误导致的,在数据清洗时这两者都应予以关注。在数据清洗领域对异常数据的自动化发现主要采用数据审计的方法来解决。其基本步骤主要分两个环节来解决,第一步是数据概化,即采用数理统计的方法对数据分布进行概化描述,以自动化地获得数据的总体分布特征,以此作为进一步分析的基础。然后针对某一特定的数据质量问题进行挖掘以发现异常。在数据清洗领域,由于数据常常是不干净的,在特定的挖掘算法执行前的数据概化常常是非常重要的,这有助于探测型挖掘的进行更有针对性地发现异常数据。
D.逻辑错误检测
实际的信息系统都是面向某一个应用领域的,对于一个具体的应用如何采用自动化的方法来解决数据中不符合业务逻辑的错误,是一个有实际应用价值的问题。这类问题是数据编辑修正所研究的主要内容,其思路是根据应用依赖的领域知识建立规则体系来自动处理。
E.不一致数据处理
多个数据源的数据集成清洗的时候,几个独立维护的数据源经常提供相互重叠的数据内容,会出现不一致的数据,如何从若干个不一致的数据结果中获得理想的数据答案是数据清洗中经常面临的问题。目前常用的方法有排序、融合和根据规则的方式。
通过上述数据质量体系的建立,大大保障了临床数据中心数据的统一性(一致性)、可靠性、高可用性、高适用性,并为数据高效利用奠定了基础。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

5

添加新评论2 条评论

#michael1983技术经理, 某证券
2019-04-06 19:35
医疗行业IT人员的福音
#foxsilver系统工程师, 成都市第十一人民医院
2019-04-04 17:49
针对未建立分析平台的医院有指导意义哈
Ctrl+Enter 发表