大型三甲医院的业务系统大多经历十几年的建设,不同的数据库,不同的系统构架,导致数据类型和架构复杂,如何同步这些数据到科研平台,是个比较复杂的问题,如何即要不能影响业务的正常运行,又要保证数据的及时性完整性,
数据的同步方式包括如下几种方式:
1、梳理业务、修改应用软件,将科研平台所需数据同时写入业务系统和科研平台,这种方式数据同步和业务紧耦合,能保证数据实时,但是业务增加了故障点,并且增加了业务系统的负担,性能也会有所下降;
2、通过相关统计、汇总或同步的功能或者是数据库job抑或是第三方同步软件如oracle的goldengate等,直接操作业务系统数据库,同步数据到科研平台,其底层逻辑是生成相应的数据库视图、存储过程或者是对数据库日志等进行解析操作,从而达到数据同步的目的;这种方式实时性没第一种高,与业务半耦合,查询语句较大时也会给业务产生一定的负担,
3、对业务系统通过其数据库专有备份组件,做实时备份,如oracle的dataguard,然后通过数据同步工具如oracle的goldengate,抽取该备份系统的数据到科研平台,这种方式对业务影响最小,当然时延也较大。
针对科研平台的业务特性,其对数据的实时性要求并不高,数据要求也是保证今天以前的数据能有效同步即可,所以如果成本和技术支持的话,建议通过第三种方式,对业务系统影响最小,也能够达到科研平台数据同步的目标。
如果数据是同步到科研平台,那么实时性不强,科研平台一般都是T+1,T+5,T+7,可以通过ETL工具按照时间增量抽取,做好数据校验。如果后续业务延伸不止科研平台,那么建议要做实时数据同步的ODS(数据湖),比较好的办法就是ogg+cdc基于业务数据的复制库来实现,这部分工作要有运维,建议找一个靠谱的公司来实现,把这块地基打牢。
收起