环境:
应用数据使用mysql分库方式
分析数据基于tidb+tispark方式
场景:基于tidb的近实时同步mysql数据库,构建大数据分析架构。
tidb能近实时同步数据,弥补了ETL方式T+1数据采集实时性的不足。
网上查询关于去ETL的IOTA架构但没有建设方案,基于newsql数据库有几个方面不太明白
问题:
1.ETL方式的T+1数据实时性不足,但做状态表的拉链式数据量增加较小,若实时采集数据做拉链表数据可能会急速膨胀,怎么处理?
2.lombda的大数据架构多基于hadoop,可以处理非结构化数据,newsql大多存储机构化数据,需要把采集的非结构化数据转为半结构化进行存储吗?
关于问题1其实可以采用syner 实时同步https://pingcap.com/docs-cn/stable/reference/tools/syncer/ Syncer 是一个数据导入工具,能方便地将 MySQL 的数据增量导入到 TiDB,支持分库 或者直接采用DM,参考https://pingcap.com/docs-cn/stable/reference/tools/data-migration/overview/#dm-%e6%9e%b6%e6%9e%84
DM (Data Migration) 是一体化的数据同步任务管理平台,支持从 MySQL 或 MariaDB 到 TiDB 的全量数据迁移和增量数据同步。使用 DM 工具有利于简化错误处理流程,降低运维成本。
至于问题2处理方式大同小异,如果使用 tispark ,需要进行数据的预处理