环境:
应用数据使用mysql分库方式
分析数据基于tidb+tispark方式
场景:基于tidb的近实时同步mysql数据库,构建大数据分析架构。
tidb能近实时同步数据,弥补了ETL方式T+1数据采集实时性的不足。
网上查询关于去ETL的IOTA架构但没有建设方案,基于newsql数据库有几个方面不太明白
问题:
1.ETL方式的T+1数据实时性不足,但做状态表的拉链式数据量增加较小,若实时采集数据做拉链表数据可能会急速膨胀,怎么处理?
2.lombda的大数据架构多基于hadoop,可以处理非结构化数据,newsql大多存储机构化数据,需要把采集的非结构化数据转为半结构化进行存储吗?