基于newsql的大数据分析架构的两个疑问?

环境:
 应用数据使用mysql分库方式
分析数据基于tidb+tispark方式
场景:基于tidb的近实时同步mysql数据库,构建大数据分析架构。
        tidb能近实时同步数据,弥补了ETL方式T+1数据采集实时性的不足。
网上查询关于去ETL的IOTA架构但没有建设方案,基于newsql数据库有几个方面不太明白
问题:
  1.ETL方式的T+1数据实时性不足,但做状态表的拉链式数据量增加较小,若实时采集数据做拉链表数据可能会急速膨胀,怎么处理?
2.lombda的大数据架构多基于hadoop,可以处理非结构化数据,newsql大多存储机构化数据,需要把采集的非结构化数据转为半结构化进行存储吗?

1回答

韩成亮韩成亮  数据库管理员 , KE
zhuhaiqiang赞同了此回答
关于问题1其实可以采用syner 实时同步https://pingcap.com/docs-cn/stable/reference/tools/syncer/ Syncer 是一个数据导入工具,能方便地将 MySQL 的数据增量导入到 TiDB,支持分库 或者直接采用DM,参考https://pingcap.com/docs-cn/stable/reference/tools/data-migration/...显示全部

关于问题1其实可以采用syner 实时同步https://pingcap.com/docs-cn/stable/reference/tools/syncer/ Syncer 是一个数据导入工具,能方便地将 MySQL 的数据增量导入到 TiDB,支持分库 或者直接采用DM,参考https://pingcap.com/docs-cn/stable/reference/tools/data-migration/overview/#dm-%e6%9e%b6%e6%9e%84
DM (Data Migration) 是一体化的数据同步任务管理平台,支持从 MySQL 或 MariaDB 到 TiDB 的全量数据迁移和增量数据同步。使用 DM 工具有利于简化错误处理流程,降低运维成本。
至于问题2处理方式大同小异,如果使用 tispark ,需要进行数据的预处理

收起
 2019-11-14
  • 我们目前也是使用dm进行数据同步的,不过mysql里没有历史数据,数据时基于原数据做update或delete,这就导致tidb里没有历史数据可用。做分析来说,历史数据应该是很重要要的吧?
    2019-11-15

提问者

冰玉数据库开发工程师, 上海海典

问题状态

  • 发布时间:2019-11-14
  • 关注会员:1 人
  • 问题浏览:1164
  • 最近回答:2019-11-14
  • 关于TWT  使用指南  社区专家合作  厂商入驻社区  企业招聘  投诉建议  版权与免责声明  联系我们
    © 2019  talkwithtrend — talk with trend,talk with technologist 京ICP备09031017号-30