任晓蕾
作者任晓蕾2021-12-31 14:34
解决方案架构师, 英特尔社区

分布式数据库技术趋势与英特尔最佳实践 - 文字版(上)

字数 3921阅读 1567评论 0赞 0

我和我的同事邓刚一起给大家来讲的主题是分布式数据库技术的趋势与英特尔的最佳实践。主要内容分以下两个部分,首先,我会就数据库技术的主要的市场技术趋势和全景的技术生态跟大家做一个介绍。再由我的同事邓刚就英特尔数据库技术的创新和最佳实践给大家做分享。

先来看一下数据库技术的市场趋势。大家看一下左下角的这个图,是 IDC 发布的一个分析报告, 2019 年中国关系型数据库的整个的市场份额是 13.4 亿美元。其中,传统的部署的市场规模是 7.9 亿美元 , 公有云的部署规模是 5.5 亿美元,整体市场的增长比是 30.8% 。再来看这两部分,公有云和传统部署的比例 , 可以看到公有云的增长是非常快的,是不断加速的,公有云在未来的五年里面总的增长率会达到 35.5% ,整体的市场在未来五年会有 23.3% 的增长率。

再来看一下数据库市场,数据库技术在整个行业的趋势。第一个趋势就是我们现在的数据库从传统的交易型数据库,更多的向分析型和分布式数据库的需求转换,所以更多的部署进行了分析和交易的融合,或者是分布式的数据库的部署。客户也从原有的商业化的数据库转向开源的数据库。而对于服务器的厂商来说,由于国内的去 IOT 的需求,我们本土的数据库厂商百花齐放,呈现一个快速增长的趋势,在银行,电信,金融等行业有大规模的部署。整体来看,对于国外的数据库产品的替代,现在属于尝试性的阶段,整个行业来说,在某些行业还没有进行大规模的部署,还没有规模化。

再从云服务厂商来说,其实对于中小型企业来说,很多中小型企业都采用了云数据库厂商的部署,数据库上云。但是对于金融,电信,或者是一些敏感的行业,由于数据安全性的问题,他们大部分的数据库的产品还是部署在本地或者是私有云,所以对于公有云厂商来说,他们会把他们的云数据库的产品下移,然后去寻求私有云或者传统数据库部署的市场发展。

我们再来看一下数据库技术的发展趋势,数据库技术从上世纪八九十年代的主要是大机的部署,发展到以 Oracle/SAP/DB2 等小机加阵列的集中式存储的部署方式。再进一步,从原有的垂直扩展变成了数据库一体机,这种以 Oracle Exadata 解决方案为代表的数据库一体机和数据库设备,它实现了计算节点的 Scale out ,可以扩展到十几个节点。同时,它的计算节点和存储节点可以通过高速低延迟的 RDMA 网络相连,所以实现快速的交易系统。那么对于国内的厂商,他们根据 Oracle Exadata 的架构,也开发出了相应的本土化的产品,对比而言,本土化的产品具有更高的性价比。

因为传统的数据库的一体机产品主要是基于 Oracle 技术,现在很多的客户从商业数据库转向开源数据库产品,所以现在更多的客户就转向了基于中间件的分库分表的开源分布式数据库的解决方案。具代表性的就是 MySQL 的分库分表一写多读的解决方案,这种分布式数据库的部署其实在银行金融行业有大规模的应用,一些大型的国有银行已经把他们原有像 Oracle/DB2 这种集中式的数据库,变成了分布式的数据库,基于 MySQL 、 PostgreSQL ,采用了国产软件商的一些分布式的数据库部署方案。这种解决方案主要是,由中间层可以进行数据库交易的两段式提交来保障事务的一致性,同时也可以 Proxy 相应的请求到合适的数据库分区的节点。因此对中间件一层的编程要求会比较高,对于整个企业研发团队的技术要求也比较高。对于某些中小型企业,他们可能会去追寻一种更加易于使用的方案,所以就出现了云原生的或者是以 NewSQL 数据库为代表的这一类解决方案,这一类的解决方案实际上是把原来基于中间件这层的基于分布式数据库的解决方案,包装到数据库的引擎里面,那么只公开一个兼容 SQL 的接口,对于用户来说是更加易用,不需要去关心底层这种分布式事务如何去做管理,也不需要关心如何自动进行分库分表,如何去 Proxy 相应的请求。客户就可以很方便的把他原来的数据库应用,迁移到云原生的数据库。这里面主要的代表有像阿里的 PolarDB ,腾讯的 TDSQL 等分布式数据库,同时还有一类 NewSQL 数据库 , 其实是基于统一的存储,把分析和交易进行了融合,也就是在基于统一的存储之上有可以兼容 MySQL 的接口进行交易处理,同时比如说对于 PostgreSQL 可以采用 Greenplum 去做分析, PostgreSQL 的 SQL 引擎去做交易,这是一种我们现在称为叫 HTAP 的数据库,用户可以很方便的把它的交易型数据库和分析型数据库结合在一起。其中比较典型的代表是基于 Google Spanner 技术的 TiDB , CockroachDB 等。

以上的这些解决方案,其实它的数据库技术可能都是基于传统的以优化磁盘 I/O 为设计思路。随着现在存储介质的硬件技术的进步,存储吞吐量越来越大,延迟越来越小,尤其是出现了像英特尔 ® 傲腾 ™ 持久内存这种可以直接把数据存储在内存里面的介质,实际上我们更多的数据库可能就采用了这种内存数据库、内存数据网格的方式。主要设计思路是把内存存储和块存储结合在一起,然后把主要的交易数据缓存在内存里面,然后通过指定的 Checkpoint 去把整个内存镜像去落盘,这样的话就把原来的随机读写变成了顺序读写,可以很方便的利用到块存储的方式,这种块存储方式例如在云存储厂商中为较多较常见的云存储。我们可以看到整个数据库的技术趋势,它是从商业到开源,从垂直扩展到水平扩展,从原有的集中式到分布式的一个大的技术趋势。

从技术热点来说,可以看到现在的技术热点,首先是云资源的生态非常丰富。同时,整个应用的架构从原有的单体式应用到微服务的架构,数据库也从单体的集中式的数据库变成了分布式的数据库。跟云资源结合在一起,就变成了云原生的数据库,那它的优势在于可以提供一个 Database as Service ( DBaaS ),可以灵活的去做数据库的扩展,同时还可以提供多租户,用户完全不用去关心底层的基础设施,就可以达到弹性灵活,非常便于部署。

数据库技术的另一个热点就是基于分布式架构,对于不同的数据,以前的数据库都是对交易信息去做处理,大部分的数据是结构化的数据;现在的数据库市场很多的数据库厂商推出了多模混合的产品,既可以处理结构化的信息,又可以处理半结构化和非结构化的信息多种模型混合,然后去做处理。同时对于数据库的能力来说智能化得到增强,希望能够有一个自适应,一个自主自治的数据库,可以自动分库分表,也可以根据当前的访问热点去自动建索引,帮助用户优化对数据库的读写,在出现数据库故障时,又可以自动恢复,这些其实都是目前数据库技术一个增强的功能特性。

我们再来看一下整个中国数据库生态系统的全景概览,其实这里面整个图是包含了大数据、存储和整体的交易型和分析型数据库,从下面的第二行,其实就是中国整个数据库的生态,它包括了像星环,南大通用这种数据库厂商 , 也包含了像 Hotdb 、 Oceanbase 和 PingCap 的 Tidb 这种基于 MySQL 的分布式数据库,还有天机,沃趣这类国产数据库一体机的产品。还有像巨杉种文档型数据库。我们可以看到在国内的数据库市场里面,国产数据库厂商真的是百花齐放,都在快速增长和技术演进,在很多行业也得到了一定规模的部署。

从中国数据库技术的主要参与者来说,主要分为三大部分,一部分是以云服务提供商提供的云上的数据库,其中是以阿里,腾讯,百度,还有像金山云这些为代表的云上数据库的产品。对于这种 CSP 厂商来说,很多中小型企业是把他的数据库在应用上云的同时,会把数据库去做迁移上云。云上数据库占了这种 CSP 厂商大概 20% 左右的收入。同时,在云原生数据库里面, MySQL 是占了 70% 多的份额。所以对于 CSP 厂商,他在推进小中小型企业上云的同时,还将他的这种云上数据库能力输出到了私有云的企业市场,希望能够去做传统部署或者私有云的部署,来进军一些数据比较敏感更倾向于私有云部署的行业和用户。另外一类数据库的主要参与者就是数据库的传统厂商,像中兴,热璞等这些厂商 , 其实他们更多的是针对开源的数据库去做相应的分布式数据库的产品。同时也有一些新型的数据库厂商比如 PingCap ,它是针对做 HTAP 或者是一些融合的数据库,关注于不同行业的私有云市场。最后对于 OEM 厂商,他们在他的硬件平台上也推出了基于开源数据库产品的数据库产品来供用户使用。

最后总结一下英特尔在数据库领域的总体技术能力,它是自底向上提供了四层的能力,基于英特尔 ® 至强 ® 可扩展平台的硬件特性基础上,提供了一些创新的技术应用,比如像 英特尔 ® Transactional Synchronization Extensions 英特尔 ® TSX 的锁加速技术,还有 英特尔 ® QuickAssist 技术 ( 英特尔 ® QAT)提升服务器性能-英特尔® 官网") 可以去做相应的加密、解密,或者是对于数据加解压的硬件解决方案,还有 英特尔 ® 傲腾 ™ 持久内存,可以提供更大容量的内存,或者是更快的接近于内存的持久化存储介质的特性。基于这些硬件特性,在硬件平台的基础上,我们针对各个国内数据库厂商做了相应的功能性能的测试验证,针对他们的性能测试验证提供了最佳实践解决方案,我们还可以帮助各个行业客户去做相应的分布式数据库的参考架构设计。同时,英特尔提供了很多的软件的产品,软件的库函数和框架来帮助用户对数据库产品去做优化。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

0

添加新评论0 条评论

Ctrl+Enter 发表

相关问题

相关资料