zftang
作者zftang·2020-04-28 09:06
其它·小白一枚

Greenplum 分布式数据仓库软件特性介绍

字数 1580阅读 834评论 0赞 0

Greenplum 数据仓库软件是业界首创将大规模并行计算技术,应用到了数据库软件领域。该类技术同样应用在 Google 搜索引擎的中。

Greenplum 数据仓库软件功能:

无共享/MPP核心架构**

Greenplum 数据库软件将数据平均分布到系统的所有节点服务器上,所以节点存储每张表或表分区的部分行,所有数据加载和查询都是自动在各个节点服务器上并行运行,并且该架构支持扩展到上万个节点。

混合的存储和执行(按列或按行)**

Greenplum 发明支持混合按列或按行存储数据,每张表或表分区可以由管理员根据应用需要,分别指定存储和压缩方式。

基于这个功能,用户可以对任何表或表分区选择按行或按列存储数据和处理方式。这些是在建表或表分区的 DDL 语句中配置的,只需在建表或表分区时指定:

这个功能基于 Greenplum 的多态维数据存储技术。

多层次的容错能力**

Greenplum 数据仓库软件自己包含多层次容错和冗余能力,这是云计算架构软件的一个重要特征。该功能保证整个数据仓库系统在遇到硬件、软件的故障的情况下,任然自动继续运行。

在线系统扩容(永不停机)**

在系统中增加节点服务器即可增加存储容量,处理性能和加载性能。当系统扩展时,数据仓库保持在线,并且完全可用,扩展进程在后台运行。增加节点服务器,性能和容量线性增加。

负载管理(Workload Management

具有系统资源管控能力,并且可控制给各个查询分配各自系统资源。允许管理员指派资源队列,从而管理数据仓库的队列进入执行情况。在运行的查询的优先级可以随时调整。

PB级的装载能力

基于 MPP Scatter/Gather 流技术的高性能并行加载功能。加载速度随着节点线性增加,实际超过 4TB/ 小时。


灵活的外部数据访问**

数据仓库软件可在任意外部数据源上并行运行常规 SQL ,不论外部数据源的位置,格式或存储介质。

数据库内压缩**

利用业界领先的压缩技术,进一步提高性能,并极大地节省了数据存储空间。用户可获得 3-10 倍的空间节省,并且同时获得相应有效 I/O 性能提升。

多层次表分区能力**

允许灵活地按照时间、范围、值域划分表分区。表分区由 DDL 设定,分区层级不限。数据仓库软件的查询优化器自动从查询执行计划中略去不涉及的表分区。

索引功能**

Greenplum 支持各种数据库索引技术,包括 B-Tree , Bitmap 等等。按列存储、按行存储数据库表都支持索引。

完全遵从SQL最新标准

遵从 SQL-92 , SQL-99 ,至 SQL 2003 标准,并包括 SQL 2003 OLAP 扩展项。所有 SQL 查询都是在系统上并行执行。

原生MapReduce功能**

MapReduce 由 Google 发明,已被证实为一个高扩展性的文本非结构化数据分析的技术。 Greenplum 的并行数据库软件核心可原生运行 MapReduce 程序。

支持SQL 2003 OLAP扩展标准**

对 SQL 语言包括其 OLAP 扩展标准,都是在 Greenplum 数据仓库软件实现并行执行。全面支持 SQL 2003 OLAP 标准,包括 Window 函数, Rollup , Cube 等等。

客户端访问及第三方工具支持**

完全支持数据库技术接口标准,例如 : SQL, ODBC, JDBC, OLEDB 等。同时,广泛地支持各个 BI 和 ETL 软件工具。

Greenplum性能监控器

一个 Web GUI 的 Greenplum 数据仓库系统运行状态监控工具,可以监控操作系统级信息以及数据库软件 SQL 运行状态细节。它的仪表盘可以查看,在 SQL 运行时,数据仓库系统资源利用情况。并且,还可以深入显示当前或历史的 SQL 运行细节,帮助更深入理解某一 SQL 性能状况。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

0

添加新评论0 条评论

Ctrl+Enter 发表

作者其他文章

相关问题

相关资料

X社区推广