开源、多云、并行

大数据平台

Greenplum 是全球领先的大数据分析引擎，专为数据分析、机器学习和人工智能而打造

选择 Greenplum 的理由

快速创建和部署复杂模型，大量数百节点集群为全球2000强企业生产系统提供服务，被广泛应用于网络安全、预测性维护、风险管理、欺诈检测等领域

强大的扩展能力

PB 级数据存储、处理和实时分析能力

具有良好的弹性和线性扩展能力，内置并行存储、并行通讯、并行计算和优化技术，兼容 SQL 标准，支持扩展 (Extension)、自定义类型和函数、PXF 和外部表技术。

强大的灵活性

一次打包，到处运行

不管是裸机、私有云还是公有云。不受限于硬件环境和平台，用户可以灵活选择最适合自己的方案，迁移代价低。硬件环境的普适性，提供了极大的灵活性，解放了硬件平台的制约和绑定，实现无缝迁移。

商业智能到人工智能

集成数据分析平台

支持商业智能 (BI)、文本、GIS、图、图像、流式数据处理等。通过开源的 Apache MADlib ，Greenplum 可以在库内运行几十种数据分析和机器学习算法。

开源且持续投入

避免后⻔问题和被锁定问题

采用敏捷方法开发，实现了快速迭代、持续发布和质量内建。Greenplum 经过十多年发展，有大量活跃客户，具备企业级稳定性，Greenplum 生态非常完善，有大量的合作伙伴。

Greenplum Database® 功能

大规模并行处理架构

Greenplum 大数据平台基于 MPP (大规模并行处理）架构，具有强大的内核技术，包括数据水平分布、并行查询执行、专业优化器、线性扩展能力、多态存储、资源管理、高可用、高速数据加载等。

支持多种数据源和数据格式

支持各种数据源，包括 Hadoop, HIVE, HBase, S3, Gemfire等，不需要移动数据，避免数据加载的复杂性，以及数据不一致的问题。支持结构化、半结构化 (XML, JSON, KV )以及非结构化数据（文本数据、GIS 数据、图数据等）。

多态数据存储

Greenplum 的存储支持堆表，以及面向行存或列存的优化表。用户可以创建基于任意存储类型的分区表，同时可以灵活配置表和分区的压缩类型、压缩级别和存储块大小等参数。

集成数据库分析处理数据科学

采用可扩展数据库分析开源库 Apache MADlib处理数据。MADlib 提供 SQL 接口进行数据分析，大大降低了数据分析的⻔槛；MADlib 建于数据库内，使用 MPP 的优势，提高了分析的效率；MADlib可以在全量数据，而不是抽样数据上进行分析，提高了精度。

查询优化的创新

Greenplum 提供的查询优化器是业界第一个开源的基于代价的查询优化器，专为大数据负载而设计。它可以将交互式和批处理模式分析扩展到 PB 级的大型数据集，而不会降低查询性能和吞吐量。

商业版性能简介

轻松处理流数据

实时查询 Amazon S3 对象，实现事件快速处理及集成云数据。VMware Greenplum 的 Kafka 集成得到 Confluent 认证。

安全性和灾难恢复

提供安全性和身份验证功能特性，以及高可用性、智能故障检测、备份和灾难恢复，满足法规要求。

VMware 认证的蓝图

使用 Dell Greenplum 参考体系架构实现最优本地部署。也可以使用 HP 或 Cisco 认证的配置或您自己的商用硬件。