开源、多云、并行

大数据平台

Greenplum 是全球领先的大数据分析引擎,专为数据分析、机器学习和人工智能而打造

选择 Greenplum 的理由

快速创建和部署复杂模型,大量数百节点集群为全球2000强企业生产系统提供服务,被广泛应用于网络安全、预测性维护、风险管理、欺诈检测等领域

flexibility

强大的扩展能力

PB 级数据存储、处理和实时分析能力

具有良好的弹性和线性扩展能力,内置并行存储、并行通讯、并行计算和优化技术,兼容 SQL 标准,支持扩展 (Extension)、自定义类型和函数、PXF 和外部表技术。

scale

强大的灵活性

一次打包,到处运行

不管是裸机、私有云还是公有云。不受限于硬件环境和平台,用户可以灵活选择最适合自己的方案,迁移代价低。硬件环境的普适性,提供了极大的灵活性,解放了硬件平台的制约和绑定,实现无缝迁移。

ai

商业智能到人工智能

集成数据分析平台

支持商业智能 (BI)、文本、GIS、图、图像、流式数据处理等。通过开源的 Apache MADlib ,Greenplum 可以在库内运行几十种数据分析和机器学习算法。

open

开源且持续投入

避免后⻔问题和被锁定问题

采用敏捷方法开发,实现了快速迭代、持续发布和质量内建。Greenplum 经过十多年发展,有大量活跃客户,具备企业级稳定性,Greenplum 生态非常完善,有大量的合作伙伴。

Greenplum Database® 功能

大规模并行处理架构

Greenplum 大数据平台基于 MPP (大规模并行处理)架构,具有强大的内核技术,包括数据水平分布、并行查询执行、专业优化器、线性扩展能力、多态存储、资源管理、高可用、高速数据加载等。

支持多种数据源和数据格式

支持各种数据源,包括 Hadoop, HIVE, HBase, S3, Gemfire等,不需要移动数据,避免数据加载的复杂性,以及数据不一致的问题。支持结构化、半结构化 (XML, JSON, KV )以及非结构化数据(文本数据、GIS 数据、图数据等)。

多态数据存储

Greenplum 的存储支持堆表,以及面向行存或列存的优化表。用户可以创建基于任意存储类型的分区表,同时可以灵活配置表和分区的压缩类型、压缩级别和存储块大小等参数。

集成数据库分析处理数据科学

采用可扩展数据库分析开源库 Apache MADlib处理数据。MADlib 提供 SQL 接口进行数据分析,大大降低了数据分析的⻔槛;MADlib 建于数据库内,使用 MPP 的优势,提高了分析的效率;MADlib可以在全量数据,而不是抽样数据上进行分析,提高了精度。

查询优化的创新

Greenplum 提供的查询优化器是业界第一个开源的基于代价的查询优化器,专为大数据负载而设计。它可以将交互式和批处理模式分析扩展到 PB 级的大型数据集,而不会降低查询性能和吞吐量。

商业版性能简介

轻松处理流数据

实时查询 Amazon S3 对象,实现事件快速处理及集成云数据。VMware Greenplum 的 Kafka 集成得到 Confluent 认证。

安全性和灾难恢复

提供安全性和身份验证功能特性,以及高可用性、智能故障检测、备份和灾难恢复,满足法规要求。

VMware 认证的蓝图

使用 Dell Greenplum 参考体系架构实现最优本地部署。也可以使用 HP 或 Cisco 认证的配置或您自己的商用硬件。

Greenplum 中文社区定期举办线上、线下的技术沙龙、培训、行业会议

开发者社区

了解更多产品相关信息请详阅 GPDB 最新文档

安全团队提交相关问题

联系我们

加入 Slack 上 GPDB 频道的讨论

微信上添加 ”gp_assistant_3″ 加入技术讨论群

关注微信公众号

VMware 中国研发中心

Greenplum官方技术交流群

扫码添加小助手即可入群,添加时请备注 “GP网站”