全球首个开源、多云、并行
大数据平台

Greenplum 是全球最先进的大数据分析引擎,专为分析、机器学习和AI而打造

选择 Greenplum 的理由

快速创建和部署复杂模型,大量数百节点集群为全球2000强企业生产系统提供服务,被广泛应用于网络安全,预测性维护,风险管理,欺诈检测等领域

内核强大

线性拓展能力

PB级存储、处理和实时分析能力

具有良好的弹性和线性扩展能力,内置并行存储、并行通讯、并行计算和优化技术,兼容 SQL 标准,支持扩展 (Extension)、自定义类型和函数、PXF 和外部表技术。

灵活稳定

强大的灵活性

一次打包,到处运行

不管是裸机、私有云还是公有云。不受限于硬件环境和平台,用户可以灵活的选择最适合自己的方案,迁移代价低。硬件环境的普适性,提供了极大的灵活性,解放了硬件平台的制约和绑定,可以在其间无缝迁移。

机器学习

从 BI 到 AI

集成数据分析平台

支持商业智能 (BI)、文本、GIS、图、图像、流式数据处理等。通过 Pivotal 开源的 Apache顶级项目 MADlib ,Greenplum 可以在数据内部运行 50 多种数据分析和机器学习算法。

开源敏捷

开源且持续投入

避免后⻔问题和被锁定问题

采用敏捷方法开发,实现了快速迭代、持续发布和质量内建。Greenplum 经过十多年发展,有大量活跃客户,具备企业级稳定性,Greenplum 生态非常完善,有大量的合作伙伴。

DB Architecture

大规模并行处理架构

Greenplum 大数据平台基于 MPP (大规模并行处理)架构,具有强大的内核技术,包括数据水平分布、并行查询执行、专业优化器、线性扩展能力、多态存储、资源管理、高可用、高速数据加载等。

支持多种数据源和数据格式

支持各种数据源,包括 Hadoop、HIVE、HBase、 S3、Gemfire、各种数据库和文件等,不需要移动数据,避免了数据加载的复杂性,和其带来的数据不一致的问题。不管是结构化、半结构化( XML、JSON、KV )还是非结构化, 譬如文本数据、GIS 数据、图数据等。

Cloud Database
Data-Storage.png

多态数据存储

Greenplum 的存储支持堆表,以及面向行存或列存的追加表。用户可以创建基于任意存储类型的分区表,同时可以灵活配置表和分区的压缩类型、压缩级别和存储块大小等参数。

集成数据库分析处理数据科学

Greenplum采用可扩展数据库分析开源库Apache MADlib处理数据科学。MADlib 提供 SQL 接口进行数据分析,大大降低了数据分析的⻔槛;MADlib 内建于数据库内,使用 MPP 的优势,提高了分析的效率;MADlib可以在全量数据,而不是抽样数据上进行分析,提高了精度。 可以使用多种语言实现用户自定义函数和聚集,包括 PL/Python、PL/R、 PL/Java、PL/Perl、PL/PGSQL 和 C 等。

Database-Network.png
Optimization

查询优化的创新

Greenplum提供的查询优化器是业界第一个开源的基于代价的查询优化器,专为大数据负载而设计。它可以将交互式和批处理模式分析扩展到 PB 级的大型数据集,而不会降低查询性能和吞吐量。

近期活动

Greenplum中文社区定期举办线上、线下的技术沙龙、培训、行业会议

揭秘Greenplum存储引擎之Heap表

活动时间:11月18日 20:00 – 21:00
活动形式:钉钉直播

存储引擎是数据库底层软件组织,数据库管理系统(DBMS)使用数据引擎进行创建、查询、更新和删除数据。不同的存储引擎提供不同的存储机制、索引技巧、锁定水平等功能。分布式存储是Greenplum并行化的基石,本讲带你探索Greenplum存储引擎最本质和基础的问题:Heap表的实现原理…

Greenplum中文社区

六节课快速上手Greenplum之常见问题

活动时间:11月28日 14:00-15:00
活动形式:线上直播

第五堂课的主题是Greenplum的常见问题分析和处理。原厂高级解决方案架构师陈彰将教大家如何排查问题,分析问题,和解决问题。并针对Greenplum的出现率较高的问题进行深入的分析和讲解,帮助大家在遇到同类问题时很好的排查解决…

准备好了吗?

体验功能强大,成熟、稳定、集成、开源的大数据平台

关注微信公众号

Greenplum中文社区

Greenplum官方微信群

扫码加入我们的技术讨论,请备注“网站”