博 客

Greenplum数据库进军深度学习领域

深度学习(Deep Learning)开始成为企业计算的一个更重要的部分,这是因为人工神经网络在自然语言处理,图像识别,欺诈检测和推荐系统等领域非常有效。在过去的五到十年中,计算机的计算能力有了极大的增强,以及海量数据的出现,这一切促使人们对使用深度学习算法解决问题产生了兴趣。

阅读全文 »

OLAP在互联网公司的实践与思考【内含PPT】

互联网业务,通常以保障高并发、高性能、大容量的 OLTP 业务为第一要务,但与之相关的,各种 OLAP 需求也是对公司运营、发展状态的直观展示和反映,也是至关重要的数据库功能。如果简单的将这两大类需求在一套数据库中实现,则很容易产生各种问题,比如性能问题、容量问题。那么如何解决这些问题,响应好各种需求?如何设计和实践 OLAP 架构,让两大类需求相互关联并行不悖?从数据角度看,这些需求的本质是什么?本文分享斗鱼网络资深 DBA赵飞祥关于互联网公司的 OLAP 实践与思考,使用 Greenplumn 和 PostgreSQL 的经验和注意事项,希望能给大家带来借鉴和启发。

阅读全文 »

PPT | 阿里云 AnalyticDB for PostgreSQL – 打造更简单易用的Cloud SQL Data Warehouse

Greenplum作为发展历史悠久、业内领先的MPP数据库,以其稳定出色的性能、良好的扩展性赢得业内诸多中小企业的青睐。在演讲中缪长风向大家介绍了Greenplum在阿里巴巴的演进史和最佳实践,并深入讲解了基于Greenplum构筑的云端托管数据仓库服务 AnalyticDB for PostgreSQL,其企业级特性、云上生态建设、行业案例以及未来的roadmap 演进等内容。

阅读全文 »

Greenplum版本4到5升级“避坑”指南

Greenplum数据平台即将发布下一个大版本Greenplum 6,Greenplum 5也已经迭代到5.20+了。Greenplum 5目前已经进入稳定期和维护期。在不久的将来,Greenplum 4将逐渐结束生命周期,Greenplum 5将是Pivotal主要维护的版本。同时,Pivotal从Greenplum 5开始对PostgreSQL内核进行升级,新的PostgreSQL内核将带来更多的功能和性能的体验。因此从用户长期使用和维护Greenplum的角度来说,升级是不可避免的。本文将分享Greenplum版本4到5升级“避坑”指南,手把手教你如何升级成功。

阅读全文 »

查询优化器调优利器之 minirepro

Minirepro 工具是一个比gpsd轻量级的工具。它会收集对应SQL的命名空间信息和统计信息,从而可以在另外一套集群上重现问题。gpsd工具相比Minirepro工具会收集整个数据库的元数据和统计信息。因为Minirepro比GPSD轻量级的优势(只收集对应SQL的信息,而非全库),让它成为数据库管理员和Pivotal售后支持优先使用的优化器排错工具…

阅读全文 »

PPT | Greenplum人工智能工具集—MADLib与图数据分析

图数据(Graph)分析广泛应用于社交网络分析、搜索引擎、计算生物学、安全领域等诸多方面。随着人工智能和机器学习技术的引入,图的理论和算法也有了很大的发展。Apache MADlib是一个基于SQL的开源in-database机器学习库,Greenplum 结合Madlib为用户提供了强大的机器学习相关需求的支持。

阅读全文 »

Greenplum 分布式数据库内核揭秘(下篇)

Greenplum 是最成熟的开源分布式分析型数据库(今年6月份预计发布的 Greenplum 6 之OLTP性能大幅提升,将成为一款真正的HTAP数据库,评测数据将于近期发布),Gartner 2019 最新评测显示 Greenplum 在经典数据分析领域位列全球第三,在实时数据分析领域位列并列第四。两个领域中前十名中唯一一款开源数据库产品。

上篇介绍了集群概述、分布式数据存储和分布式查询优化。本篇继续介绍分布式查询执行、分布式事务、数据洗牌和集群管理等方面。

阅读全文 »

Greenplum 分布式数据库内核揭秘(上篇)

Greenplum 是最成熟的开源分布式分析型数据库(今年6月份预计发布的 Greenplum 6 之OLTP性能大幅提升,将成为一款真正的HTAP数据库,评测数据将于近期发布),Gartner 2019 最新评测显示 Greenplum 在经典数据分析领域位列全球第三,在实时数据分析领域位列并列第四。两个领域中前十名中唯一一款开源数据库产品。

那么 Greenplum 分布式数据库是如何炼成的?本文从6个方面介绍将单节点 PostgreSQL 数据库发展成分布式 MPP 数据库所涉及的主要工作。

本篇主要介绍了Greenplum集群概述、分布式数据存储和分布式查询优化。

阅读全文 »

MongoDB的ACID事务是否已为高性能应用做好了准备?

多年来MongoDB的两个令人担忧的问题是数据持久性和ACID事务支持。 MongoDB一直在采取一种渐进的方式来解决这些问题,并在最新的4.0版本提供了多文档事务支持。 在这篇文章中,我们将回顾这个渐进过程中的细节,并重点阐述MongoDB在事务型并需要高性能(低延迟和高吞吐)的应用程序环境中不足之处。

阅读全文 »

高可用Greenplum

高可用HA(High Availability)是分布式系统架构设计中必须考虑的因素之一,它通常是指,通过设计减少系统不能提供服务的时间。假设系统一直能够提供服务,我们说系统的可用性是100%,很多公司的高可用目标是4个9,也就是99.99%,这就意味着,系统的年停机时间为0.876个小时…

阅读全文 »

Greenplum 带ORCA 优化器的编译安装解析

ORCA是开源的Postgres和Greenplum的优化器,相比于Greenplum和Postgres内置的优化器,ORCA在复杂查询以及分区表等场合有非常好的性能提升。这里介绍下如何使Greenplum支持ORCA,以及如何运行Greenplum的测试用例installcheck-world。

阅读全文 »
以上是所有博客文章
Search

博客分类

关注微信公众号

VMware 中国研发中心