博 客
Greenplum数据库进军深度学习领域
深度学习(Deep Learning)开始成为企业计算的一个更重要的部分,这是因为人工神经网络在自然语言处理,图像识别,欺诈检测和推荐系统等领域非常有效。在过去的五到十年中,计算机的计算能力有了极大的增强,以及海量数据的出现,这一切促使人们对使用深度学习算法解决问题产生了兴趣。
OLAP在互联网公司的实践与思考【内含PPT】
互联网业务,通常以保障高并发、高性能、大容量的 OLTP 业务为第一要务,但与之相关的,各种 OLAP 需求也是对公司运营、发展状态的直观展示和反映,也是至关重要的数据库功能。如果简单的将这两大类需求在一套数据库中实现,则很容易产生各种问题,比如性能问题、容量问题。那么如何解决这些问题,响应好各种需求?如何设计和实践 OLAP 架构,让两大类需求相互关联并行不悖?从数据角度看,这些需求的本质是什么?本文分享斗鱼网络资深 DBA赵飞祥关于互联网公司的 OLAP 实践与思考,使用 Greenplumn 和 PostgreSQL 的经验和注意事项,希望能给大家带来借鉴和启发。
PPT | 阿里云 AnalyticDB for PostgreSQL – 打造更简单易用的Cloud SQL Data Warehouse
Greenplum作为发展历史悠久、业内领先的MPP数据库,以其稳定出色的性能、良好的扩展性赢得业内诸多中小企业的青睐。在演讲中缪长风向大家介绍了Greenplum在阿里巴巴的演进史和最佳实践,并深入讲解了基于Greenplum构筑的云端托管数据仓库服务 AnalyticDB for PostgreSQL,其企业级特性、云上生态建设、行业案例以及未来的roadmap 演进等内容。
PPT | Greenplum应用之金融行业实践——蓝灯数据ABC技术
本篇文章为大家详细讲解了蓝灯数据作为Greenplum在金融行业的实践者,是如何对Greenplum进行定位的,并通过蓝灯数据在银行业的应用和案例等内容,说明了Greenplum作为MPP数据库的代表,在大数据的浪潮中如何定位,如何与Hadoop生态进行区隔的。
Greenplum版本4到5升级“避坑”指南
Greenplum数据平台即将发布下一个大版本Greenplum 6,Greenplum 5也已经迭代到5.20+了。Greenplum 5目前已经进入稳定期和维护期。在不久的将来,Greenplum 4将逐渐结束生命周期,Greenplum 5将是Pivotal主要维护的版本。同时,Pivotal从Greenplum 5开始对PostgreSQL内核进行升级,新的PostgreSQL内核将带来更多的功能和性能的体验。因此从用户长期使用和维护Greenplum的角度来说,升级是不可避免的。本文将分享Greenplum版本4到5升级“避坑”指南,手把手教你如何升级成功。
查询优化器调优利器之 minirepro
Minirepro 工具是一个比gpsd轻量级的工具。它会收集对应SQL的命名空间信息和统计信息,从而可以在另外一套集群上重现问题。gpsd工具相比Minirepro工具会收集整个数据库的元数据和统计信息。因为Minirepro比GPSD轻量级的优势(只收集对应SQL的信息,而非全库),让它成为数据库管理员和Pivotal售后支持优先使用的优化器排错工具…
PPT | Greenplum人工智能工具集—MADLib与图数据分析
图数据(Graph)分析广泛应用于社交网络分析、搜索引擎、计算生物学、安全领域等诸多方面。随着人工智能和机器学习技术的引入,图的理论和算法也有了很大的发展。Apache MADlib是一个基于SQL的开源in-database机器学习库,Greenplum 结合Madlib为用户提供了强大的机器学习相关需求的支持。
Greenplum 分布式数据库内核揭秘(下篇)
Greenplum 是最成熟的开源分布式分析型数据库(今年6月份预计发布的 Greenplum 6 之OLTP性能大幅提升,将成为一款真正的HTAP数据库,评测数据将于近期发布),Gartner 2019 最新评测显示 Greenplum 在经典数据分析领域位列全球第三,在实时数据分析领域位列并列第四。两个领域中前十名中唯一一款开源数据库产品。
上篇介绍了集群概述、分布式数据存储和分布式查询优化。本篇继续介绍分布式查询执行、分布式事务、数据洗牌和集群管理等方面。
Greenplum 分布式数据库内核揭秘(上篇)
Greenplum 是最成熟的开源分布式分析型数据库(今年6月份预计发布的 Greenplum 6 之OLTP性能大幅提升,将成为一款真正的HTAP数据库,评测数据将于近期发布),Gartner 2019 最新评测显示 Greenplum 在经典数据分析领域位列全球第三,在实时数据分析领域位列并列第四。两个领域中前十名中唯一一款开源数据库产品。
那么 Greenplum 分布式数据库是如何炼成的?本文从6个方面介绍将单节点 PostgreSQL 数据库发展成分布式 MPP 数据库所涉及的主要工作。
本篇主要介绍了Greenplum集群概述、分布式数据存储和分布式查询优化。
MongoDB的ACID事务是否已为高性能应用做好了准备?
多年来MongoDB的两个令人担忧的问题是数据持久性和ACID事务支持。 MongoDB一直在采取一种渐进的方式来解决这些问题,并在最新的4.0版本提供了多文档事务支持。 在这篇文章中,我们将回顾这个渐进过程中的细节,并重点阐述MongoDB在事务型并需要高性能(低延迟和高吞吐)的应用程序环境中不足之处。
Greenplum内核优化实战:手把手教你提升数倍SELECT性能
本文手把手的示范如何分析发现瓶颈,以及如何优化内核提升性能,揭秘MPP数据库内核调优,鼓励欢迎更多人在社区里参与这类工作…
高可用Greenplum
高可用HA(High Availability)是分布式系统架构设计中必须考虑的因素之一,它通常是指,通过设计减少系统不能提供服务的时间。假设系统一直能够提供服务,我们说系统的可用性是100%,很多公司的高可用目标是4个9,也就是99.99%,这就意味着,系统的年停机时间为0.876个小时…
Greenplum 带ORCA 优化器的编译安装解析
ORCA是开源的Postgres和Greenplum的优化器,相比于Greenplum和Postgres内置的优化器,ORCA在复杂查询以及分区表等场合有非常好的性能提升。这里介绍下如何使Greenplum支持ORCA,以及如何运行Greenplum的测试用例installcheck-world。
提高您的流数据处理能力—— Greenplum的流计算功能解析
Greenplum作为最先进的开源大数据平台,天生具备处理复杂问题的优势。Pivotal的研发团队在开源Greenplum的基础上,提供了新的高速流数据加载工具gpKafka,从而将Greenplum强大的SQL处理能力引入到流计算领域。