【课程合集】深入浅出Greenplum内核,错过的课程都补回来

为了让大家对Greenplum的内核有更深入的了解,让大家在开发或者是使用Greenplum过程中更加得心应手,2020年,Greenplum中文社区开展了《深入浅出Greenplum内核》系列直播公开课,邀请Greenplum原厂内核讲师,从开发人员视角,理论配合实例,深入浅出地详尽剖析Greenplum主要核心模块,讲解Greenplum模块背后的设计思路和工作原理,让你对Greenplum达到更深层的理解。错过直播的也不用担心,这篇合集带你回顾所有精华内容!文字配合视频,满足你学习的全部需求。相应PPT可前往Greenplum中文网站(cn.greenplum.org)的下载页面获取

第一课 深入解读开源大数据分析平台Greenplum架构

讲师:杨瑜 Greenplum原厂研发总监

Greenplum被Gartner2019认为是全球十大经典和实时数据分析产品中唯一开源数据库。第一课将逐次梳理Greenplum的四大基本内容:基本概念,数据组织,架构设计和核心模块,理论结合实践,深入浅出的带领大家进入Greenplum的世界。

内容纲要

1、Greenplum 概念及数据的组织

2、Greenplum 体系架构

3、Greenplum 进程模型

4、Greenplum 各大模块

相关阅读:Greenplum架构最详解读(内含视频)

视频:https://www.bilibili.com/video/BV1Sf4y1U7QP

第二课 Greenplum内核揭秘之执行引擎

讲师:唐鹏洲,Greenplum原厂资深研发工程师

第二课为大家详细解说了Greenplum相较于PostgreSQL比较独特的两大模块——Dispatcher和Interconnect,剖析Greenplum是如何通过这两个模块将集群的计算资源调度和串联起来的,并破解了Greenplum的Hashjoin的独到之处。

内容纲要

1、Greenplum执行引擎相关概念

2、与Postgresql引擎的区别

3、Dispatcher 模块

4、Interconnect模块

相关阅读:揭秘!Greenplum并行执行引擎到底是如何工作的?

视频:https://www.bilibili.com/video/BV1Si4y1474L

第三课 Greenplum内核揭秘之查询优化

讲师:郭峰,Greenplum原厂资深研发工程师

第四课为大家介绍了Greenplum中的查询优化器是如何工作的,详细讲述查询优化所经历的几个阶段,以及每个阶段的具体处理过程。涉及到的知识点包括:表达式的预处理、子连接和子查询的提升、外连接的消除、谓词下推、连接顺序限制、动态规划过程等。

内容纲要

1、Greenplum查询优化器

2、Greenplum查询优化器工作原理

3、Greenplum查询优化的四个阶段

4、Greenplum查询优化的具体处理过程

相关阅读:让你的数据库飞起来!Greenplum查询优化解析

视频:https://www.bilibili.com/video/BV1J5411Y7yu

第四课 Greenplum内核揭秘之B树索引

讲师:马洪旭 Greenplum原厂资深研发工程师

索引是数据库中的重要组件,而B树则是最常见的索引数据结构,同时它也是Greenplum中的默认索引类型。第五课详细介绍了B树索引的基础知识,同时深入解析Greenplum的B树实现,包括:索引结构,操作方法与并发控制等。

内容纲要

1、B树基础知识

2、B树存储结构

3、B树操作算法

4、B树并发控制

5、索引相关系统表

相关阅读:要懂Greenplum索引,心里得有B树!

视频:https://www.bilibili.com/video/BV1164y1F7XP

第五课 Greenplum内核揭秘之MVCC并发控制

讲师:陈金豹,Greenplum原厂资深研发工程师

本课程将为大家深度揭秘Greenplum中的MVCC并发控制。第五课将从MVCC的优缺点入手,深度揭秘Greenplum的MVCC并发控制的实现和优化。

内容纲要

1、Greenplum中的MVCC

2、MVCC的优缺点

3、MVCC的实现细节

4、MVCC空间重用

相关阅读:Greenplum MVCC并发控制:严格的一致性与极致的性能

视频:https://www.bilibili.com/video/BV1yT4y1w7Fn

第六课 深入解析Greenplum排序算法

讲师:张桓,Greenplum原厂资深研发工程师

排序在数据库执行器中扮演了重要的角色,除了显示的ORDER BY语句,数据库的聚集、窗口函数中都存在排序算法的身影。第六课为大家介绍了Greenplum执行器中排序节点的原理和实现,以及排序在Greenplum中的应用。

内容纲要

1、排序算法简介

2、Greenplum排序节点原理和实现

3、Greenplum特有的多键排序算法

4、排序在Greenplum中的应用

相关阅读:助你掌握数据库排序算法

视频:https://www.bilibili.com/video/BV17f4y1D76h

第七课 Greenplum分布式事务和两阶段提交协议

讲师:林文 Greenplum原厂资深开发工程师

事务处理是数据库系统的核心能力之一,在Greenplum等分布式数据库上实现更为复杂。本直播将深度解析数据库系统事务的实现原理、分布式事务两阶段提交协议(2PC)的原理以及2PC在Greenplum中的实现和优化。帮助大家了解Greenplum事务处理的实现原理和机制。

内容纲要

1、事务的实现原理和Write Ahead Log

2、分布式事务和两阶段提交的原理

3、Greenplum两阶段提交协议的实现

4、Greenplum两阶段提交协议的优化

相关阅读:终于把分布式事务讲明白了!

视频:https://www.bilibili.com/video/BV1et4y1e7RF

第八课 揭秘Greenplum存储引擎之Heap表

讲师:杨瑜 Greenplum原厂研发总监

存储引擎是数据库底层功能组件,数据库管理系统(DBMS)使用存储引擎高效创建、查询、更新和删除数据。不同的存储引擎提供不同的存储格式、索引支持、并发控制等功能。分布式存储是Greenplum并行化的基石,本课程将带你探索Greenplum存储引擎最本质和基础的问题:Heap存储的实现原理。

内容纲要

1、多版本管理MVCC

2、Heap表页面布局

3、共享缓冲区管理

4、页面访问保护

5、深入元组和属性

相关阅读:万字长文,帮你梳理存储引擎之Heap表关键知识点

视频:https://www.bilibili.com/video/BV1fK4y1j7jJ

第九课 Greenplum高可用理论与实践

讲师:吴昊,Greenplum资深研发工程师

数据库是现代很多与数据相关的程序正常运行的必要组件,数据库的正常运行会直接或间接地影响到程序的可用性,高可用是分布式系统架构设计中必须考虑的因素之一,它通常指,通过设计减少系统不能提供服务的时间。

内容纲要

1、高可用简介

2、高可用的一般性原理

3、日志复制与数据一致性

4、Greenplum的高可用实现FTS

5、Greenplum Master节点的高可用

相关阅读:不惧宕机,数据库高可用理论与实践

视频:https://www.bilibili.com/video/BV1Sz4y167cP

第十课 揭秘Greenplum恢复系统

讲师:郭罡 Greenplum资深研发工程师

系统恢复是一个实用数据库系统不可避免的组件。现实中数据库可能会遇到异常场景,这些场景下数据库需要重启恢复以保持数据一致性和持久性。Greenplum基于经典的预写式日志(WAL)实现恢复系统:出现故障时候首先实现单机系统恢复,必要时候需要介入分布式系统恢复来实现数据全局一致性。

内容纲要

1、恢复系统概述

2、预写日志简介

3、单机系统恢复

4、分布式系统恢复

相关阅读:Greenplum恢复系统知多少

视频:https://www.bilibili.com/video/BV1Ft4y1B74e

看完课程,欢迎大家前往Github,从下载Greenplum源代码开始,走出Contributor的第一步。下载源码时,别忘了给我们加个Star哦!

分享本博文:

2020 Greenplum峰会

点击了解更多信息

《Data Warehousing with Greenplum》

Greenplum官方书籍《Data Warehousing with Greenplum》。阅读它,以了解如何充分利用Greenplum的功能。

关注微信公众号

Greenplum中文社区

Greenplum官方微信群

扫码加入我们的技术讨论,请备注“网站”