不容错过!Greenplum的又一本好书

随着Greenplum社区的繁荣发展,Greenplum相关中文资料、文档和书籍也如春笋般涌现。2019年,Greenplum官方教材《Greenplum:从大数据战略到实现》正式出版,受到了社区的一致好评。今年,随着虎年的脚步声越来越近,又一本Greenplum好书由机械工业出版社华章分社正式出版啦!

Greenplum数据库是基于MPP架构的开源大数据平台,具有良好的弹性和线性扩展能力,内置并行存储、并行通信、并行计算和并行优化功能,兼容SQL标准,具有强大、高效的PB级数据存储、处理和实时分析能力,同时支持涵盖OLTP型业务的混合负载,可部署于企业裸机、容器、私有云和公有云中,已为全球金融、电信、制造等行业核心生产系统提供支撑。

随着大数据技术越来越成熟,各行业领头企业已基本完成大数据技术平台的搭建。随着“十四五”期间强调数据治理和数据要素潜能释放,以及近些年来养成的“互联网+”思维,越来越多的企业,尤其是拥有成千上万家线下直营/加盟门店的零售企业,甚至生产型企业,都开始越来越重视数据。

这些企业所积累的数据以企业经营数据为主,也就是信息系统产生的结构化数据为主,数据量比较多,且这些数据之间关系复杂。而企业不仅要求性能快,还要求敏捷响应快速变化的业务需求。MPP分布式数据库不仅能够借助SQL实现复杂业务逻辑,还能通过分布式计算达到高效性能。Greenplum非常适合企业建设离线分析的数仓,其逻辑统一管理,加工后的数据价值密度相对较高。

《高效使用Greenplum:入门、进阶与数据中台》作者将多年用Greenplum帮助企业搭建数据仓库的经验,借助实际项目案例以通俗易懂的语言记录并分享出来,是入行数据分析与应用行业人员的初学指南,也是那些希望采用Greenplum作为数据仓库企业的参考。书中提到的架构、技术标准、实施方法,均可作为参考借鉴。

这不仅是一本从原理到使用、从入门到进阶讲解Greenplum的著作,而且是一本指导企业用更省钱、更高效的方式使用Greenplum构建企业级数据仓库和数据中台的著作。


作者在数据架构和数据仓库一线工作10余年,积累了丰富的项目经验,他用浅显易懂的语言、贴近生产环境的案例、丰富的示意图例写作了本书,能帮助读者快速掌握具有实战价值的知识。

内容简介

本书内容分为4部分。

第一部分 大数据平台概述(第1章):主要从应用的角度介绍了大数据技术的发展历程,帮助读者了解时代背景,把握大数据技术的发展方向。

第二部分 Greenplum入门(第2~4章):简单介绍Greenplum数据库的基本原理、安装与部署、入门操作,帮助读者认识Greenplum数据库。没有任何数据库应用经验的读者可以认真学习这部分内容。

第三部分 Greenplum应用(第5~11章):着重讲解了Greenplum数据库的部分高级应用功能,包括SQL语法、ETL工具箱、运维管理与监控、性能优化以及外部生态。

第四部分 数据中台实战(第12~17章):通过对数据中台建设过程进行全面解读和深入实战讲解,帮助读者认识数据中台的全流程。

具体地阅读本书你将收获如下内容:

  • 掌握数据仓库技术的发展历程和发展方向;
  • 理解MPP架构的架构特点和实现逻辑;
  • Greenplum数据库的安装和基本操作;
  • Greenplum数据库的工作原理;
  • SQL语句从入门到开发实战;
  • Greenplum数据库ETL相关功能的具体用途;
  • 机器学习、文本处理、图计算、GIS等的入门知识;
  • 掌握Greenplum数据库的运维和监控要点;
  • 全面掌握Greenplum数据库的性能优化;
  • 数据中台的理念和建设路径;
  • 数据中台从接口到智能化应用的项目实战;
  • 零售行业数据中台的项目实战案例。  

作者简介

王春波,资深架构师和数据仓库专家,现任上海启高信息科技有限公司大数据架构师,Apache Doris和openGauss贡献者,Greenplum中文社区参与者。
具有十多年的数据仓库、数据集市、数据中台项目实战经验,对大数据主流技术架构、产品选型与解决方案有深入研究,尤其擅长用优雅的SQL实现复杂的逻辑。


常年奔波在各个项目交付现场,曾成功主导过中国邮政储蓄银行、南海农商银行、广东省联社、前海微众银行、广东南粤银行等多家银行的管理会计项目,以及卡宾、安踏、特步等多家零售鞋服企业的数据中台项目。公众号“数据中台研习社”运营者。

专家推荐

本书是春波一线实践经验的积累和沉淀,内容覆盖了Greenplum从入门到深入应用,再到运维监控和性能调优的各个方面。此外,对数据中台的各个要素也进行了详细的讲解,用案例和图文并茂的方式阐述了基于Greenplum的数据中台建设。

——曹正炎 上海汉得信息技术股份有限公司数据研发中心总经理


本书对Greenplum的技术特点、适用场景、常见问题等都做了非常详尽的阐述。难能可贵的是,作者结合项目实践,对如何利用Greenplum数据库解决分析需求、服务业务创新、发挥数据价值也给出了实用高效的经验分享。对于初学者,本书可以帮助其快速成长为Greenplum专业人才;对于有经验的从业人员,本书也是难得的查漏补缺、总结经验的工具书。

——杨宏武 上海启高信息科技有限公司联合创始人兼CTO 


本书通过讲背景、说架构、述功能、举案例的方式,由浅入深地层层剖析了Greenplum的架构原理和功能组件,并通过实战项目讲述了Greenplum适用的各项应用场景。


——黎文惠 润智科技有限公司大数据架构师

市面上关于Hive和Spark的书非常多,关于Greenplum和数据中台结合的数据却没有,本书填补了这一空白。很多中小企业其实并不需要一套架构复杂的Hadoop平台,Greenplum集群才是他们的最佳选择。


——苏丹 成都慧择网络技术有限公司数据产品经理

目录

序一

序二

序三

前言

第一部分 大数据平台概述

第1章 大数据平台技术的演进2

1.1 关系型数据库2

1.1.1 数据库发展历程2

1.1.2 关系型数据库独霸天下4

1.1.3 结构化查询语言SQL4

1.1.4 列存储的兴起5

1.2 Hadoop生态系统7

1.2.1 Hadoop概述7

1.2.2 Hadoop生态圈7

1.2.3 Hadoop的优缺点9

1.3 NoSQL的瓶颈和SQL数据库的回归10

1.3.1 NoSQL产品的发展10

1.3.2 NoSQL的共性11

1.3.3 SQL数据库的回归12

1.4 MPP架构的兴起14

1.4.1 什么是MPP架构14

1.4.2 MPP架构的蓬勃发展15

1.4.3 MPP数据库代表—TBase17

1.4.4 浅谈HTAP19

第二部分 Greenplum入门

第2章 Greenplum概述24

2.1 Greenplum的前世今生24

2.2 Greenplum数据库架构27

2.3 Greenplum数据库的特点28

2.4 Greenplum新特性及展望30

2.5 Greenplum的优势32

第3章 Greenplum的安装与部署35

3.1 Greenplum数据库安装过程35

3.1.1 准备工作35

3.1.2 安装Master节点39

3.1.3 复制安装包到其他节点41

3.1.4 初始化Greenplum数据库42

3.2 安装GPCC43

3.3 Greenplum访问接口46

3.3.1 CLI46

3.3.2 JDBC47

3.3.3 ODBC48

3.4 Greenplum数据库常用命令48

3.4.1 启动和停止48

3.4.2 修改参数49

3.4.3 其他常用命令51

3.5 Greenplum性能测试52

第4章 Greenplum使用入门54

4.1 数据类型详解54

4.1.1 基本数据类型54

4.1.2 特殊数据类型56

4.1.3 组合数据类型60

4.2 数据表的基本使用62

4.2.1 表对象定义62

4.2.2 表的基本操作63

4.2.3 数据的基本操作64

4.3 数据表的高级应用65

4.3.1 数据表的存储特性69

4.3.2 分区表详解72

4.3.3 外部表76

4.4 数据库函数79

4.4.1 数学函数79

4.4.2 三角函数列表80

4.4.3 字符串函数和操作符80

4.4.4 类型转换相关函数82

4.4.5 自定义函数83

4.5 数据库的其他对象85

4.5.1 视图85

4.5.2 索引85

4.5.3 序列87

第三部分 Greenplum应用

第5章 Greenplum查询详解90

5.1 SQL语法92

5.1.1 简单SQL语法92

5.1.2 WITH子句特性95

5.1.3 IN语句和EXISTS语句98

5.1.4 MERGE子句的实现100

5.2 JOIN操作101

5.3 分析函数的妙用106

5.4 高级函数精选110

第6章 ETL工具箱114

6.1 数据加载王者GPLoad114

6.1.1 GPLoad简介114

6.1.2 GPLoad配置详解116

6.1.3 GPLoad实战118

6.2 自定义存储过程120

6.2.1 存储过程介绍 120

6.2.2 存储过程应用模板121

6.2.3 存储过程精选案例122

6.3 PXF插件131

6.3.1 PXF简介131

6.3.2 安装PXF132

6.3.3 PXF实战135

6.4 DBLink136

6.4.1 DBLink简介136

6.4.2 安装DBLink137

6.4.3 DBlink实战139

6.5 拉链表142

第7章 Greenplum高级应用147

7.1 开放的编程接口147

7.1.1 PL/Python148

7.1.2 PL/R150

7.2 MADlib机器学习库153

7.2.1 安装MADlib154

7.2.2 线性回归案例157

7.2.3 关联规则案例158

7.2.4 朴素贝叶斯分类案例159

7.3 半结构化数据分析164

7.4 地理空间数据分析166

7.5 图计算应用168

第8章 Greenplum运维管理和监控172

8.1 数据库管理172

8.1.1 创建和管理数据库172

8.1.2 创建和管理模式173

8.1.3 创建和管理表空间175

8.1.4 创建和管理用户178

8.1.5 创建和管理资源队列180

8.2 可视化监控页面—GPCC183

8.3 管理好帮手—gp_toolkit185

8.4 Greenplum备份和恢复187

8.5 在线扩容工具GPExpand189

8.5.1 Greenplum扩容实战189

8.5.2 扩容原理分析191

8.6 锁机制192

8.6.1 锁管理概述192

8.6.2 普通锁数据结构192

第9章 Greenplum性能优化197

9.1 系统级优化197

9.1.1 操作系统选择197

9.1.2 硬件资源配置198

9.1.3 磁盘读写199

9.1.4 节点之间的网络带宽202

9.1.5 系统参数202

9.2 数据库级优化204

9.2.1 数据库参数配置204

9.2.2 资源队列206

9.3 表级优化206

9.3.1 建表参数207

9.3.2 表的优化208

9.4 执行计划和查询优化209

9.4.1 查看执行计划210

9.4.2 数据扫描方式210

9.4.3 分布式执行方式213

9.4.4 两种聚合方式214

9.4.5 关联分类214

9.4.6 优化器的选择216

9.4.7 其他关键术语217

第10章 Greenplum与开源组件220

10.1 Kettle220

10.2 DataX224

10.3 HDFS、Hive和HBase228

10.4 Spark230

10.5 Kafka235

10.6 Flink238

第11章 Greenplum与BI应用244

11.1 Tableau244

11.1.1 Tableau连接Greenplum245

11.1.2 Tableau最佳实践要点245

11.2 永洪BI248

11.3 帆软BI250

11.4 DataV253

11.5 Quick BI253

第四部分 数据中台实战

第12章 数据中台建设思路256

12.1 为什么要搭建数据中台256

12.2 什么是数据中台258

12.3 如何搭建数据中台259

12.3.1 数据资产盘点和规划259

12.3.2 数据应用规划与设计260

12.3.3 数据平台选型与建设261

12.3.4 数据应用设计与实现262

12.3.5 组织架构调整与流程变革262

12.4 数据中台怎么选型263

12.4.1 数据仓库选型263

12.4.2 ETL工具选型265

12.4.3 调度平台选型266

12.4.4 BI工具选型268

第13章 接口数据同步270

13.1 全量接口同步270

13.2 增量接口同步276

13.3 流式数据同步281

13.4 日志流数据同步283

第14章 数据建模285

14.1 数据建模思想285

14.1.1 Inmon企业信息化工厂286

14.1.2 Kimball的维度数据仓库287

14.1.3 两种建模体系的对比288

14.2 数据分层设计288

14.2.1 操作数据存储层289

14.2.2 数据仓库层290

14.2.3 数据集市层292

14.3 数据分层实战案例293

14.3.1 ODS层293

14.3.2 DWD层293

14.3.3 DWB层297

14.3.4 DWS层299

14.3.5 ADS层307

14.4 数据中台命名规范311

14.4.1 数据库表命名312

14.4.2 数据库字段命名312

14.4.3 脚本命名规范313

第15章 数据中台主要配套功能314

15.1 数据权限管理314

15.2 数据补录319

15.3 BI门户320

15.4 元数据管理323

15.5 指标管理324

第16章 数据中台数据应用328

16.1 商业智能328

16.2 自助分析平台331

16.3 数据服务332

16.4 标签平台335

16.5 推荐系统338

第17章 基于Greenplum的数据中台实践案例342

17.1 项目背景342

17.2 项目需求343

17.3 项目技术实现344

17.3.1 系统架构344

17.3.2 系统ETL分层345

17.3.3 系统调度任务346

17.4 智能数据应用347

17.4.1 自助分析应用348

17.4.2 固定报表349

17.4.3 可视化大屏350

17.4.4 钉钉数据服务351

17.5 典型技术方案分享352

17.5.1 准实时需求实现方案352

17.5.2 数据库优化方案353

17.5.3 数据权限控制方案355

17.5.4 历史数据离线存储方案358

17.5.5 系统备份方案358

17.6 典型业务方案分享359

17.6.1 零售指标同期分析359

17.6.2 零售指标节假日对比分析361

17.6.3 在库库存362

17.6.4 在途库存363

17.6.5 售罄率365

17.6.6 齐码率368

17.7 项目总结370

实拍

扫码购书

关注微信公众号

VMware 中国研发中心

Greenplum官方技术交流群

扫码添加小助手即可入群,添加时请备注 “GP网站”