Pgbouncer最佳实践 之 概念篇

Pgbouncer 是一款开源的轻量级数据库连接管理工具,可以缓存数据库连接,减少不断建立新数据库连接带来的性能损失。

PgBouncer可以直接用来管理Greenplum 的数据库连接。Greeplum的数据库安装包里面已包含它,用户可以直接使用。用户名和要连接的数据库组成key, PgBouncer 会为不同的key创建不同的连接池(每个连接池中连接的用户和数据库是相同的),PgBouncer内部中可维护多个连接池。当客户端请求一个新连接的时,若对应的连接池中有空闲的连接,则直接复用,否则为其创建一个新的连接,但如果连接池中的连接数已到上限,则client端需等待;当客户端关闭连接的时候,PgBouncer 则把连接回收再利用。

接下来我们将通过系列文章来为大家讲解Pgbouncer的最佳实践,以及Pgbouncer在Greenplum中的应用。

使用PgBouncer 连接Greenplum的数据库和连接Postgres的用法一样, 只不过PgBouncer连接Greenplum的时候,连接的是master 节点。

PgBouncer包含psql-like的管理工具。有管理权限的用户使用psql 连接PgBouncer中虚拟的数据库pgbouncer, 可查看连接池中状态及管理PgBouncer。

PgBouncer作为PostgreSQL数据库的连接池中间件。与其他存在于PostgreSQL的连接池中间件不同,PgBouncer仅作为一个连接池和代理层为PostgreSQL和应用之间提供服务。

Pgbouncer具备例如连接池模式、连接类型、端口重用,应用场景以及用户认证、网络认证等多种重要特性,下面将逐一讲述,并期望为读者提供一份在实施过程中使用的配置指南。

数据库连接池在Pgbouncer中包括会话连接池、事务连接池、语句连接池三种方式。

1、会话连接池

官方解释为最有礼貌的方法。当客户端连接时,服务器连接将在其保持连接的整个过程中分配给它。当客户端断开连接时,服务器连接将重新放入池中。此模式支持所有PostgeSQL功能。

2、事务连接池

服务器连接仅在事务期间分配给客户端。当PgBouncer发现事务已结束时,服务器连接将被放回池中。该模式破坏了PostgreSQL的一些基于会话的功能。仅当应用程序通过协作使用不中断功能时,才可以使用它。有关不兼容的功能。

3、语句连接池

官方解释为最激进的方法。不允许多语句事务。本质上为了在客户端上强制执行“自动提交”模式,主要针对PL/Proxy。

另外支持其他特性包括:

  • 高性能,因为Pgbouncer自身不需要查看整个数据包,所以在网络开销上仅为2k(默认情况),对系统的内存要求小。
  • 部署灵活:Pgbouncer没有绑定到一台后端服务器。目标数据库可以驻留在不同的主机上。
  • 可维护性强:支持大多数配置项的的在线重新配置;并且支持在线重启/升级,而不会断开客户端连接。
  • 认证灵活:用户认证支持基于文件的验证方式外,还提供了数据库查询验证;网络连接认证与Postgresql数据库一致,支持多种模式验证。
  • 灵活连接数:支持全局、数据库、用户和客户端连接数组合形式设置。

(注:文中未详细描述部分,请参见Pgbouncer[1]的官网相关文档,如配置手册、使用手册、FAQ等官方文档)

前面大致介绍了Pgbouncer的一些特性,详细特性请查阅(Pgbouncer官网),下面将针对使用Pgbouncer时的一些配置注意事项进行说明,为Pgbouncer的使用用户提供一个指引,满足复杂业务需求情况下充分利用Pgbouncer的特性来实现特定业务场景需求。

在对Pgbouncer进行配置的过程中,需要特别关注连接池模式外,还需要明确数据连接数、连接方式,最后则是针对不同业务场景的Pgbouncer部署形式。

首先讨论一下为什么使用连接池[2],使用与不使用之间的性能差异,另外讨论连接池模式的工作流程、细节及一些注意事项进行阐述,最后提供一个适合的连接池建议。

在我们进行Postgresql入门的时候,通常会看到这段介绍“PostgreSQL服务器可以处理来自客户端的多个并发连接。为此,它为每个连接启动(“fork”)新进程,从那时起,客户端和新的服务器进程进行通信,而无需原始postgres进程进行干预。因此,主服务器进程始终在运行,等待客户端连接,而客户端及关联的服务器进程来来往往。”但是,这意味着每个新连接都会分叉一个新进程,保留在内存中,并可能在多个会话中变得过分繁忙。在业务量较小的情况下,这种方式基本可以满足要求,但是当业务量迅速激增,我们可能就需要不断去更改max_connections来满足客户端的需求。当时同样也带来了很大的问题,如频繁的关闭和创建连接造成的内存开销,管理已产生的大量连接等等,最终导致服务器响应缓慢而无法对外提供数据库服务。在这样一个背景下,数据库连接池就被提出来了,对于使用Postgresql数据库来说,一般分为客户端连接池,比如c3p0、druid等等;另外一种则是服务器端连接池,例如pgbouncer、odyssey、pgpoolII等。

图 1 直连数据库服务器

这是没有连接池的PostgreSQL连接生命周期:

1. 客户端通过请求并验证与服务器的连接来开始新会话。

2. 服务器fork一个新的系统进程来处理连接和工作会话。会话状态是通过服务器级,数据库级和用户级配置参数的组合进行初始化的。

3. 客户通过执行一个或多个事务来完成所需的工作。示例包括:

  • 针对关系(表,视图等)执行读写
  • 使用SET命令更改会话或事务状态
  • 准备并执行预编译语句

4. 当客户端断开连接时,会话结束。

5. 服务器销毁会话进程。

一个数据库会话包括所有通过单一连接的生命周期所做的工作。数据库会话的时间长度是可变的,并且在客户端和服务器上消耗的资源数量是可变的。

关键点在于:

  • 创建,管理和销毁连接过程会花费时间并消耗资源。
  • 随着服务器的连接数增加,管理这些连接所需的资源也随之增加。此外,随着客户端在服务器上进行处理,服务器的每个进程内存使用量将继续增长。
  • 由于单个会话仅服务于单个客户端,因此客户端可以更改数据库会话的状态,并希望这些更改在后续的事务中继续存在。

一个的连接池位于客户端和服务器之间。客户端连接到池管理器,而池管理器连接到服务器。引入连接池程序会将连接模型更改为客户端代理服务器架构:

图 2 使用连接池连接数据库

这使客户端连接生存期与服务器连接和进程生存期脱钩。连接池的作用:

  • 接受和管理来自客户端的连接
  • 建立和维护与服务器的连接
  • 将服务器连接分配给客户端连接

特点:

  • 单个服务器连接可处理来自不同客户端的会话,事务和语句
  • 单个客户端会话的事务和/或语句可在不同的服务器连接上运行

显而易见使用连接池能够降低服务器的内存开销,并且有效复用数据库连接,提供了良好的数据库连接性能管理。

作者简介

原文作者:王志斌,曾获得中国PostgreSQL数据库管理工程师(PGCE),是PostgreSQL官方认证讲师,盘古云课堂特邀金牌讲师。

Greenplum相关内容丰富:王晓冉,现任Greenplum研发工程师。研究生毕业于中国科学院软件所软件工程专业。目前主要负责gpcopy的研发工作。此前参与了gpkakfa的研发及Postgres Merge工作。

本文分享自微信公众号 – Greenplum中文社区(GreenplumCommunity)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

分享本博文:

2020 Greenplum峰会

点击了解更多信息

《Data Warehousing with Greenplum》

Greenplum官方书籍《Data Warehousing with Greenplum》。阅读它,以了解如何充分利用Greenplum的功能。

关注微信公众号

Greenplum中文社区

Greenplum官方微信群

扫码加入我们的技术讨论,请备注“网站”