Greenplum在医疗大数据领域的应用

《Greenplum走进全国》系列技术研讨会济南站7月3日成功举行。在过去的三篇文章中我们分别为大家整理了基于fdw的跨Greenplum集群数据库查询实现》,《基于Greenplum构建下一代数据分析平台、和《Greenplum问题定位及性能调优》三篇演讲内容。今天为大家介绍的是第四篇内容。相关PPT已上传Greenplum中文社区网站下载页面cn.greenplum.org/download,欢迎获取。

今天和大家分享的主题是《Greenplum在医疗大数据领域的应用》,Greenplum这几年越来越火,但在医疗行业里面的应用似乎并不多,个人认为主要原因如下: 

首先医疗行业并不是一个特别前沿的行业,不像金融、电信、电力等,在IT设备上投入很大、数据量也非常的高,从而促使这些行业需要不断的追求新技术。而医疗是发展较为缓慢的行业,近年来,虽然医疗行业的大数据也比较火,但是做的好的企业其实并不多。医疗大数据需求很高,但也存在很多的专业性的数据处理需求,如今医疗的信息化发展仍然较为缓慢,需要行业进行更高的投资。接下来我来介绍一下我们医疗数据的具体情况,同时也邀请大家多关注民生行业。

提到医疗行业,就不得不关注医疗数据学。医疗数据有两大特点。

首先,相较于其他行业,医疗数据的规范化程度不高。 我们在日常生活中经常能看到医生手写的病历、拍的X光照片,这些都是非结构化的数据,必须经过二次处理才能形成结构化数据;

第二是,单条数据的体量较大 ,例如基因数据,往往包括成千甚至上万个字段,一条个人信息的原始数据就能达到几个TB。很多数据需要经过精细化的处理才能入库;有一些则需要用到很多人工智能的算法来处理。

基于以上的情况,在选择数据库产品时,我们主要关注以下几点:

入门门槛不能太高

由于数据库使用对象以非计算机专业的教授和学生为主,因为大家都是非专业的DBA,在SQL编写上都非常不规范、不熟练,因此需要尽量对标准SQL有很好的兼容;

统一化的集群

之前我们也用了很多其他的数据库,例如Oracle、MS SQL、MySQL等,集群数据量达到一定规模后,只能通过分库分表来提高计算性能,非常麻烦;所以我们需要的是一款一体化的集群,集群内部自动完成分库分表操作;

现有的数据分析工具多数要求数据离线,不安全;

在这种情况下,在做分析时,需要去别的地方拿数据,比如从hadoop里面去把数据拿出来,因此需要一段等待时间;

基因数据放在HBase中,维护不便;

HBase虽然大家应用的也比较多,但是维护和使用都不是很方便;

实时性需求较少

医疗行业的数据分析和计算,对数据实时性要求不高;但是我们要求数据变动的最后一个版本,必须为最后版本;这个背景促使我们可以采用小批量入库,多次抓取的方式来处理数据,而不用像那些实时同步工具那样一有变化马上就发送过来;

我们没有热数据、温数据和冷数据之分;

我们的数据需要存放在一个地方,最好不要拆分开。在查一个人的基因数据时,有可能需要向前追溯几代人的基因信息,这时也需要有一个强力的计算引擎来快速给出结果。

Greenplum带来了什么?

01 入门门槛较低

Greenplum兼容标准SQL语法,上手较为容易。与PostgreSQL兼容,便于迁移。文档规范,社区活跃。且Greenplum自带完整的运维工具生态,包括备份、迁移、测试、优化等,对运维人员非常友好。

02 MPP架构的优势

Greenplum是一款MPP架构的数据库,可以解决单体数据库无法很好的完成数据拆分并行计算的问题;不需要分库分表,方便运维。Greenplum的批入库效率特别高,之前我们采用insert入库的性能是260行/s左右,经过改造后,入库性能直接能达到10万行/s左右,完全能满足我们的日常数据入库需求;Greenplum支持线性扩容,能满足医疗行业多变需求。Greenplum的高可用支持,不间断恢复,可以保证电子病历、健康档案、基因测序等敏感数据的安全。

03 对R语言的深度支持

R语言是医学、生信领域最常用的统计工具。Greenplum天生支持数据库内分析(In-Database Analysis),尤其是对R语言的支持,这是我们给予厚望的一个功能。利用PivotalR包和MADlib机器学习库,充分利用并行计算优势,突破R语言性能限制。

04 面向分析的关系型数据库

基因数据数据量大、计算密集,非常适合Greenplum。Greenplum的GPText对非结构化文本数据的支持,也很适合医疗领域的医嘱、诊断、检验等。所有数据在线,原始数据低频使用。多表关联查询和复杂查询效率高。

在使用Greenplum之前,我们已经用Oracle有10多年时间了。开始接触Greenplum还是两年前的事,这么短的时间,我们就果断的决定转换阵营,还是由于Greenplum的强大功能。

作者简介

胡锡峰 国家健康医疗大数据研究院 医疗数据治理研究中心主任

预防医学背景,曾主持多个省级医疗信息化项目,拥有16年医疗信息化行业数据库使用经验,在医疗数据汇聚、标准化、大数据应用方向有深刻认识。

关注微信公众号

VMware 中国研发中心