Greenplum助医疗大数据从“奢侈品”走向常态化

本文转自HIT专家网news ,作者姜浩

增加医疗大数据平台的便捷功能服务,推动医疗大数据的常态化应用。

近年来,大数据产业发展如火如荼。不过,在医疗领域,医疗大数据平台在不少医院心目中还是曲高和寡的“奢侈品”。

2019年5月,中国医院协会信息专业委员会(CHIMA)发布了 《医疗机构医疗大数据平台建设指南》(征求意见稿) (以下简称《建设指南》),为医疗机构大数据平台建设与应用提供规范与指导意见。《建设指南》的编写初衷之一,是希望实现医疗大数据平台建设与应用的“二八原则”,也即帮助医疗机构利用较小的精力,掌握最为核心的技术,解决在医疗大数据平台建设与应用中的大多数需求,达到相对理想的应用效果。

两年时间过去,医疗大数据的平台建设与应用情况如何?2021年7月15日,在由HIT专家网主办、 VMware 公司协办的 “医院大数据平台建设与应用” 在线研讨会上,与会专家通过“回首”,分享了医院大数据平台建设经验,并就如何实现医疗大数据应用的常态化等热点话题进行了研讨分析。

医疗大数据应用走向“常态化”

作为《建设指南》的主编之一,北京大学肿瘤医院信息部主任衡反修回顾了近两年医疗大数据的发展情况,总结了业内的三点变化:首先,在涉及医疗大数据主题的行业会议、专场论坛中,对“大数据平台建设”的讨论在减少,更多偏向于医疗大数据应用建设等相关问题;其次,医疗大数据平台的建设方式正趋向统一化,大型公立医院有关大数据平台的建设意见也趋向一致;第三,各地政府、医疗卫生机构陆续将传统信息化部门变更、改革为大数据办公室、大数据研究中心,由“信息”向“大数据”发展的趋势非常明显。

衡反修表示,医疗大数据应用常态化有赖于技术普及,主要体现在四方面:数据采集技术常态化、数据处理技术常态化、数据存储技术常态化、数据分析技术常态化。同时,在某些特定场景、应用中,虽不具备医疗大数据4V(Volume、Variety、Velocity、Value,规模性、多样性、高速性、高价值)特点,但也可利用大数据相关技术开展新业态医疗数据综合利用和智能化应用,这些都是医疗大数据步入常态化应用的表征。

“在部分三甲医院,医疗大数据的应用已进入常态化阶段。”据衡反修介绍,自2017年9月完成基础大数据平台建设以来,北京大学肿瘤医院在医疗大数据应用之路上不断探索,目前已实现常态化使用的部分应用包括:基于大数据技术的静脉血栓风险智能预警系统、电子病历内涵质控、结构化检查报告生成系统,以及精准医疗临床决策系统等。

医疗大数据不应是可望不可及的“奢侈品”,而应更加“平易近人”。衡反修认为,可从以下七点着手推动医疗大数据应用的常态化:(1)数据的实时性,便于扩展应用范围和场景,同时服务于临床与科研;(2)数据的微小化,可脱离大数据平台使用;(3)大数据平台的轻量化,可脱离传统大硬件集群使用,降低硬件要求;(4)大数据应用的临床化,与临床工作站集成便于使用者登录,提高数据可及性;(5)大数据应用的流程化,建立数据授权体系,规范获取数据的流程;(6)提升IT服务能力,医院IT人员应掌握核心技术,把控主动权,提高服务效率和服务能力;(7)数据治理常态化,建立PDCA循环,不断提升数据质量。

医疗大数据平台要为使用者提供更多便捷服务

北京友谊医院信息中心主任王力华也是《建设指南》的主编之一。她曾先后主导建设北京大学人民医院及北京友谊医院的临床大数据平台。医疗大数据技术在不断进步,两次平台建设经历让她对医疗大数据平台的发展路径体会颇深。

2014年,北京大学人民医院开始建设大数据平台,是国内较早建立大数据平台的医院之一。当时的平台主要从临床数据中心和业务系统中获取数据,存在着对业务系统造成影响、数据质量受制于CDR等问题。当2018年北京友谊医院启动大数据平台建设时,数据来源途径已有所不同:HIS数据从系统实时备份库中获取,其他业务数据从ODS(Operational Data Store,操作数据存储)中获取,可实现T+1的数据更新。

北京友谊医院的大数据平台架构分为IaaS层、PaaS层、SaaS层。目前,SaaS层所提供部分功能使用不便,仍需手动操作。“只有提供更多便捷的服务,才能实现医疗大数据平台应用常态化的目标。”因此,北京友谊医院决定对现有平台进行升级。升级后,SaaS层将发生较大改变,所封装的功能也将变得更多。其中,最为瞩目的几大变化为:

在数据接入方面,面向数据管理者打造自主灵活的数据接入体系。升级后的大数据平台可提供简单模型的自主构建工具,这样可以更快捷地接入多源异构数据。

在数据资产方面,面向数据管理者重塑机构数据资产管理体系。王力华认为,当前大数据平台的数据库像一个“黑盒子”,虽能从中获取数据,却无法掌握数据的存储情况。升级后的大数据平台则可提供全局资产快速查看功能,并为医院提供了一定的数据治理能力。

在数据探索方面,面向数据科学家和统计分析师拓展医院数据价值应用转化能力。升级后的大数据平台可提供“数据沙箱”服务,将数据按逻辑进行隔离;提供多维分析、数据建模等数据应用工具,为更广泛地利用大数据平台中的数据奠定了基础;提供数据API服务,面向第三方厂商开放医疗大数据生态,为构建数据集市提供可能。

在开放集市方面,面向应用开发者开放数据集市,为大数据人工智能技术赋能,王力华表示:“只有将数据应用于临床,才是大数据平台价值的最大体现。”

在数据安全管理方面,升级后的大数据平台将在架构中内置审批中心,可实现数据授权审批、数据导出审批、数据API审批、数据分享审批等功能,构建数据安全管理流程与体系。

目前,北京友谊医院大数据平台平均每月活跃用户超过60人,页面浏览量超过30000人次,“我的科研”模块使用量达2000次左右。数据显示,通过大数据平台获取数据支撑,使得科研文章产出比达到21%左右。“平均每10个用户进行数据导出,就会有两个用户完成文章撰写。”对于升级后的大数据平台,王力华更是充满希望:借助更加便捷的功能服务,推动医疗大数据的常态化应用,为研究型医院的建设发挥更大的作用。

全球领先的大数据平台Greenplum

“以上两位主任的分享进一步表明,坚实的IT基础架构是实现大数据平台应用常态化的基础。”VMware高级系统工程师吴铧明介绍说,“提起VMware,人们首先会想起虚拟化技术。事实上,VMware正在通过Greenplum为医疗客户提供成熟、稳定的大数据平台解决方案。”

在开源社区耳熟能详的Greenplum数据库,是VMware全新产品和服务组合VMware Tanzu Greenplum的一部分。在此方案中,VMware不仅能够提供云基座,同时也能够带来更为广泛的灵活性,将数据按需分类,并利用Greenplum集中数据,对数据进行分析、挖掘及展示。

Greenplum大数据平台解决方案具备以下特点:丰富的集成引擎带来强大的信息感知能力;采用MADlib架构,适用于多种常用的数据挖掘与机器学习模型类;完全无共享的MPP(Massive Parallel Processing,海量并行处理)架构,实现高并发下的高可用;数据加载速度快,支持大批量数据加载和持续化的数据加载;内置Python和R机器学习算法库的应用引擎,方便医疗机构搭建数据集市、进行大数据分析等。

综合上述特点,吴铧明将该方案的优势总结为三点:其一,支持快速灵活的部署方式,为医疗机构带来更高的性价比;其二,支持多种类型数据(结构化、半结构化、非结构化数据)及各类数据源(内存数据域、流数据、ETL等);其三,支持多样化的数据分析手段,内置完备的机器学习算法库。“Greenplum希望能发挥自身大数据平台的优势,助推医疗大数据应用常态化。”

分享本博文:

2020 Greenplum峰会

点击了解更多信息

《Data Warehousing with Greenplum》

Greenplum官方书籍《Data Warehousing with Greenplum》。阅读它,以了解如何充分利用Greenplum的功能。

关注微信公众号

Greenplum中文社区

Greenplum官方微信群

扫码加入我们的技术讨论,请备注“网站”