北方医疗大数据中心业务覆盖“健康医疗大数据”“智慧健康医疗”“健康医疗产业 园”等板块,开展医疗大数据基础设施、平台和应用的建设运营, 提供公共卫生、保险创新、 精准医疗、互联网医院、医药研发、健康管理等多种数据服务。 该医疗大数据中心采用“一湖三台”的整体技术架构,形成数据湖、数据中台、业 务中台和开放平台的能力体系,以构建统一高效、安全可靠的大数据平台,支撑健康医疗 大数据的汇聚、治理、存储、处理、应用等,实现数据开放融合、实时计算和业务实时决 策。系统最初采用 Hadoop 和 MySQL 作为数据存储系统、Hive 作为离线数据查询引擎、 ClickHouse 作为实时数据查询和分析引擎,该方案在跨平台灵活访问、高性能实时计算、 安全运维等方面面临挑战。
北方医疗大数据中心以柏睿数据自主研发的全内存分布式数据库 RapidsDB 替代 Clickhouse,作为大数据智能平台的核心计算引擎,依托国际领先的 MPP 内存数据仓库 / 分布式内存流数据库实时处理医疗数据。 1. 全民信息健康平台需具备多源异构数据处理能力 基于柏睿多源异构数据联邦连接器 Rapids Federation,无需数据移动,实现健康医 疗数据不出域无缝对接。同时 RapidsDB 配备独立的向量计算模块,通过 embedding 加 工文字、图片、语音等多种数据类型,实现多模态健康医疗数据的存储、索引、查询。业 务人员可跨平台访问 Hadoop、MySQL 等 20+ 数据源的异构数据,查询灵活性与效率双 提升。 2. 需具备高性能实时计算能力 在基于内存计算的动态优化手段以及分布式计算架构双重加持下,RapidsDB 查询性能方面远优于同类国内外 MPP 产品,1 秒内可完成 5 表关联、每表 1 亿条数据量的多条 件复杂查询,成功破解了传统数仓的性能瓶颈。 3. 安全可靠的数据管理架构 简化技术栈,提供简洁、可靠的数据管理架构,易管理、易运维,保障同组内某个节 点宕机时集群正常工作,具有高可用性和灵活性,同时满足数据安全和数据治理要求。相 比其他数据库各种复杂的调优参数和建表参数来说,RapidsDB 只需选择好分布键和排序 键就能得到很好的效果,降低业务人员学习难度。
技术创新方面,RapidsDB 作为完全自研安全可控的国产数据库,使用基于内存计算 的动态优化手段,RapidsDB 在查询性能方面远优于同类国内外 MPP 产品,经医疗数据 中心历时一个月的性能和高可用性严格测试和验证,整体响应时间最少。而产品所支持的 MPP 线性扩展更是满足了医疗数据中心未来随着业务增长的平台可扩展性问题。模式创新方面,依托国际领先的 MPP 内存数据仓库 / 分布式内存流数据库实时处理 医疗数据,有效支撑健康医疗大数据汇聚、治理、存储、开放、应用等,实现与自然人、 法人、空间地理等基础数据资源的跨部门、跨区域共享,提供公共卫生、保险创新、精准 医疗、互联网医院、医药研发、健康管理、医学教育等多种数据服务。
经济效益方面,以柏睿数据全内存分布式数据库 RapidsDB 为核心计算引擎构建的健 康医疗智能大数据平台,构建了强大的分析查询性能、跨源异构数据访问能力和高可扩展 性。在数据处理表现来看,RapidsDB 多表复杂查询性能超出 Clickhouse 数倍,亿级数据 查询超过 1000 并发 / 秒,数据容量提升 5 倍以上,查询效率提升 5 倍以上。同时降低总 体拥有成本,可按需扩展,减少计算资源浪费;易于维护,运维成本显著降低,服务水平 大幅提升。作为全国第一个通过国家卫健委试点评估并获得部委、省、市共建签约的国家 级健康医疗大数据中心,北方医疗大数据中心围绕健康医疗大数据领域开展数据汇聚、治 理、开放、应用,将带动千亿级产业规模发展。社会效益方面,该项目以各级各区域医疗机构、业务信息系统、第三方、互联网等为 数据源,以患者为核心,完成医疗大数据集成,构建统一数据采集交换中心,形成可落地 的数据规范和分级共享开放机制。基于此建设了可不断扩展的临床主题库、健康档案库、 医药主题库、卫生资源库等专业数据库, 为客户实现包括患者全生命周期浏览、政府决策、 统计分析、临床科研管理等方面的快速高效查询,为公共卫生、保险创新、精准医疗、互 联网医院、医药研发、健康管理等多种数据服务筑牢数据智能基座。