怎样从脏乱差的医疗大数据中提取价值（二）

CTO老王 2023-07-27 17:20:55

一、数据特征

1）数据异构

多平台，多种接口，数据类型没有一个标准，只能是点对点的对接大量数据，内容冗杂，过程繁复，速度缓慢。

2）主题分散性

就诊信息分布在不同的平台上，不能够形成以患者为中心的所有电子化就诊信息集成，不能提供完整、全面、准确、及时的患者临床信息。

3）数据量大

在大数据背景下，行业应用的数据量通常都以亿级别计算，存储通常在TB/PB级别甚至更多。

4）数据多态

数据模型在数据出现之后才能确定，数据模型随着数据量增长不断演变。

二、数据价值

数据流通：

院内流通、院外流通；
例如：从信息科流通到临床医务人员，从医院流通到卫生管理部分，从省内医院流通到省外医院。

数据开放：

面向个人：如查阅报告、健康评估、健康档案等；
面向企业、政府：调阅病理取证、获取群体用药信息、医疗数据监管等；

数据挖掘：

科研：科研统计分析和深度挖掘，如疗效分析等；
临床：如手术风险评估、预测模型建立等；
其他：医院管理、趋势分析等

三、数据产品

产品的定义：

建立数仓产品需依据卫生部统计信息中心2011年发布的《基于电子病历的医院信息平台建设技术解决方案》建立标准化医院数据资产目录。

数仓需以医院基础业务活动为索引，提供HIS、LIS、EMR等多数据源业务表字段绑定规则；实现零代码绑架，业务人员即可通过页面配置绑定规则。

数仓将根据配置自动生成调度任务，并通过Hadoop生态圈sqoop技术实现对业务系统的数据抽取；提供全量数据抽取与增量数据抽取两种方式，抽取过程实现透明、可追溯。

解决的问题：

实现以患者为中心的医疗信息采集、清洗、存储、加载和决策辅助。保障原始数据来源追溯、主数据标准唯一、数据应用及时高效。
实现基于数据中心的全量数据，构建应用主题库，为医院临床辅助、精细化运营管理、科研管理提供强有力的数据支撑。
实现“数据湖”数据资产目录，提高数据价值。
实现亿级别数据量查询、统计、分析秒处理展示。

四、产品功能

数据集成：

院内分散、异构数据依据颐东数仓资产目录表字段规则映射，并通过ETL工具实现历史数据、实时数据抽取转换。业务系统或集成平台之间进行数据字典与码表的映射转换，解决系统之间的数据一致性问题。新旧系统切换或系统升级，历史数据在新编码体系和分类体系下的转换和对接。

数据稽查：

用户可以根据需求上传需要比对的数据及相应标准，通过软件对数据进行一致性和准确性稽核。

疾病稽查：

产品经理，产品经理网站

药品稽查：

产品经理，产品经理网站

医疗知识库：主数据管理

产品经理，产品经理网站

疾病、手术标准：

产品经理，产品经理网站

五、产品应用

1）数据治理

数据治理是治理多元异构的数据，治理数据资产，突出医疗价值，确保数据质量控制数据治理的过程要确保数据的完整性（事件、表单、记录、表项），一致性（主数据一致性、逻辑一致性），唯一性（无二义冗余、指标及计算口径），及时性，原始性，可溯源性及可测量性。

解决的问题：数据重复、一码多病、数据杂乱、脏数据多

治理的方案：通过数仓产品建立院内数据资产目录索引大数据中心

2）大数据中心

产品经理，产品经理网站

3）数据集市

根据临床科室构建应用主题库，为医院临床辅助、精细化运营管理、科研管理提供强有力的数据支撑。

4）数据上报

解决针对卫计委统计信息中心以《江苏省健康信息平台共享数据集》为基准上传的数据的数据稽核与表结构转换。

5）精准治理

单病种科研知识库，辅助治理。

六、产品特性

1）多种数据源

支持多种数据源，一键接入，无需繁琐配置。

2）零代码

简单易用的用户体验，零代码建立传输任务，降低企业用户使用门槛。

3）实时融合

实时的数据融合与集成，不让延迟成为瓶颈，保证数据的时效性。

4）开箱即用

简单快速的安装流程，高效部署生产环境，即装即用。

5）错误队列预警

群集监控、故障排除、扩容扩展、应急处理，完善纠错与预警机制。

6）安全审计

数据审计、数据盘点、权限认证、隐私处理。

7）全程质量管控

高质量体系保障数据传输的安全性与准确性，真正实现数据无忧。

8）数据服务

开放接口，开放数据，开放服务，支持第三方嫁接服务。

9）大数据生态系统

Hadoop生态系统中集成了大量的工具和组件来满足不同计算和存储需求，比如HDFS分布式文件系统、HBase列式数据库、Hive数据仓库、Kafka服务编排、MapReduce服务调度、impala类SQL数据仓库等，可以方便地进行数据存储和分析计算。

产品技术架构：

产品经理，产品经理网站

数据仓库（ETL） + 自然语言处理（NPL）+大数据技术（Hadoop）+安全通信（OAuth2.0、密码学、CAS）

七、名词解释

CDC又称变更数据捕获（Change Data Capture），开启cdc的源表在插入INSERT、更新UPDATE和删除DELETE活动时会插入数据到日志表中；CDC通过捕获进程将变更数据捕获到变更表中，通过cdc提供的查询函数，我们可以捕获这部分数据。

ETL数据仓库技术（Extract-Transform-Load），它是将数据从源系统加载到数据仓库的过程。用来描述将数据从来源端经过萃取（extract）、转置（transform）、加载（load）至目的端的过程。使用到的工具包含（kettle、flume、sqoop）。

Kettle基于JAVA的ETL工具，支持图形化的GUI设计界面，然后可以以工作流的形式流转，在做一些简单或复杂的数据抽取、质量检测、数据清洗、数据转换、数据过滤等方面有着比较稳定的表现。

Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。

Sqoop是Apache开源软件，主要用于在HADOOP（Hive）与传统的数据库（mysql、postgresql…）间进行数据的传递；适用于能与大数据集群直接通信的关系数据库间的大批量数据传输。

本文作者 @CTO老王

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处。如若内容有涉嫌抄袭侵权/违法违规/事实不符，请点击举报进行投诉反馈！

标签：分析评测产品经理初级产品经理医疗大数据

上一篇 > 怎样从脏乱差的医疗大数据中提取价值（一）
下一篇 > 豆瓣的社交价值——与知乎对比

Axure原型案例实战分享：如何改造后台产品架构及如何迭代更新升级现有的产品？

产品经理先考虑清楚这些问题，再开始一段属于自己的创业旅程

如何在压力山大的产品经理生活中调节情绪

如何给需求排优先级？

产品思维

产品经理：如何“化零散需求”为“高效解决方案”？

产品经理如何做需求分析？这 8 个步骤一学就会！

业务场景梳理，产品经理必备的技能点

从产品新人到项目owner

不懂技术的产品经理，如何让 AI 码农帮敲代码？

产品经理的面试技巧，简历要点，并从四个方面拆解面试重点

【跨界奇谈1】韩立版“精益创业”案例分析

产品艺术性的思考

不会要账的产品经理，不是好的谈判员

产品经理与项目经理到底有什么区别？该怎么选？

产品小白不迷路01：我适合做产品经理吗？

物联网对传统互联网产品经理的影响

优秀的产品经理应该具备什么样的思维方式？

产品经理的职业深度进阶：策略性思考与领导力提升

产品经理方法论连载03 | 产品通识——产品经理的岗位分类

面试产品经理时，如何回答有关创新和产品方法论的问题

怎样从脏乱差的医疗大数据中提取价值（二）

一、数据特征

二、数据价值

三、数据产品

四、产品功能

五、产品应用

六、产品特性

七、名词解释

相关文章