基于电子病历(EMR)的大数据知识挖掘
随着医疗机构信息化建设的大力推进,电子病历数据持续的海量增长,针对电子病历数据的知识挖掘也应运而生;电子病历记录了病患就诊的全过程,包含数字、图像、文本等多种数字化信息。
项目从电子病历应用场景出发,根据完整的医疗活动过程中不同的角色,分别从临床医疗、教学科研、管理部门和病患四个角度进行需求分析;明确电子病历的功能定位,挖掘出电子病历中潜在的医学规则和模式;一方面为医务人员临床诊断中提供决策支持,另一方面方便向大众普及病症知识,为疾病防治与健康医疗模式带来改变。
一、核心技术
1. 数据清洗
1)隐私数据处理
电子病历中包含患者的全部信息,对电子病历的信息抽取涉及到患者隐私,因此需要将患者身份信息隐藏,仅保留研究相关的诊断信息,以保护患者基本权益不受侵犯。
2)主数据目录(分词、词性、同义词、相似词)
首先保障数据的完整性、一致性与唯一性,自动分词和词性标注是文本挖掘的基础,分词和词性算法的优劣直接决定了文本挖掘的效果。
首先融合权威词表、官方标准,通过网络尽可能完整地收录医学词汇,构建医学词典,避免分词错误;同时构建词性标注集合,确保适应电子病历的词性体系;并结合基于统计和机器学习的分词和词性算法,对未登录词进行识别,提升电子病历分词和词性效果;构建电子病历分词和词性标准,为后续电子病历的挖掘奠定基础。
2. 数据抽取
抽取规则:多种表达式(业务活动、时间轴、病种、科室、地名等)
为了实现对电子病历数据的有效组织和分析,基于电子病历信息库,在传统机器学习模型上,使用基于七分位词位标注集和复杂语言特征模板的条件随机场,从电子病历的文本中抽取实体。
基于深度学习模型,在人工标注电子病历实体数据的基础上,构建RNN、LSTM、LSTM-CRF和BERT等深度学习实体抽取模型。
在上述所构建的两类实体抽取模型的基础上,完成对电子病历中实体的抽取;在本部分不仅完成对实体的抽取任务,而且会对所构建的实体抽取模型的整体性能进行纵向和横向的对比,以确定最适合电子病历实体抽取的模型;构建电子病历的实体标注规范,并形成针对电子病历的实体抽取模型。
例如:时间轴。
电子病历具有显著地时序性:病症在不同诊疗阶段具有明显的差异;病人生命体征受时间规律影响;流行病的环境因素中时间因素也是重要的组成部分。
除了电子病历生成时间、修改时间等显示时间外,病历中的隐式时间点及时间段推断也是研究的重难点,对电子病历时间维度上的研究也是电子病历挖掘的重中之重。
3. 数据存储
基于Hadoop大数据平台搭建全文检索引擎,实现海量结构、非结构化数据的高效存储和检索,提供更快、更优用户体验。
4. 数据仓库
主要步骤包括:
- 命名实体识别,即在文本中找到关键词,并能与文中所指的概念对应起来;如在某一文本中,不仅能通过基因符号识别出这个基因,也可以通过同义词,或以往名称识别出该基因。
- 信息抽取,基于语言结构的先验知识(如自然语言中的主、谓、宾三元结构),通过自然语言处理方法,抽取出特定的动词或名词。
- 信息存储,将抽取到的信息(数据)加载并转存到标准化数据模型中,形成以患者为中心、医院临床信息系统(HIS、EMR、LIS、PACS等)无缝、连续和可互操作的集中式医疗大数据平台;该过程中的数据抽取、转化、加载称之为数据仓库(extract-transform-load, ETL)技术。
二、业务应用
1. 全文检索平台
当前,海量的电子病历为医务人员蕴藏了丰富的专业知识,却也给循证医学造成了阻碍。
其中大量非结构化的文本无法有效地进行信息查询,主要存两点问题:
- 数据库无法存储海量数据;
- 数据库中非结构化数据查询效率极低。
基于大数据技术,构建高性能数据存储、分布式检索和分析平台,实现海量病历文本高效检索,为临床医疗和教学科研等工作提供基础保障。
2. 构建临床循证知识库(辅助治疗)
知识库是经过有机组织的知识集群,采用命名实体识别方法对电子病历中疾病名称、身体部位、症状、检查项目、治疗手段、药品名进行抽取,形成实时更新的医学实体库及相关的医疗用语库。
利用关系抽取方法,抽取出“症状-诊断”关系,“疾病-药物”关系,形成可供推理的医学知识图谱;为临床医疗提供决策辅助,加强药物管理,实现精准用药。
综合利用大数据、机器学习、NLP和深度学习等技术,通过主诉+病史+AI辅助检查检验结果构建单病种诊断知识图谱,并提供大数据精准治理方案。
3. 定制电子病历模板
由于电子病历形式多样,各个系统之间没用统一的规范,严重阻碍了电子病历的分析与利用,通过实体标准化技术将不规范的医疗实体映射为标准的医疗实体,为有效利用医疗数据扫除障碍。
形成医务人员广泛认可的实体标准,并统一定制电子病历模板供系统开发商借鉴;在医务人员培养过程中,加强医疗实体规范化,对电子病历使用进行培训和意见反馈,提升病历质量。
4. 病症分类模型研究
首先采用分类算法对不同科室的病历建立分类模型,为病症自动分诊提供帮助;其次,电子病历具有冗余性,通常为了确诊需要检查很多项目,无论检查结果正常或异常都会完整记录在案。
病历中除了提及的实体,还有用来修饰的定性词或数字,如“{无}关节肿痛”,“体温{37}度”等,这类定性词或定量数值对疾病的诊断具有关键作用;通过建立分类模型能够辅助医生进行诊断,提高整体医疗水平。
5. 知识普及与推荐服务
基于医学知识图谱和患者既往病史向患者提供针对性的病症知识普及服务,为病患了解自身疾病的相关信息提供权威、便捷的途径,防止被互联网错误信息误导。
满足病患对自身健康管理的需求,同时也消除了医患之间的信息不对称,这有助于缓解医患之间的紧张关系,从根源消除医患纠纷;采用基于内容和基于协同过滤的方法进行专家推荐,方便病患和医生之间相互了解,也便于患者找到合适的医生。
6. 疾病预测推演
根据确诊病历,统计病例数、性别比例、年龄分布、职业分布、手术率、好转率、死亡率、并发症、用药情况及关联的检查检验等;在临床治疗方案的选择中,可列出相关治疗方案的比例,便于医生进行比较分析临床效果。
通过数据分析找到患病特点十分必要,除此之外,如果能将临床描述性信息转化为数字化临床信息,将基因数据、临床表型和疾病三者关联起来;比如:任一临床表型能同时找到与之相关的基因或蛋白信息,并通过这种方式指出疾病分子机制、耐药性、推测预后等,这对于临床医生而言将十分有意义。
三、研究方法
文献调研法:针对电子病历的数据获取和清洗、电子病历的实体抽取,电子病历的实体自动分类,通过文献调研的方法搜集与电子病历实体相关的研究,并从中汲取和借鉴相应的技术和方法,从而为完成本子课题的研究任务奠定坚实的基础。
人工内省法:对电子病历进行语料训练并总结出实体分布的整体特征,人工对电子病历实体进行类别划分和训练模型所使用实体知识的标注,都是基于人工内省的方法实现的;人工内省的方法为电子病历多模态实体知识库的构建提供了支撑。
机器学习与深度学习的方法:电子病历多模态实体知识库中传统实体知识的抽取、深度学习实体知识的抽取、多个实体分类模型的构建均是通过机器学习和深度学习的方法实现的。
自然语言处理法:对电子病历文本内容进行的实体的抽取、类别模型的构建中所涉及到的实体语言特征的分析、语言模型的构建,均是通过自然语言处理的研究方法完成的。
本文作者 @CTO老王
版权声明
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处。如若内容有涉嫌抄袭侵权/违法违规/事实不符,请点击 举报 进行投诉反馈!