一文读懂医学知识图谱构建

CTO老王 2023-07-27 15:41:39

医学知识图谱是实现智慧医疗的基石，有望带来更高效精准的医疗服务；然而，现有知识图谱构建技术在医学领域中普遍存在效率低、限制多、拓展性差等问题。

针对医疗数据跨语种、专业性强、结构复杂等特点，此处重点对构建医学知识图谱的关键技术进行了自底向上的全面解析，涵盖了医学知识表示、知识抽取、知识融合和知识推理以及知识质量评估五部分内容。

产品经理，产品经理网站

一、知识建模

即建立知识图谱的数据模式，行业知识图谱的数据模式对整个知识图谱的结构进行定义，因此需要保证可靠性。

1. 常用方法

基于行业现有的标准进行转换。

从现有的高质量行业数据源（如业务系统数据库表）中进行映射。

2. 使用知识图谱对数据进行抽象建模

以实体为主体目标，实现对不同来源的数据进行映射与合并。（实体抽取与合并）

利用属性来表示不同数据源中针对实体的描述，形成对实体的全方位描述。（属性映射与归并）

利用关系来描述各类抽象建模成实体的数据之间的关联关系，从而支持关联分析。（关系抽取）

通过实体链接技术，实现围绕实体的多种类型数据的关联存储。（实体链接）

使用事件机制描述客观世界中动态发展，体现事件与实体间的关联；并利用时序描述事件的发展状况。（动态事件描述）

3. 建模工具Protégé

本体编辑器。
基于RDF(S)，OWL等语义网规范。
图形化界面。
提供了在线版本——WebProtégé。
适用于原型构建场景。

产品经理，产品经理网站

二、知识获取

从不同来源、不同结构的数据中进行知识提取，形成知识存入到知识图谱。

产品经理，产品经理网站

1. 获取结构化数据的D2R工具

D2RQ：将关系数据库转换为虚拟的RDF数据库的平台，主要包括：

D2R Server：HTTP Server，提供对 RDF数据的查询访问接口，以供上层的 RDF 浏览器、SPARQL 查询客户端以及传统的 HTML 浏览器调用；
D2RQ Engine：利用一个可定制的 D2RQ Mapping 文件将关系型数据库中的数据换成 RDF 格式；
D2RQ Mapping Language：定义将关系型数据转换成 RDF 格式的 Mapping 规则。

2. 半结构化行业数据源解析

针对不同结构的数据配置相应的包装器。

包装器配置工具：

输入源设置；
预处理配置；
抽取目标配置；
抽取过程配置；
结果后处理；

例如：

产品经理，产品经理网站

3. 文本信息抽取

主要有实体识别、概念抽取、关系抽取、事件抽取。

其中CloseIE面向特定领域抽取信息、预先定义好抽取的关系类型、基于领域专业知识抽取、规模小且精度比较高；OpenIE面向开放领域抽取信息、关系类型事先未知、基于语言学模式进行抽取、规模大且精度相对较低。

1）OpenIE的典型代表工具有 ReVerb、TextRunner

通常用于做第一轮的信息抽取探索，从它的结果中发现新的关系，然后在此基础上应用其它的信息抽取方法。

2）CloseIE 典型工具：DeepDive

DeepDive主要针对关系抽取，在指定的关系抽取中效果比较理想，在实体确定后可以很好地进行关系抽取；未提供专门的针对概念、实体和事件抽取的支持；支持中文关系抽取，仅需要引入中文相关的基础处理工具即可；需要大量的标注语料支持，通过人工设置标注规则。

三、知识融合

1. 数据模式层融合

行业知识图谱的数据模式层通常是由专家人工构建或从可靠的结构化数据中映射得到的，通常在映射时会通过设置融合的规则来确保数据的统一。

概念合并；
概念上下位关系合并；
概念的属性定义合并；

2. 数据层融合

1）实体合并

在构建行业知识图谱时，实体优先从结构化的数据在获取；对于结构化的数据，通常有对实体进行唯一标识的主键，因此在进行知识抽取时即可设定实体合并的依据。

从非结构化数据中抽取的实体，同样使用设置合并条件的规则来完成实体的合并；例如，企业合并是可以通过企业名称直接合并，企业高管合并是人名相同＋同一企业（企业高管中同名的概念极低）。

2）实体属性融合

具有时态特性的属性（如）：使用新的数据覆盖老的数据；依据数据源的可靠性进行选取：结构化数据源中的质量通常较高。

3）冲突检测与解决

四、自然语言处理

美国著名的计算机科学家贾里尼克领导他的实验室，借助数学中的统计学工具，把当时语言识别的成功率从70%提升到90%；同时让语言识别的规模，从几千个单词上升到几万个单词，让语言识别有了实际应用的可能。

统计学和自然语言好像没什么关系，它怎么处理自然语言呢？

其实贾里尼克的思路很简单，他认为，要判断一个句子正不正确，就要看这个句子出现的可能性的大小，这个可能性用概率来衡量；比如，我们假定第一个句子出现的概率是二分之一，第二个句子出现的概率是千分之一，那第一个句子出现的可能性就比第二个句子大得多；那么从概率的角度来说，第一个句子就更有可能是正确的。

所以接下来我们需要做的事，就是判断一个句子出现的可能性有多大；这时就需要用到“马尔科夫假设”，这个假设是说，假定一个句子里每个词出现的概率，只和前一个词有关，就好比“涨停”这个词，最有可能出现在“股票”这个词之后。

那么，只要给计算机量足够大的机读文本，也就是专业人士说的语料库，计算机就能算出来，在一个特定词后面出现某个词的概率；这样，只要把一句话里所有词出现的概率相乘，就是这个句子出现的概率；概率最大的句子，就是最有可能正确的句子。

按照这个思路，科学家们成功地让计算机拥有了处理自然语言的能力。

1. 词性

产品经理，产品经理网站

句子的基本成分是：主语、谓语、宾语；补充成分是定语、状语、补语。

2. 句法

产品经理，产品经理网站

句子划分口诀：

句子成分要划对；
纵观全局找主谓；
主前定状谓后补；
谓前只有状地位；
“的”定“地”状“得”后补；
宾语只受谓支配。

五、知识存储

知识图谱是基于图的数据结构，其存储方式主要有两种方式： RDF存储和图数据库（Graph Database），常见的图数据存储—Graph DBMS。

1. 基础存储

可按数据场景选择使用关系数据库、NoSQL数据库及内存数据库。

2. 数据分割

基本类型：整数表、浮点数表、日期类型表…

集合类型：List型表、Range型表、Map型表…

3. 缓存与索引

使用分布式 Redis 作为缓存，按需对数据进行缓存。对三元组表按需进行索引，最多情况下可建立九重索引。

4. 善于使用现在成熟存储

使用 ElasticSearch 实现数据的全文检索 l 结构固定型的数据可使用关系数据库或NoSQL。

对于非关系型的数据尽量不入图存储，避免形成大节点；非关系型的数据，使用适合的数据存储机器进行存储，通过实体链接的方式实现与图谱数据的关联。

六、知识计算

1. 图挖掘计算

基于图论的相关算法，实现对图谱的探索和挖掘。

集成实现基本图算法：

图遍历：广度优先遍历、深度优先遍历；
最短路径查询： Dijkstra（迪杰斯特拉算法）、Floyd（弗洛伊德算法）；
路径探寻：给定两个或多个节点，发现它们之间的关联关系；
权威节点分析：PageRank算法；
族群发现：最大流算法；
相似节点发现：基于节点属性、关系的相似度算法；

2. 本体推理

使用本体推理进行新知识发现或冲突检测。

w 本体知识推理工具——RDFox。

本体推理基本方法：

基于表运算及改进的方法：FaCT++、Racer、 Pellet Hermit等；
基于一阶查询重写的方法（Ontology based data access，基于本体的数据访问）；
基于产生式规则的算法（如rete）：Jena 、Sesame、OWLIM等；
基于Datalog转换的方法如KAON、RDFox等；
回答集程序 Answer set programming。

3. 基于规则的推理

使用规则引擎，编写相应的业务规则，通过推理辅助业务决策。

基于规则推理工具——Drools规则定义。

七、上层应用的开发

等我们构建好知识图谱之后，接下来就要使用它来解决具体的问题；例如对于风控知识图谱来说，首要任务就是挖掘关系网络中隐藏的欺诈风险。

从算法的角度来讲，有两种不同的场景：一种是基于规则的；另一种是基于概率的。鉴于目前AI技术的现状，基于规则的方法论还是在垂直领域的应用中占据主导地位；但随着数据量的增加以及方法论的提升，基于概率的模型也将会逐步带来更大的价值。

1. 基于规则的方法论

首先，我们来看几个基于规则的应用，分别是不一致性验证、基于规则的特征提取、基于模式的判断。

1）不一致性验证

为了判断关系网络中存在的风险，一种简单的方法就是做不一致性验证，也就是通过一些规则去找出潜在的矛盾点。

这些规则是以人为的方式提前定义好的，所以在设计规则这个事情上需要一些业务的知识；比如在下面的这个图中，李明和李飞两个人都注明了同样的公司电话，但实际上从数据库中判断这俩人其实在不同的公司上班，这就是一个矛盾点；类似的规则其实可以有很多，不在这里一一列出。

产品经理，产品经理网站

2）基于规则提取特征

我们也可以基于规则从知识图谱中提取一些特征，而且这些特征一般基于深度的搜索比如2度、3度甚至更高维度；比如我们可以问一个这样的问题：“申请人二度关系里有多少个实体触碰了黑名单？”，从图中我们很容观察到二度关系中有两个实体触碰了黑名单（黑名单由红色来标记），等这些特征被提取之后，一般可以作为风险模型的输入。

在此还是想说明一点，如果特征并不涉及深度的关系，其实传统的关系型数据库则足以满足需求。

产品经理，产品经理网站