当前位置: 首页 > > 天 方 夜 “谈” 第17期 | 知识图谱中的实体演化

天 方 夜 “谈” 第17期 | 知识图谱中的实体演化

发表于:2020-03-18 20:46 作者: 方滨兴班 阅读数(11509人)

来源:MEPDaW 2019

作者:Mayesha Tasnim,Diego Collarana,Fabrizio Orlandi,Damien Graux

文章介绍及下载链接:https://www.researchgate.net/publication/331408465_Summarizing_Entity_Temporal_Evolution_in_Knowledge_Graphs

1 背景介绍

作为通向通用人工智能和强人工智能的一块重要基石,知识图谱的研究由来已久,从上个世纪五六十年代的语义网络思想,到万维网之父提出的语义网,再到2006年提出的关联数据,都是早期对知识图谱研究的探索。但过去的研究大多是针对静态的知识图谱,而随着如今信息传播和事物发展变化的加快,单一静态的知识图谱已经不能满足诸多场景下的需求,所以迫切需要一种能够结合不同时间段的知识图谱进行联合分析的方法,其中最重要的就是对知识图谱中的实体随时间的演化情况进行刻画。

图片.png

图1 Google结合知识图谱技术的搜索结果

目前知识图谱随时间演化的研究才刚刚起步,其中专注于实体演化的论文更是少之又少,这里选取了Mayesha等2019年在数据库管理与信息检索(MEPDaW)上发表的专注于实体演化的一篇论文进行分析,他们提出了一种方法能够对不同时间段的实体的变化情况进行描述。

2 问题描述

随着时间的推移,知识图谱随着新实体和关系的增加或现有实体和关系的改变而发展,通常情况下,基于RDF描述的知识图谱在不同时间段的版本是单独维护的。比如,DBpedia每年发布一个新版本的数据集,大多数基于知识图谱的应用在都关注于可使用的最新的版本,但由此也会丢失这些实体是如何从不同的版本进行转化的信息。

比如下图2所示,一个人可能会跨部门迁移到不同的城市或更改职务,或者第一次为人父母,若知识图谱中仅仅有一些版本被考虑到了,那么获得的信息仅仅在那段时间的场景中是有效的。比如仅仅观察图2a和图2e的图谱,有同样的伴侣P,但是缺失了这个人在2012年到2014年有不同的伴侣Q的信息。

图片.png

图2 从四年的子图中获得的演化图谱

3 相关概念

Mayesha等提出的方法能够实现从不同时间段的同一个知识图谱中自动生成对应实体的演化图谱,如图2c所示。技术流程中有三个重要的概念,分别是RDF子图、形式概念分析和融合策略。

1) RDF子图

G是一个由RDF描述的知识图谱,定义RDF子图M为如下形式的G的子图:

图片.png

其中t1,…,tn代表M的三元组,一个RDF子图M由有着共同主语的三元组组成。

2) 形式概念分析

       利用二进制数据表来描述对象及其属性之间的关系,生成二进制数据表的方法采用的是V.Vychodil提出的FCA方法。这些数据表具有与实体相对应的行,以及与这些实体的属性对应的列。形式概念是一个<A,B>对的集合,其中A是实体集,B是属性集。

3) 融合策略

采用的是Collarana等提出的融合策略的思想,实质是一个在三元组层面的操作规则的集合,由一些特定的谓词和宾语的组合触发。另外其融合策略还借助了本体O来解决在源、谓词、宾语和语句层面可能的冲突问题。

4 技术流程

首先输入一组不同时间段的同一个知识图谱,这些图谱随后会被转化为一个RDF子图集合,其中代表同一现实世界实体的子图被组合在一起,每一组RDF子图都会被转化为一个MxN的二进制矩阵,由FCA进行形式概念分析,然后融合策略会对FCA的输出进行融合处理。最终的输出表示一个实体在知识图谱不同时间段的演化情况。框架如图所示:

图片.png

图3 整体框架流程图

1) 知识图谱到RDF子图的转换

RDF子图s1,s2,…,sn分别对应于不同时间段的知识图谱φ1 (D),φ2 (D),…φn (D),φ1 (D),φ2 (D),…φn (D)是同一个知识图谱不同时间段的不同内容,因此存在相同的实体M1,M2,…Mn,其中M1∈s1,M2∈s2,... Mn∈sn。相同实体的RDF子图被组合到一起,每一实体组都会转化为一个MxN的矩阵,m对应于组中子图的数量,n对应于组中包含的不同实体属性的数量。用1和0表示Mi是否有某个属性-谓词对。

2) 形式概念分析获取演化的信息

使用FCA算法计算并返回形式概念<M,P>的集合,其中M是所有RDF子图的集合,它们具有P中包含的所有性质。形式概念分析为我们提供了在不同时间段知识图谱中找到具有相同属性-谓词对的RDF子图。具体情况如图所示:

图片.png

图4 FCA算法的示意图

3) 应用融合策略得到实体演化图谱

融合策略有以下几个条件:(1) 包含所有的predicates-object对;(2) 确定一个RDF子图的属性是否为RDFs(属于另一个RDF子图属性的子属性);(3)权限图策略,将一个RDF子图定义为一个更可信的源,在融合发生属性冲突时选择其属性。融合策略从FCA算法的输出中选择不同的属性,并按照下图所示的本体创建一个实体演化图谱。

图片.png

图5 应用本体融合策略创建演化图谱

5 改进思路

该方法针对某个实体的属性在不同时间段的变化情况来构造其演化图谱,但实际上很多属性通常是不会改变的或改变频率非常低,比如姓名、国籍、生日等,对于这样一些属性可以适当的过滤以减少计算开销,另外该方法是根据年份来进行实体的演化分析的,可以换一个角度,根据实体的某个属性进行演化分析,比如工作岗位、生活地点等,这样能具体的针对某个属性分析,更加的精确以及计算效率更高。

关于 天 方 夜 “谈”

天方夜谈原意讲不切实际的东西,而这里想要 “脚踏实地”真正弄懂并感受一篇文章的思想。

方班人有自己的浪漫,

我们探讨知识,谈论理想,

采摘科研的繁星,

脚下是星辰大海。

天:代表我们的理想犹如天空般浩荡

方:代表方班

夜:代表代码人的冷静与静谧

谈:代表方班愿与您,就领域内的经典思想和前沿成果“秉烛夜谈”