01摘要
知识图谱(KG)补全是通过对已存在事件的推理来增加新的事件,很多现有的方法忽略了时间信息,仅从时间未知的事件三元组学习来得到。在随时间变化的动态环境中,KG补全模型把事件的时间信息考虑进去是非常重要且有意义的。在这篇论文中提出了一个新的基于时间感知的KG补全模型,能够通过对已有事件及其时间信息来预测KG中的关系。针对事件发生的时间,提出了一种基于事件时序信息的时间感知KG嵌入模型,针对事件有效的时间,提出了一种基于整数线性规划的时间感知推理模型,它使用时间一致性信息加以约束。在时间感知的KG补全任务上对模型进行了实际评估。实验结果表明,该时间感知模型在时间事件上达到了最新的水平。
02介绍
尽管现在的KG规模很大,但是很不完整,KG补全模型能够推理出在实体之间遗失的事件。当前基于KG嵌入的方法能够把实体和关系变成连续的向量并且能保持原来结构的不变,然而很多KG嵌入忽略了事件的时间信息,在真实世界中很多事件是很短暂的,比如三元组(SteveJobs, diedIn, California)发生在2011-10-05,(Ronaldo, playsFor, A.C.Milan) 仅在2007-2008期间是真实的。本文针对时间感知的KG补全,把时间信息分为两类:一、具备时序的信息,二、保持时间一致性的信息。比如对于一个人P来言,存在如下几个过程(P, wasBornIn, )→(P,graduateFrom, )→(P, workAt, )→(P, diedIn, )。如果在p去世的时间后去预测他的工作地点是不合适的。再比如某个人的婚姻可能只存在一定时间段,并且每段婚姻的时间不会重叠。
为了处理KG嵌入方法中存在的问题,提出了两个模型分别对两种不同类别的时间信息进行处理,最后将两种模型结合起来得到更优结果,本文章包括以下部分:
(a)提出一个时间感知嵌入(TAE)模型来编码时序信息,一个整数线性规划(ILP)模型来编码时间一致性信息作为事件约束。
(b)建立一个连接框架来融合两个模型,ILP模型相比TAE模型考虑更多的时间约束问题,而TAE模型生成更多精确的嵌入给ILP模型作为目标函数。
(c)通过对基于YAGO2和Freebase的真实数据集进行基于时间感知的KG补全模型的实验,效果显著。
03模型介绍
在介绍模型前,我们先了解下基于时间感知的KG嵌入模型概念,它是利用观察到的三元组事件及事件之间的时序信息自动学习实体和关系连接,我们使用四元组(ei,r,ej,t) 来表示 ei 和ej在时间段t=[tb,te] 并且tb < te中存在关系r,为了简单起见,默认t的单位以年为计,即[1980, 1999]指开始于开始于1980,结束于1999。如果有些事件只是开始了还没有结束的话就设置为tb = te,倘若事件不会结束的话就设置为[tb,+∞]。KG补全模型的任务是预测一条关于(ei,r,ej)的边是否真正存在图谱中,传统的KG嵌入模型仅使用不包含时间的三元组去学习实体和关系的表示。TransE模型在传统模型中属于简单有效的一类,它的核心方法是把(ei,r,ej)都投射在一个n维的实数空间中,当存在(ei,r,ej)的边时,向量ei +r≈ej 模型的打分函数设置为
其中L1和L2表示L1范数和L2范数。
1.TAE模型
TransE假设每段关系都是时间独立的,同时实体和关系表示仅被KG的模型所影响,为了定义时间顺序,我们定义时间顺序是在一个具有相同的实体中,如表示一个人的出生和工作两件事,具有时间上的先后性,为了区别这个事件的时间先后顺序,我们定义了一个N*N维的矩阵T,该矩阵具有判断时序的作用。
如图是TransE模型加入时间演化矩阵后在TAE空间中的表示,我们假设r1代表出生发生在r2代表去世的时间之前,那么经过矩阵T投影,关系计算中r1乘以T约等于r2, 但是 r2 乘以T 不等于 r1。通过计算得分函数得分较低的事件,其对应的三元组可能具有更高的可信度。此处模型的打分函数为:
可知如果事件按时间逻辑顺序发展的方向得到的分会更低。其是因为矩阵T具有不对称性同时loss也是不对称的导致能够捕捉到时序信息。
2.ILP模型
在众多预测结果中包含了很多错误的结果,我们通过时间一致性约束的筛选能够丢掉错误的结果,产生更多准确性的结果。我们考虑了以下三种情况:
(a)时间独立性,同一个实体发生的两件事件的时间间隔具有不重叠性,比如a与两个人结婚时间不具备重叠性,如果重叠即是错误的。
(b)时间顺序性,即对于某些事件的发生具备先后顺序性,比如一个人的出生与毕业的先后顺序。
(c)时间跨度,有些事件仅在某些时间段里才是真的,比如主席的任职时间是固定不变的。
对于每个备选事件(ei,rk,ej),使用变量
表示该预测的合理性程度,同时引入布尔决策变量 来表示是否事件(ei,rk,ej,t)在时间t中,我们的目标是找到最优的变量在服从时间约束条件下使整体逻辑的合理性最大化。目标函数写为:
对于时间独立性的约束采用如下方程:
Cd代表一种关系描述,比如配偶关系。
对于时间顺序性的约束采用如下方程:
代表事件关系对的发生先后顺序。
对于时间跨度的约束采用如下方程:
C8代表在特定时间内的事件关系。
通过利用ILP模型,我们能够把捕捉KG内在固有特性的功能和保持全局一致性的时间约束条件结合在一起,对一个未知的事件进行预测存在的合理性程度。融合模型正如上文所说我们通过ILP模型相比TAE模型能够考虑更多的时间上的约束条件,同时TAE模型通过产生更多准确的嵌入关系给ILP模型来选择。
04 实验
本文在四个数据集上做了相应的对比实验,
表1 不同数据集的数据量
表2 对实体预测的评估结果
可知相比其他模型,优化后的模型具备更高的正确率。
05 总结
在本文中,我们提出了两种新的时间感知的KG补全模型。时间感知嵌入(TAE)模型对嵌入空间的几何结构施加时间顺序约束,使其具有时间一致性和准确性。基于ILP框架的时间感知联合推理考虑了全局时间约束和KG嵌入。它自然保留了嵌入模型的优点,并且在各种时间约束下更加精确。通过融合这两个模型,时间信息可以得到更加充分的利用。
关于 天 方 夜 “谈”
天方夜谈原意讲不切实际的东西,而这里想要 “脚踏实地”真正弄懂并感受一篇文章的思想。
方班人有自己的浪漫,
我们探讨知识,谈论理想,
采摘科研的繁星,
脚下是星辰大海。
天:代表我们的理想犹如天空般浩荡
方:代表方班
夜:代表代码人的冷静与静谧
谈:代表方班愿与您,就领域内的经典思想和前沿成果“秉烛夜谈”