Tags: Knowledge Base Canonicalization
Authors: Partha Talukdar, Prince Jain, Shikhar Vashishth
Created Date: December 11, 2023 4:13 PM
Status: Reading
organization: Indian Institute of Science Bangalore, Microsoft Bangalore
publisher: WWW
year: 2018
code: https://github.com/malllabiisc/cesi
paper: http://malllabiisc.github.io/publications/papers/cesi_www18.pdf
本文的任务是开放性知识图谱标准化,旨在将开放信息抽取中的实体和关系进行标准化,将相同意义但不同描述的实体和关系归为一类。
本文指出,过去的方法需要手动定义特征,并以此进行聚类。这些方法往往非常昂贵且通常只能得到次优结果。因此作者提出了一个新的框架,通过训练嵌入的方式来进行特征提取。
本文的整体框架主要分为三个部分
开放知识库中的实体和关系通常都存在一些相关的侧面信息,比如一些有用的额外信息。作者使用这些信息来协助特征获取。
使用PPDB和WordNet信息,以及以下额外信息:
𝜂是三元组得分,ηi 是正样本,ηj 是负样本;ev 和ev' 是等价信息,因此尝试拉近距离,r 同理;最后是正则化损失函数。
C表示预测出来的簇,E表示完全正确的簇。样例如下:
大致意思是,如果一个簇中指包含一个概念,则视为正确的簇,可以不全,但不能有其他概念,如例子中的c2 和c3 为正确的簇,其中c2 虽然少了一个New York City,但没有其他概念。相比之下c1 因为包含了两个概念,所以不算正确的簇。
大致意思为,统计每个预测簇中包含的最多概念的个数并求和。比如,c1 中包含两个概念e1 和e2 ,但e1 数量多,因此只统计e1 的个数,即2个。
大致意思是,穷举每个簇中的所有概念对组合(不看顺序,顺序颠倒不算额外概念对),统计其中属于同一个概念的数量。
P的分母是按照C的结果计算总体概念对的数量(C2c ),R的结果是按照标准答案计算总体概念对数量(C2e );P和R的分子是相同的。
对于c1 ,有3个元素,可以组成C23=3 个组合{(America, USA), (America, New York City), (USA, New York City)},但只有(America, USA)属于同一个概念,因此计数1;同样,对于c2 ,也有三种组合,且三种组合都属于同一个概念,因此计数3;对于c3 ,由于簇中只有一个元素,因此没有组合。
那么分子就是 1+3+0=4。