Language Models are Open Knowledge Graphs

使用预训练的语言模型生成知识图谱.

paper：Language Models are Open Knowledge Graphs
arXiv：link

知识图谱(knowledge graph)是一种结构化的图结构，用于表示知识及其之间的关系。知识图谱中一般存储两种知识，第一种是实体(entity)，如人名地名这类的名词；另一种是关系(relation)，表示实体间的联系，如出生地、职业等。实体一般表示为图中的结点(node)，关系一般表示为图中的边(edge)。开放知识图谱一般用三元组(triple)（起始实体，关系，结束实体）表示。

本文提出了一种使用预训练的语言模型(如BERT,GPT-2)自动生成知识图谱的方法。首先使用预训练语言模型从清洗过的语料库中提取三元组，再将这些三元组映射为知识图谱。模型的整体结构如下图所示，由于该模型主要包括match和map两部分，因此也被称为MaMa。

step 1: match

match这一步是自动抽取三元组。语料库选用WiKi百科，预训练模型选用直接发布的模型而不进行微调。由于实体抽取的技术已经相当成熟，因此给定语料库中的段落，先用开源的实体抽取工具提取段落中的所有实体，构成所有可能建立的关系候选。任选其中两个实体，依据在句子中出现的关系分别看作起始实体(头实体)和结束实体(尾实体)。之后使用预训练的语言模型提取实体间的关系，这一步是通过预训练模型中的注意力权重实现的。

对于任意(起始实体,结束实体)对，使用beam search的方法生成一个从起始实体到结束实体的序列。对于每一个token，关注注意力矩阵中该token与其后所有token之间的注意力得分，每次选取得分最大的token与该token匹配。通过搜索便可以获得三元组。