DocRED笔记

介绍

本文主要是将知识抽取推进到了文档级别,这需要对文档中多个句子进行抽取和推理。

DocRED包含对超过5000篇Wikipedia文章的标注,包括96种关系类型、143,375个实体和56,354个关系事实,其中40.7%的关系只能从多个句子中抽取。

DocRED的标注除了人工标注,还标注了大量弱监督数据,使数据可以被用于监督学习和弱监督学习。

为了度量document-level RE的难度与挑战性,作者实现了大量最近的在句内所做的SOTA方法并使用了完整的度量方法。

本文提出了未来有前途的研究方向?

源代码https://github.com/thunlp/DocRED

前人的工作

  • Quirk and Poon (2017) and Peng et al. (2017)采用自动标注,使可靠性降低
  • BC5CDR(Li et al。,2016)用1500个生物医学领域的文章构建数据集,适用范围较窄
  • Levy等通过QA从文章中抽取实体,但这些问题本身是从实体-关系对中转换而来的

本文的创新点

Wikipedia document collection and Wikidata

采用Wikipedia documents的介绍部分

实验

数据集构建

人工部分

  1. 给Wikipedia documents生成弱监督标记
  2. 注释文章和引用中提到的所有named entity
  3. 链接named entity与wikidata items
  4. 标注关系和对应的证据

和ACE (Doddington et al., 2004)一样,步骤2和4有3个迭代的过程:

  1. 采用NER或RE模型和relation recommendations生成named entity
  2. 人工修正和补充
  3. 检查和进一步修改数据

Stage1: 给Wikipedia documents生成弱监督标记

首先用spaCy进行明明实体识别得到named entity,再将其链接道Wikidata items,具有相同id的被合并,最后,查询wikedata中两个合并后的entity得到关系

少于128个词的文章被删除,保留至少4个实体的文章

在107050个文档中,随机选取5053个文档和96个最常使用的关系使用人工标注

Stage2: Named Entity and Coreference Annotation

修正第一阶段的named entity

Stage3: Entity Linking

将named entity链接到多个wikidata,为下一阶段提供来自弱监督的关系建议

采用TagMe进行实体链接

Stage 4: Relation and Supporting Evidence Collection

潜在关系对很多,真正有关系的实体对很少,根据第三阶段的弱监督建议来解决这一问题

每篇document 需要19.9个relation推荐, 7.8个RE supplement

evidence为人工选取

最后从实体链接中得到57.2%的关系被保留,48.2%从RE模型得到的被保留

远程监督数据构建部分

用bert确认远程监督的named natity指向和人工标注的数据是相同的

通过基于启发式的方法将每个命名实体的提及链接到一个Wikidata项,该方法共同考虑目标Wiki数据项的频率及其与当前文档的相关性。。。啥方法啊?

总之,将named entity和KB IDs合并(就是wikidata的项)

每个合并实体对之间的关系都通过远程监督来标记

数据集测试

两套基准,分别适用于监督和半监督场景

全监督而言,难度在于

  • 需要全局的推理能力
  • 潜在实体对太多,计算成本高,使用O(n^2)的算法可能不太适合

如果我要做这个工作,那么降低复杂度这个问题可以考虑算法方面,效果差不多就行了

弱监督除了上述两点,还有错误标签大大增加了

本文实现了目前最新的句子级别的知识抽取,在DocRED熵进行了评估

本质上还是将关系抽取(预测)视为多标签分类问题

本文还提出了一个新的子任务,即jointly identifying relation

emm,还提出了一个新任务Supporting Evidence Prediction

本文做的任务和效果

我能做的工作

Pattern recognition直接进行句子抽取

Logical reasoning每个句子进行句子关系抽取,再进行简单的推理,考虑引入自己定义的关系,可以看看AIME等

Coreference reasoning可以先做一个指代消解,再句子抽取

Common-sense reasoning

对本文参考感兴趣

Fenia Christopoulou, Makoto Miwa, and Sophia Ananiadou. 2018. A walk-based model on entity graphs for relation extraction.
这篇采用了较高复杂度进行跨路径的关系抽取

Yankai Lin, Shiqi Shen, Zhiyuan Liu, Huanbo Luan, and Maosong Sun. 2016. Neural relation extraction with selective attention over instances. In Proceedings of ACL, pages 2124–2133.
这篇16年的,处理了一下句子抽取中的错误标签问题

Hotpotqa: A dataset for diverse, explainable multi-hop question answering. 作者说他得到启发,将BiLSTM在第一个和最后一个位置的输出与一个嵌入的可训练关系连接起来,以获得一个句子的表示,该表示用于预先判断该句子是否被作为给定关系实例的支持证据