实例选择性注意的神经关系提取(翻译论文)

林开开1,沉士起1,刘志远1,2 *,栾波1,孙茂松1,2 1清华大学计算机科学与技术系,国家智能技术与系统国家重点实验室,清华大学信息科学与技术国家重点实验室,北京,中国2江苏省语言能力协作创新中心

抽象

远程监督关系提取已被广泛用于从文本中找到新的关系事实。然而,遥远的监督不可避免地伴随着错误的标签问题,这些嘈杂的数据将严重损害关系提取的性能。为了缓解这个问题,我们提出了一个关系抽取的句子级关注模型。在这个模型中,我们使用卷积神经网络来嵌入语句的语义。之后,我们在多个实例上构建语句级注意力,这样可以动态减少那些噪音实例的权重。实际数据集的实验结果表明,我们的模型可以充分利用所有信息句子,并有效减少错误标记实例的影响。与基线相比,我们的模型在关系提取方面取得了显着且一致的改进。本文的源代码可以从https://github.com/thunlp/NRE获取。

1介绍

近年来,Freebase(Bollacker et al。,2008),DBpedia(Auer et al。,2007),YAGO(Suchanek et al。,2007)等大型知识库已经建成并得到广泛应用在许多自然语言处理(NLP)任务中,包括网络搜索和问题回答。这些知识库主要由三重格式的关系事实组成,例如(微软,创始人比尔盖茨)。尽管现有的KB包含*

 

通讯作者:刘志远(liuzy@tsinghua.edu.cn)

 

与大量事实相比,与无限的现实世界事实相比,它们还远未完成。为了丰富知识库,已经投入了很多努力来自动发现未知的关系事实。因此,关系抽取(RE)是从纯文本生成关系数据的过程,是NLP中的关键任务。

 

现存最多

代码地址:HTTPS://github.com/thunlp/NRE

 

受监督的可再生能源系统需要大量标记关系特定的培训数据,这非常耗时且耗费人力。(Mintz等人,2009)提出远程监督,通过对齐KB和文本自动生成训练数据。他们假设如果两个实体在KB中有关系,那么包含这两个实体的所有句子将表达这种关系。例如,(微软,创始人比尔盖茨)是KB中的关系事实。远程监督将把包含这两个实体的所有句子视为关系创始人的活动实例。虽然遥远的监督是自动标记训练数据的有效策略,但它总会遭受错误的标签问题。例如,“比尔盖茨谈到慈善事业与微软在美国的反托拉斯问题有关 和欧盟“并不表达关系创始人,但仍将被视为一个积极的例子。因此,(Riedel等,2010; Hoffmann等,2011; Surdeanu等,2012)采用多实例学习来缓解错误的标签问题。这些传统方法的主要缺点是大多数特征都是从NLP工具(如POS标记)中明确导出的,并且NLP工具生成的错误将在这些方法中传播。最近的一些工作(Socher等,2012; Zeng等,2014; dos Santos等,2015)试图在没有手工特征的关系分类中使用深层神经网络。这些方法基于句级注释数据构建分类器,不能大规模应用 (Riedel等,2010; Hoffmann等,2011; Surdeanu等,2012)采用多实例学习来缓解错误的标签问题。这些传统方法的主要缺点是大多数特征都是从NLP工具(如POS标记)中明确导出的,并且NLP工具生成的错误将在这些方法中传播。最近的一些工作(Socher等,2012; Zeng等,2014; dos Santos等,2015)试图在没有手工特征的关系分类中使用深层神经网络。这些方法基于句级注释数据构建分类器,不能大规模应用 (Riedel等,2010; Hoffmann等,2011; Surdeanu等,2012)采用多实例学习来缓解错误的标签问题。这些传统方法的主要缺点是大多数特征都是从NLP工具(如POS标记)中明确导出的,并且NLP工具生成的错误将在这些方法中传播。最近的一些工作(Socher等,2012; Zeng等,2014; dos Santos等,2015)试图在没有手工特征的关系分类中使用深层神经网络。这些方法基于句级注释数据构建分类器,不能大规模应用 这些传统方法的主要缺点是大多数特征都是从NLP工具(如POS标记)中明确导出的,并且NLP工具生成的错误将在这些方法中传播。最近的一些工作(Socher等,2012; Zeng等,2014; dos Santos等,2015)试图在没有手工特征的关系分类中使用深层神经网络。这些方法基于句级注释数据构建分类器,不能大规模应用 这些传统方法的主要缺点是大多数特征都是从NLP工具(如POS标记)中明确导出的,并且NLP工具生成的错误将在这些方法中传播。最近的一些工作(Socher等,2012; Zeng等,2014; dos Santos等,2015)试图在没有手工特征的关系分类中使用深层神经网络。这些方法基于句级注释数据构建分类器,不能大规模应用

图1:基于句子级别注意的CNN体​​系结构,其中xi和xi表示实体对的原始语句及其相应的句子表示,αi是句子级关注给出的权重,s表示句子集。

 

由于缺乏人员注释的培训数据,KBs。因此,(Zeng等,2015)将多实例学习与神经网络模型结合起来,可以建立基于远程监督数据的关系提取器。尽管该方法在关系提取方面取得了显着的改进,但仍然远远不能令人满意。该方法假设至少有一个提到这两个实体的句子将表达它们之间的关系,并且仅仅为每个实体对在训练和预测中选择最可能的句子。很明显,这种方法将会丢失大量包含被忽略的句子的丰富信息。

在本文中,我们提出了一种基于注意的句子级卷积神经网络(CNN),用于远程监督关系提取。如图1所示,我们使用CNN来嵌入句子的语义。之后,为了利用所有的信息句子,我们将关系表示为句子嵌入的语义组成。为了解决错误的标签问题,我们在多个实例上构建句子级别的关注,这将预期会动态减少这些嘈杂实例的权重。最后,我们提取与句子级关注加权关系向量的关系。我们在关系抽取任务中评估我们的模型在真实世界的数据集上。实验结果表明,与最先进的方法相比,我们的模型在关系提取方面取得了显着和一致的改进。

•与现有的神经关系抽取模型相比,我们的模型可以充分利用每个实体对的所有信息句子。

•为了解决远程监督中的错误标签问题,我们提出有选择的注意力去强调那些嘈杂的情况。

•在实验中,我们表明选择性注意对于两种CNN模型在关系提取任务中是有利的。

2相关工作

关系抽取是NLP中最重要的任务之一。关系抽取方面已经做了很多努力,特别是在监督关系抽取方面。这些方法中的大多数需要大量的注释数据,这是耗时和劳动密集型的。为了解决这个问题,(Mintz et al。,2009)通过遥远的监督,将纯文本与Freebase对齐。然而,远程监督不可避免地伴随着错误的标签问题。为了缓解错误的标签问题,(Riedel等人,2010)将远程监督作为一个多实例单标签问题建模为关系提取模型,并且(Hoffmann等,2011; Surdeanu等,2012)采用多实例多标签在关系提取中学习。最初提出多实例学习是为了解决预测药物活性时模糊标记训练数据的问题(Dietterich et al。,1997)。多实例学习考虑每个实例的标签的可靠性。(Bunescu和Mooney,2007)将弱监督与多实例学习相结合,并将其扩展到关系提取。但是所有基于特征的方法强烈依赖于NLP工具生成的特征的质量,这些特征将遭受错误传播问题。最近,深度学习(Bengio,2009)已广泛用于各种领域,包括计算机视觉,语音识别等。它也被成功应用于不同的NLP任务,如词性标注(Collobert et al。,2011),情感分析(dos Santos和Gatti,2014),解析(Socher et al。,2013)和机器翻译(Sutskever等,2014)。由于最近深度学习的成功,许多研究人员已经研究了使用神经网络自动学习关系提取的特征的可能性。(Socher等,2012)在关系提取中使用递归神经网络。他们首先解析句子,然后将解析树中的每个节点表示为一个向量。此外,(Zeng等,2014; dos Santos等,2015)采用端到端卷积神经网络进行关系提取。此外,(Xie et al。,2016)试图将实体的文本信息纳入关系提取。尽管这些方法取得了巨大的成功,但他们仍然在句子层面提取关系,并且缺乏足够的训练数据。此外,传统方法的多实例学习策略难以在神经网络模型中轻易应用。因此,(Zeng等,2015)将至少一个多实例学习与神经网络模型相结合,以提取远程监督数据的关系。但是,他们假设每个实体对只有一个句子是活动的。因此,它将失去大量包含在那些被忽略的句子中的丰富信息。与他们的方法不同,我们提出对多个实例的句子级关注,它可以利用所有的信息句子。注意模型近来引起了研究人员的广泛兴趣。基于注意力的模型的选择性允许他们学习不同形式之间的对齐。它已应用于各个领域,如图像分类(Mnih等,2014),语音识别(Chorowski等,2014),图像标题生成(Xu等,2015)和机器翻译(Bahdanau等,2014)。就我们所知,这是在远程监督关系提取中采用基于注意的模型的第一个努力。3方法学给定一组语句{x1,x2,…,xn}和两个相应的实体,我们的模型测量每个关系r的概率。在本节中,我们将在两个主要部分介绍我们的模型:•句子编码器。给定句子x和两个目标实体,使用卷积中立网络(CNN)来构造句子的分布式表示x。•选择性关注实例。当学习所有句子的分布矢量表示时,

 

3.1句子编码器

图2:用于句子编码器的CNN / PCNN的体系结构。

如图2所示,我们通过CNN将句子x转换为其分布式表示形式x。首先,将句子中的单词转换为稠密的实值特征向量。接下来,使用卷积层,最大共享层和非线性变换层来构造句子的分布式表示,即,x。

 

3.1.1输入表示

CNN的输入是句子x的原始单词。我们首先将单词转化为低维向量。这里,通过字嵌入矩阵将每个输入字变换成矢量。另外,为了指定每个实体对的位置,我们还对句子中的所有单词使用位置嵌入。

文字嵌入。

单词嵌入旨在将单词转换为分布式表示,从而捕获单词的句法和语义含义。给定一个由m个单词组成的句子x = {w1,w2,…,wm},每个单词wi由一个实值向量表示。字表示由嵌入矩阵V∈Rda×| V |中的列向量编码,其中V是固定大小的词汇表。

位置嵌入。

在关系抽取任务中,靠近目标实体的单词通常是信息性的以确定实体之间的关系。类似于(Zeng等人,2014),我们使用由实体对指定的位置嵌入。它可以帮助美国有线电视新闻网跟踪每个单词与头部或尾部实体的距离。它被定义为从当前单词到头部或尾部实体的相对距离的组合。例如,在“比尔盖茨是微软的创始人”的句子中,从“创始人”这个词到头部实体比尔盖茨的相对距离是3,尾部实体微软是2.在图2所示的例子中,假定单词嵌入的维数da是3并且位置嵌入的维数db是1.最后,

哪里 

 

3.1.2卷积,最大汇集和非线性层

在关系提取中,主要的挑战是句子的长度是可变的,重要的信息可以出现在句子的任何区域。因此,我们应该利用所有局部特征并进行全局关系预测。在这里,我们使用卷积图层来合并所有这些特征。卷积层首先用句子长度为l的滑动窗口提取局部特征。在图2所示的例子中,我们假设滑动窗口l的长度为3.然后,它通过最大池操作合并所有局部特征,以获得输入句子的固定大小的向量。这里,卷积被定义为矢量序列w和卷积矩阵之间的运算

,其中dc是句子的嵌入大小。让我们定义向量

作为第i个窗口内w个字嵌入序列的连接:

由于窗口在边界附近滑动时可能处于句子边界之外,因此我们为该句子设置了特殊的填充标记。这意味着我们将所有超出范围的输入向量wi(i <1或i> m)视为零向量。因此,卷积层的第i个滤波器被计算为:

其中b是偏向量。并且向量x∈Rdc的第i个元素如下:

此外,作为CNN变体的PCNN(Zeng等人,2015)在关系提取中采用分段最大池化。每个卷积滤波器pi被头部和尾部实体分成三段(pi1,pi2,pi3)。最大池化过程分为三段进行,定义为:

并且[x] i被设置为[x] ij的级联。最后,我们在输出端应用非线性函数,如双曲正切。

 

3.2关于实例的选择性注意假设有一个集合S包含实体对(head,tail)的n个句子,即S = {x1,x2,…,xn}。为了利用所有句子的信息,我们的模型在预测关系r时代表具有实值向量s的集合S. 很明显,集合S的表示取决于所有句子的表示x1,x2,…,xn。每个句子表示xi包含关于实体对(头,尾)是否包含输入句子xi的关系r的信息。然后,集合向量s被计算为这些语句向量xi的加权和:

其中αi是每个语句向量xi的权重。在本文中,我们用两种方法定义αi:

平均值:我们假设集合X中的所有句子对集合的表示具有相同的贡献。这意味着集合S的嵌入是所有句子向量的平均值:s = X i 1 n xi,(6)这是我们选择性关注的天真基线。

选择性注意:但是,不可避免地会出现错误的标签问题。因此,如果我们平等地看待每个句子,那么错误的标签句子在训练和测试中会带来大量的噪音。因此,我们使用有选择性的注意去强调吵闹的句子。因此,αi被进一步定义为:αi= exp(ei)P k exp(ek),(7)其中ei被称为基于查询的函数,它对输入句子xi和预测关系r的匹配程度进行评分。我们选择双线性形式,在不同的选择中达到最佳性能:ei = xiAr,(8)其中A是加权对角矩阵,r是与关系r关联的查询向量,表示关系r的表示。最后,我们通过softmax层定义条件概率p(r | S,θ)如下:p(r | S,θ)= exp(或)Pnr k = 1 exp(ok),

(Zeng等,2015)遵循这样的假设:至少有一个实体对的提及将反映它们之间的关系,并且只使用每个集合中具有最高概率的句子进行训练。因此,他们采用的多实例学习方法可以视为一种特殊情况,当我们选择性关注时,概率最高的句子的权重设置为1,其他设置为0。

3.3优化和实施细节

这里我们介绍我们模型的学习和优化细节。我们用集合级别的交叉熵定义目标函数如下:其中s表示句子集合的数量,θ表示所有的我们模型的参数。为了解决优化问题,我们采用随机梯度下降(SGD)来最小化目标函数。为了学习,我们通过从训练集中随机选择一个小批量直到收敛来迭代。在实施中,我们在输出层采用了退出(Srivastava等,2014)以防止过度配合。将丢失层定义为具有概率为p的伯努利随机变量的向量h的元素乘法。然后等式(10)被重写为:o = M(s◦h)+ d。(12)在测试阶段,学习集合表示按p进行缩放,即,si = psi。最后使用缩放集合向量ri来预测关系。

 

4个实验

我们的实验旨在证明我们的具有句子级选择性注意力的神经模型可以缓解错误的标签问题,并充分利用信息句子进行远程监督关系提取。为此,我们首先介绍实验中使用的数据集和评估指标。接下来,我们使用交叉验证来确定我们模型的参数。然后我们评估我们的选择性注意力的影响,并显示其在不同组大小的数据上的表现。最后,我们将我们的方法的性能与几种最先进的基于特征的方法进行比较。

4.1数据集和评估指标

我们在广泛使用的数据集1上评估我们的模型,该数据集由(Riedel等,2010)开发并且也被(Hoffmann等,2011; Surdeanu等,2012)使用。该数据集是通过将Freebase关系与纽约时报语料库(NYT)对齐而生成的。使用斯坦福命名实体标记器(Finkel等人,2005)发现实体提及,并进一步与Freebase实体的名称相匹配。Freebase关系分为两部分,一部分用于培训,一部分用于测试。它将2005-2006年的语料库中的句子统一起来,并将其视为培训实例。测试实例是从2007年开始的对齐句子。有53种可能的关系,包括特殊关系NA,表示头部和尾部实体之间没有关系。训练数据包含522,611个句子,281,270个实体对和18252个关系事实。测试集包含172,448个句子,96,678个实体对和1,950个关系事实。类似于以前的工作(Mintz等人,2009),我们在持续评估中评估我们的模型。它通过比较从测试文章中发现的关系与Freebase中的关系来评估我们的模型。它假设测试系统在Freebase内部和外部的事实中具有相似的性能。因此,外部评估提供了近似的精确度量度,而无需耗费人力评估时间。我们在我们的实验中报告了总体曲线精度/回忆曲线和Precision @ N(P @ N)。类似于以前的工作(Mintz等人,2009),我们在持续评估中评估我们的模型。它通过比较从测试文章中发现的关系与Freebase中的关系来评估我们的模型。它假设测试系统在Freebase内部和外部的事实中具有相似的性能。因此,外部评估提供了近似的精确度量度,而无需耗费人力评估时间。我们在我们的实验中报告了总体曲线精度/回忆曲线和Precision @ N(P @ N)。类似于以前的工作(Mintz等人,2009),我们在持续评估中评估我们的模型。它通过比较从测试文章中发现的关系与Freebase中的关系来评估我们的模型。它假设测试系统在Freebase内部和外部的事实中具有相似的性能。因此,外部评估提供了近似的精确度量度,而无需耗费人力评估时间。我们在我们的实验中报告了总体曲线精度/回忆曲线和Precision @ N(P @ N)。它假设测试系统在Freebase内部和外部的事实中具有相似的性能。因此,外部评估提供了近似的精确度量度,而无需耗费人力评估时间。我们在我们的实验中报告了总体曲线精度/回忆曲线和Precision @ N(P @ N)。它假设测试系统在Freebase内部和外部的事实中具有相似的性能。因此,外部评估提供了近似的精确度量度,而无需耗费人力评估时间。我们在我们的实验中报告了总体曲线精度/回忆曲线和Precision @ N(P @ N)。

4.2实验设置

4.2.1字嵌入

在本文中,我们使用word2vec工具2来训练嵌入在NYT语料库上的单词。我们保留在语料库中出现超过100次的单词作为词汇。此外,我们连接一个实体的词,当它有多个词。

4.2.2参数设置

继以前的工作之后,我们使用训练集上的三重验证调整我们的模型。我们使用网格搜索来确定最优参数并选择{0.1,0.01,0.001,0.001}中SGD的学习率λ,滑动窗口大小l∈{1,2,3,…,8},句子嵌入大小n∈{50,60,…,300},批量大小B在{40,160,640,1280}之间。对于其他参数,由于它们对结果影响不大,所以我们遵循(Zeng等,2014)中使用的设置。对于训练,我们将所有训练数据的迭代次数设置为25.在表1中,我们显示了实验中使用的所有参数。表1:参数设置

4.3句子级选择的影响

注意为了证明句子级别选择性注意的效果,我们通过实证评估经验地比较了不同的方法。我们选择(Zeng等人,2014)中提出的CNN模型和(Zeng 2https://code.google.com/p/word2vec/等人,2015)中提出的PCNN模型,

 

作为我们的句子编码器并由我们自己实现,实现了与作者报告相同的结果。我们将两种不同类型的CNN与句子级关注(ATT),其朴素版本(AVE)的表现进行了比较,该版本表示每个句子集合作为集合内部句子的平均向量, (Zeng等人,2015)中使用的实例学习(ONE)。

图3:上图:CNN,CNN + ONE,CNN + AVE,CNN + ATT的聚集前/回归曲线。下图:PCNN,PCNN + ONE,PCNN + AVE,PCNN + ATT的聚集前/回归曲线从图3可以看出:(1)对于CNN和PCNN,ONE方法与CNN / PCNN。原因在于原始的远程监督训练数据包含大量的噪声,而噪声数据会损害关系抽取的性能。(2)对于CNN和PCNN,与CNN / PCNN相比,AVE方法对于关系提取是有用的。这表明考虑更多的句子有利于关系抽取,因为噪声可以通过信息的互补来减少。(3)对于CNN和PCNN,AVE方法与ONE方法相比具有相似的性能。这表明,尽管AVE方法引入更多句子的信息,但由于它将每个句子视为同等的词汇,它也会从错误的标注语句中引入噪声,这可能会损害关系抽取的性能。(4)对于CNN和PCNN,与包括AVE方法在内的其他方法相比,ATT方法在整个召回范围内实现了最高的精度。它表明所提出的选择性注意是有益的。它可以有效地滤除无意义的句子,缓解远程监督关系抽取中的错误标注问题。与包括AVE方法在内的其他方法相比,ATT方法在整个召回范围内实现了最高的精度。它表明所提出的选择性注意是有益的。它可以有效地滤除无意义的句子,缓解远程监督关系抽取中的错误标注问题。与包括AVE方法在内的其他方法相比,ATT方法在整个召回范围内实现了最高的精度。它表明所提出的选择性注意是有益的。它可以有效地滤除无意义的句子,缓解远程监督关系抽取中的错误标注问题。

 

4.4句子的效果

数量在原始测试数据集中,有74,857个实体对只对应一个句子,在所有实体对上近3/4。由于我们选择性关注的优势在于包含多个句子的实体对,我们比较了CNN / PCNN + ONE,CNN / PCNN + AVE和CNN / PCNN + ATT在具有多个句子的实体对上的表现。然后我们在三个测试设置中检查这三种方法:•一个:对于每个测试实体对,我们随机选择一个句子并使用这个句子预测关系。•二:对于每个测试实体对,我们随机选择两个句子并进行关系提取。•全部:我们使用每个实体对的所有句子进行关系提取。请注意,我们在训练中使用所有句子。我们将报告P @ 100,P @ 200,P @ 300以及它们在每个模型中的平均值进行评估。表2显示了三种测试设置下比较型号的P @ N。从表格中我们可以看到:

(1)对于CNN和PCNN,ATT方法在所有测试设置中均达到最佳性能。它表明了句子级选择性注意对多实例学习的有效性。

(2)对于CNN和PCNN,AVE方法都与One测试设置中的ATT方法相当。然而,当每个实体对的测试句子数量增加时,AVE方法的性能几乎没有改善。随着句数增加,它甚至在P @ 100,P @ 200中逐渐下降。原因在于,由于我们将每个句子同等地看待,句子中包含的不表达任何关系的噪音对于关系提取的表现会产生负面影响。

(3)在ONE测试环境中CNN + AVE和CNN + ATT与CNN + ONE相比有5%至8%的改善。由于每个实体对在这个测试设置中只有一个句子,这些方法的唯一区别是来自训练。因此,它表明利用所有的句子会带来更多的信息,尽管它也可能带来一些额外的噪音。

(4)对于CNN和PCNN,ATT方法在两个和所有测试设置中优于其他两个基线超过5%和9%。它表明,通过考虑更多有用的信息,CNN + ATT排名较高的关系事实更可靠,有利于关系提取。

 

4.5与基于特征的方法的比较

 

图4:提出的模型和传统方法的性能比较为了评估所提出的方法,我们选择了以下三种基于特征的方法进行比较:Mintz(Mintz et al。,2009)是一种传统的远程监督模型。MultiR(Hoffmann et al。,2011)提出了一个处理重叠关系的多实例学习的概率图模型。MIML(Surdeanu等,2012)联合建模多重实例和多重关系。我们用作者发布的源代码来实现它们。表2:用于具有不同句子数的实体对中关系提取的P @ N

 

 

 

图4显示了每种方法的精度/回忆曲线。我们可以观察到:

(1)在整个召回范围内,CNN / PCNN + ATT显着优于所有基于特征的方法。当召回大于0.1时,基于特征的方法的性能迅速退出。相比之下,我们的模型具有合理的精度,直到召回大约达到0.3。这表明人工设计的特征不能简洁地表达句子的语义含义,而NLP工具带来的必然错误会损害关系抽取的性能。相反,自动学习每个句子表示的CNN / PCNN + ATT可以很好地表达每个句子。

(2)在整个召回范围内,PCNN + ATT与CNN + ATT相比表现要好得多。这意味着选择性注意考虑除了每个句子内部信息之外的所有句子的全局信息。因此,如果我们有更好的句子编码器,我们模型的性能可以进一步提高。

 

4.6案例研究

表3显示了来自测试数据的两个选择性关注的例子。对于每个关系,我们分别显示最高和最低关注权重的相应句子。我们用粗体格式突出显示实体对。从表中我们发现:前者的例子与雇主关系相关。关注度较低的句子并不表达两个实体之间的关系,而最高的句子表明梅尔卡马津是天狼星卫星广播公司的首席执行官。后面的例子与出生的关系地点有关。关注度低的句子表达了恩斯特·哈弗里格在哪里死亡,而高级表达他出生的地方。表3:纽约时报语料库中选择性注意的一些例子

5结论和未来的作品

在本文中,我们开发了句级选择性注意的CNN。我们的模型可以充分利用所有的信息句子,缓解远程监督关系提取中的错误标注问题。在实验中,我们评估我们的关系抽取任务模型。实验结果表明,我们的模型显着而一贯地胜过了最先进的基于特征的方法和神经网络方法。未来,我们将探索以下方向:

• 我们的模型通过实例级选择性关注将多实例学习与神经网络结合在一起。它不仅可以用于远程监督关系提取,还可以用于其他多实例学习任务。我们将在文本分类等其他领域探索我们的模型。

• CNN是神经关系提取的有效神经网络之一。研究人员还为关系提取提出了许多其他神经网络模型。将来,我们将把实例级选择性关注技术与这些关系提取模型结合起来。

致谢

这项工作得到了973计划(编号2014CB340501),国家自然科学基金(NSFC编号61572273,61303075)和清华大学计划科学研究计划(20151080406)的支持。

参考

Soren Auer,基督教Bizer,乔治Kobilarov,延斯莱曼,理查Cyganiak和Zachary艾夫斯。2007年。Dbpedia:开放数据网络的核心。斯普林格。

Dzmitry Bahdanau,Kyunghyun Cho和Yoshua Bengio。通过联合学习来对齐和翻译神经机器翻译。arXiv预印本arXiv:1409.0473。

Yoshua Bengio。学习ai的深层架构。机器学习中的基础和趋势R,2(1):1-127。

库尔特博拉克,科林埃文斯,普拉文帕里托什,蒂姆斯特奇和杰米泰勒。2008年。

Freebase:一个用于构建人类知识的协作创建的图形数据库。在KDD会议录,第1247-1250页。

Razvan Bunescu和Raymond Mooney。学会使用最少的监督从网络中提取关系。在ACL的论文集,第45卷,第576页。

Jan Chorowski,Dzmitry Bahdanau,Kyunghyun Cho和Yoshua Bengio。2014.使用基于注意力的经常性nn的端对端连续语音识别:第一结果。arXiv预印本arXiv:1412.1602。

Ronan Collobert,Jason Weston,Leon Bottou,Michael’Karlen,Koray Kavukcuoglu和Pavel Kuksa。2011。

自然语言处理(几乎)从头开始。JMLR,12:2493-2537。Thomas G Dietterich,Richard H Lathrop和Tomas’Lozano-Perez。1997年。

用轴平行矩形解决多重实例的问题。人工智能,89(1):31-71。

CıceroNogueira dos Santos和MaıraGatti。深卷积神经网络用于短文本的情感分析。在COLING的论文集中。

Cucece Nogueira dos Santos,Bing Bing和Bowen Zhou。利用卷积神经网络进行排序来分类关系。在Proceedings of ACL,第1卷,第626-634页。

珍妮罗斯芬克尔,特隆德Grenager和克里斯托弗曼宁。2005.通过gibbs抽样将非本地信息纳入信息提取系统。在ACL的会议记录中,第363-370页。

计算语言学协会。Raphael Hoffmann,张乐乐,肖玲,Luke Zettlemoyer和Daniel S Weld。基于知识的重叠关系信息提取监督薄弱。在ACLHLT会议记录中,第541-550页。

麦克明茨,史蒂文比尔斯,里昂斯诺和丹朱拉夫斯基。2009年关于无关标签数据的关系提取的远程监督。在ACLIJCNLP会议记录中,第1003-1011页。

Volodymyr Mnih,Nicolas Heess,Alex Graves等人。视觉关注的复发模型。在NIPS会刊上,第2204-2212页。

塞巴斯蒂安Riedel,利民姚和安德鲁麦卡勒姆。建模关系及其提及没有标签的文字。在ECML-PKDD会议记录中,第148-163页。

理查德索瑟尔,布罗迪胡瓦尔,克里斯托弗D曼宁和安德鲁黄Ng。2012.通过递归矩阵向量空间的语义组合性。在EMNLP-CoNLL会议记录中,第1201-1211页。

理查德索瑟,约翰鲍尔,克里斯托弗D曼宁和安德鲁吴。解析与组成矢量语法。在ACL的会议记录。

Citeseer。Nitish Srivastava,Geoffrey Hinton,Alex Krizhevsky,Ilya Sutskever和Ruslan Salakhutdinov。2014年

辍学:一种防止神经网络过度拟合的简单方法。JMLR,15(1):1929-1958。Fabian M Suchanek,Gjergji Kasneci和Gerhard Weikum。2007年。

Yago:语义知识的核心。在WWW论文集,第697-706页。ACM。Mihai Surdeanu,Julie Tibshirani,Ramesh Nallapati和Christopher D Manning。2012。

用于关系抽取的多实例多标签学习。在Proceedings of EMNLP,第455-465页。Ilya Sutskever,Oriol Vinyals和Quoc V Le。2014年

用神经网络进行序列学习的顺序。在NIPS会议记录中,第3104-3112页。谢若兵,刘志远,贾佳,栾波,孙茂松。2016年

具有实体描述的知识图的表示学习。Kelvin Xu,Jimmy Ba,Ryan Kiros,Aaron Courville,Ruslan Salakhutdinov,Richard Zemel和Yoshua Bengio。2015年。

显示,参加并讲述:神经图像标题生成与视觉注意力。ICML论文集。曾道健,刘康,赖思维,周广有,赵君。2014年

卷积深度神经网络的关系分类。在COLING会议记录中,第2335-2344页。

曾道健,刘康,陈玉波,赵君。通过分段卷积神经网络进行关系提取的远程监督。在EMNLP的论文集中。

Leave a Reply

Your email address will not be published. Required fields are marked *