利用卷积循环网络模型对生物医学文本中的关系分类学习局部和全局情境

利用卷积循环网络模型对生物医学文本中的关系分类学习局部和全局情境

Desh Raj和Sunil Kumar Sahu和Ashish Anand计算机科学与工程系印度技术学院Guwahati Guwahati,印度

抽象

 

生物医学领域中关系分类的任务是复杂的,因为存在从非生物来源获得的样本,如研究文献,出院总结或电子健康记录。这也是使用手动特征工程的分类器的一个限制。在本文中,我们提出了一个卷积递归神经网络(CRNN)架构,它将RNN和CNN按顺序组合起来解决这个问题。我们的方法背后的基本原理是,CNN可以有效地识别周围的粗粒度局部特征,而RNN更适合长期依赖。我们将我们的CRNN模型与两个生物医学数据集上的几条基线进行比较,即i2b2- 2010临床关系提取挑战数据集和SemEval-2013 DDI提取数据集。我们还评估了一种反思池化技术,并与传统的最大池化方法进行比较来报告其性能。我们的结果表明,所提出的模型实现了两个数据集上最先进的性能

1介绍

关系分类是识别一段文本中给定的一对实体之间存在的语义关系的任务。由于大多数搜索查询都是某种形式的二元表达式(Agichtein et al。,2005),现代的问答系统在很大程度上依赖于关系分类作为预处理步骤(Fleischman

等人,2003; Lee等人,2007)。准确的关系分类也有助于话语处理和精确的句子解释。因此,这一任务在过去十年中受到了极大的关注(Mintz等,2009; Surdeanu等,2012)。

在生物医学领域,特别是从数据中提取这些元组对于识别蛋白质和药物的相互作用,疾病的症状和病因等是至关重要的。此外,由于临床数据倾向于从多种(多种)信息来源获得,如期刊文章,出院总结和电子患者记录,所以关系分类成为一项更具挑战性的任务。

为了识别实体之间的关系,可以利用各种各样的词汇,句法或语用线索,这会导致用于分类目的的特征类型具有挑战性。由于这种变化,已经提出了许多方法,其中一些方法依赖于从POS标记,形态分析,依赖性分析和世界知识中提取的特征(Kambhatla,2004; San- tos et al。 ,2015; Suchanek等,2006; Mooney和Bunescu,2005; Bunescu和Mooney,2005)。深度学习架构最近引起了很大兴趣,因为它们能够在不需要显式特征工程的情况下快速提取相关特征。因此,许多卷积和递归神经网络模型(Zeng等,2014; Xu等,

在本文中,我们提出了一个使用递归神经网络(RNN)和卷积神经网络(CNN)分别学习全局和局部背景的模型。我们将其称为CRNN,遵循(Huynh et al。,2016)中使用的命名惯例。我们认为,为了使任何分类任务有效,

1的代码可以

https://github.com/desh2608/ crnn-relation-classification。

发现于:

311

Proceedings of the 21st Conference on Computational Natural Language Learning(CoNLL 2017),第311-321页,加拿大温哥华,2017年8月3日至8月4日。⃝c2017计算语言学协会

回归层必须看到句子的完整表示,即句子嵌入中必须适当地表示短期和长期依赖关系。这一论点构成了我们方法的基础。在深度学习框架中,由于顶级分类器可用的完整信息是通过操纵句子嵌入本身获得的,因此关系分类的任务本质上模拟了其他流行的目标,如文本分类和情感分析句子中包含实体类型的表示。尽管我们提出的模型依次使用了RNN和CNN,但它只有两层深,正如前面提出的非常深的架构(Conneau等,2016)所反映的那样。

除了地方和全球的情况外,我们还尝试关注关系分类。虽然作为一个概念的注意力是相对众所周知的,尤其是在计算神经科学(Itti等,1998; Desimone和Duncan,1995)中,它最近才开始流行,其应用于图像字幕和机器翻译( Xu等,2015a; Vinyals等,2015; Bah-danau等,2014)。关注分类任务也取得了一些成功(Wang et al。,2016a; Zhou et al。,2016a)。在我们的实验中,我们使用基于注意力的汇总策略,并将结果与​​使用常规汇集方法获得的结果进行比较。我们的模型变体因此被命名为CRNN-Max和CRNN-Att,这取决于所使用的汇集方案。

我们的模型的独特之处在于它不依赖任何关系分类的语言特征。在诸如生物医学等领域,文本可能并不总是以合成/语法正确的形式编写。此外,缺乏必要的培训数据可能无法提供诸如通用领域中的良好特征提取器。因此,我们只探索没有任何额外功能的模型。当然,添加其他功能(如词性标注器或依赖关系解析器)(如果它们很容易获得)可能会进一步提高性能。我们在本文中的主要贡献如下:

•我们提出并验证了包含RNN和CNN的双层架构,

生物医学文本中的关系分类。我们的模型性能与两个基准数据集的最新技术水平相当,即i2b2-2010临床关系提取挑战和SemEval-2013 DDI提取数据集,无需任何手工制作的功能。

我们分析和讨论为什么这样的模型有效捕捉句子中的短期和长期依赖性,并且证明为什么这种表示有助于分类。

我们评估基于关注的联合技术,并将其性能与常规联合策略进行比较。

我们提供证据进一步支持使用RNN来获得句子中的区域调整。

相关的研究

312

2

CNN已被有效地应用于NLP任务中,如文本分类(Kim,2014),感官分析(Dos Santos和Gatti,2014),关系分类(Zeng等,2014; Nguyen和Grishman,2015b),等等。同样,RNN模型也被用于类似的任务(Johnson和Zhang,2016)。这些模型的性能得到改善是由于几个原因:

  1. 预训练词向量被用作这些模型中的大多数的输入。这些嵌入在全局上下文中捕获单词之间的语义相似性比单热表示更好。
  2. CNN能够学习局部特征,如短语或反复n-gram,类似于它们提供平移,旋转和尺度不变性的视觉方式。
  3. RNN利用句子中的词序,并且能够学习长期的依赖关系。

这些观察充分激发了一个模型,该模型使用CNN和RNN的组合来捕捉短期和长期的依赖关系,从而形成稳健的陈述。早些时候,研究人员提出了使用CNN计算“区域嵌入”的RCNN模型,并将这些嵌入

(a)CRNN-Max(b)CRNN-Att

图1:建议模型的架构。
为了表示目的,使用了以下配置:d = nO

= 3,f1 = f2 = 2,nc = 4,| C | = 3。

然后输入一个使用序列信息生成句子表示的RNN层(Huynh et al。,2016; Wang et al。,2016b; Chen et al。,2017; Nguyen and Grishman,2015a)。这些模型与已被用于视觉识别的一些成功模型相似(Donahue等,2015)。然而,这种模式仍然有限,因为如果序列很长,RNN可能“忘记”过去发生的特征。

我们通过在每个时间步(或词)获得RNN的输出来解决这个问题,然后汇集小短语。这种使用“re-current + pooling”模块进行区域嵌入的方法受到启发(约翰逊和张,2016),他表明,对于文本分类,文本区域的嵌入可以传达比单个更高级别的概念孤立的单词比单词嵌入更有用。我们还试验注意力集中来整合句子中不连续区域的加权特征。

3建议的方法

给定一个带有标记实体e1和e2的句子S,它们分别属于实体类型t1和t2,以及一组关系类C = {c1,…,cm},我们制定了将语义关系标识为监督的任务分类问题,即我们学习函数f:(S,E,T)→C,其中S是所有句子的集合,E是实体对的集合,T表示实体类型的集合。我们的培训目标是学习句子和实体类型的联合表示,以便softmax回归层预测正确的标签。为了学习这种嵌入,我们提出了一个双层神经网络结构

依次出现“循环+池”层和“卷积+池”层。本结构在图1中进行了图解说明,本节的其余部分详细说明了每个层。

3.1嵌入层

我们从S中使用的唯一功能就是这些单词本身。这些词的向量表示使用GloVe方法获得(Pennington et al。,2014)。

预先训练的单词向量用于单词嵌入,并且不在单词列表中的单词被随机初始化。所有单词向量在训练期间都会更新。

3.2复发层

RNN是一类利用顺序信息并通过其中间层维护历史的人工神经网络(Graves et al。,2009)。我们使用基于长期短期记忆(LSTM)的模型(Hochreiter和Schmidhuber,1997),它使用记忆和门控机制来计算隐藏状态。特别是我们使用与(Graves,2013; Huang等,2015)中使用的类似的双向LSTM模型(Bi-LSTM)。

令h(t)和h(t)为从lr获得的输出

时间t时LSTM的前后方向。然后组合输出给出为

z(t)= h(t):h(t),z(t)∈RnO。(1)lr

其中:表示连接操作。我们获得每个单词的输出并将其传递给第一个共享层。

313

3.3第一个汇集层

复发层生成包含来自过去和未来情境信息的字级嵌入。有时候,单词本身对于句子表示可能并不重要,在这种情况下,使用池化技术从短语中提取最重要的特征可能会更好。如果f1表示用于池化的过滤器的长度,并且(z1,…,zm)是从前一层获得的向量的序列,则

p =(p1,p2,…,pm-f1 + 1),(2)其中pi∈RnO给出为

pi = max [zi + j],(3)1≤j≤f1

即所有矢量zi + 1到zi + f1中的最大值。3.4卷积层

我们在p上应用卷积以从句子的每个部分获得局部特征(Collobert和Weston,2008)。考虑卷积滤波器通过权向量wc∈RnO* f2进行参数化,其中f2是滤波器的长度。那么卷积层的输出序列就是

hi = f(w·pi:i + f2-1 + b),(4)ccc

其中i = 1,2,…,m-f1-f2 + 2,·是点

产品,f是整流器线性单元(ReLU)功能 –

灰(F(X)= MAX {0,X}),andbc∈Risthebias

术语。参数wc和bc是共享的

所有卷积i = 1,2,…,m – f1 – f2 + 2。

在应用nc个这样的滤波器时,我们获得输出矩阵Hc∈Rnc×(m-f1-f2 + 2)。

3.5第二个池化层

卷积层的输出具有可变长度(m – f1 – f2 + 2),因为它取决于输入句子的长度m。为了获得整个句子的固定长度的全局特征,我们在整个序列上应用池。为此,我们试验了两种不同的集合方案,我们的模型有两种不同的方案,即CRNN-Max和CRNN-Att。

3.5.1随着时间的推移最大化池

随着时间的推移,最大限度的汇集(Collobert和Weston,2008)在整个句子中取得最大值,假定所有相关信息都在该位置积累。由于对该层的输入是局部卷积矢量,

这个策略基本上从几个短语中提取出最重要的特征。然后输出为

314

我对所有人的事情都很满意。

zpool = max [hic],1≤i≤(m-f1 -f2 + 2)

(5)其中z∈Rnc是尺寸方向最大 –

3.5.2注意力集中

当重要的线索分布在句子的不同子句中时,最大池方案可能会失败。我们通过使用基于注意力的池化方案来解决这个问题,该方案通过获取矢量的加权线性组合来获得维度上最优的特征。这些权重是使用注意机制进行训练的,因此更重要的特征被称为更高的权重(Bahdanau等,2014; Yang等,2016; Zhou等,2016b)。注意机制产生一个大小为m-f1 -f2 + 2的向量α,其值是从卷积层特征向量得到的每个短语的权值。

Hatt = tanh(W1αHc)

α= Softmax(W2αTHatt)


zatt =αHcT(6)

这里,Hc是CNN输出向量的矩阵,W1α,W2α∈Rnc×nc是参数矩阵,α∈Rm-f1-f2 + 2是关注权重,zatt∈Rnc是池化层的输出。注意权重是输入句子的函数,因此α对于每个句子都是不同的。

3.6完全连接和softmax

为了在提取的全局特征上获得分类器,我们使用由| C |组成的完全连接层 节点,其中C是所有可能关联类的集合,后面是一个softmax层,用于在所有可能的标签集上生成概率分布。最终的输出结果如下

p(ci | x)= Softmax(Wioz + boi),(7)

其中W o和bo是权重和偏倚参数,z可以是zpool或zatt,这取决于第二个汇聚层方案。预测的输出y’被获得为

y’= arg max p(ci | x)。(8)ci∈C

培养

测试

之前

之前

机制效应建议

Int

没有

1318 1685 826 189 23756

1264 1620 820 140 12651

302 360 221 96 4737

302 360 221 96 3046

4018

3844

979

979

火车大小

测试大小

TrCP TrAP TrWP TrIP TrNAP TeRP TeCP PIP无

 436
2131
 109
 165
 140
2457
 409
1776
44588
 108
 532
  26
  41
  34
 614
 101
 443
11146

52211

13045

表1:i2b2数据集中每种关系类型的训练和测试实例的数量。

4实验4.1数据集

我们使用了2个数据集进行实验,即i2b2-2010临床关系提取挑战数据集(Sun et al。,2013)和SemEval-2013 DDI提取数据集(Segura Bedmar et al。,2013)。

i2b2-2010关系提取

该数据集包含来自三个不同医院收集的出院总结的句子,并且有8种关系类型:治疗导致的医疗问题(TrCP),治疗给药的医疗问题(TrAP),治疗恶化的医疗问题(TrWP),治疗改善或治愈医疗问题(TrIP),由于医疗问题(TrNAP)而未给予治疗,测试显示医疗问题(TeRP),为调查医疗问题而进行的测试(TeCP)以及医疗问题表明医疗问题(PIP)。如果一个句子有两个以上的实体,我们为每一对创建一个实例。由于394份原始培训文件中只有170份和477份测试文件中的256份可用于下载,因此我们将所有培训和测试实例组合在一起,然后将其分成80:20的比例进行培训和测试分别设置。

SemEval 2013 DDI提取

该数据集包含来自两个来源的注释句子,Medline摘要(生物医学研究文章)和DrugBank数据库(医务人员撰写的文档)。该数据集有以下四种相互作用的注释:建议(与两种药物同时使用有关的意见或咨询),效应(DDI的影响与药效作用或相互作用机制),

表2:DDI提取数据集中每种关系类型的训练和测试实例的数量。

机制(药代动力学机制)和int(没有任何其他信息的药物相互作用)。数据集按句子提供训练和测试实例。与i2b2关系提取数据集类似,如果一个句子有两个以上的药物名称,则句子中所有可能的药物对都被单独注释,这样一个单独的句子有多个药物名称会导致单独的药物配对实例,相应的相互作用。表2显示了数据集的统计数据(以及4.1.1节中讨论的负实例过滤)。

4.1.1预处理

作为预处理步骤,我们将i2b2数据集中的实体替换为相应的实体类型。例如,“他被给予Lasix以防止他发生充血性心力衰竭”被转换为:“他被给予治疗A以防止他出现问题B”。同样,对于DDI提取数据集,两种靶向药物名称分别被替换为药物A和药物B,同一句子中的其他药物名称被替换为药物N。此外,所有数字都被替换为关键字NUM。与之前的研究类似(Sahu和Anand,2017; Liu等,2016; Rastegar-Mojarad等,2013),从训练集中筛选出负面情况。

4.2实施细节

使用在PubMed开源文章(Muneeb等,2015)的语料库上训练的GloVe方法(Pennington等,2014)获得在嵌入层中预训练的100维单词向量,并且在训练期间进行更新处理。我们同时使用正则化和辍学(Srivastava等,2014)正规化技术。压差仅适用于第二个汇聚层的输出,并且它可以通过随机丢弃少数节点来防止隐藏单元的共同适应。在调整验证集上的超参数(20%的训练集)之后,val-

315

f1 \ f2

2

3

4

6

1

59.97

58.96

59.30

59.18

60.03

2

59.84

56.69

60.89

62.45

61.03

3

60.46

61.77

58.85

57.34

59.81

对于正则化参数和对于i2b2(DDI提取)数据集的丢失,分别发现0.01(0.001)和0.7(0.5)的最佳值。我们使用Adam技术(Kingma and Ba,2014)来优化我们的损失函数,学习率为0.01。对于所有的模型,nO和nC都在验证集上进行了调整,发现200和100的值是最优的。基准方法的超参数取自各自论文中提出的值。整个神经网络参数和特征向量在训练时更新。我们已经使用Tensorflow软件包以Python语言实现了预期模型(Abadi et al。,2016)。我们针对f1和f2试验不同的滤波器大小,并在5.1节中讨论结果。

4.3基线方法

我们将我们的模型与先前用于关系分类以满足结果的5种方法进行比较。这些基线被选为以下三个目的之一。

基于特征的方法

我们选择了一种基于特征的SVM分类器(Rink et al。,2011),该分类器使用了几个手工特征,比如实体中的单词距离,POS标签,块标签等,来比较我们的模型是否能够超越分类器具有严格的特征工程。值得注意的是,我们使用我们自己实现的SVM分类器(使用scikit-learn(Pedregosa等人,2011)文献),使用(Sahu et al。,2016)中描述的特征。

单层神经网络

我们选择了一个最大化多重滤波CNN(Sahu et al。,2016)和一个LSTM模型,最大和周密的汇集(Sahu and Anand,2017)。在5.5节中,我们将我们的模型与这些单层模型进行比较,以证明分别使用RNN和CNN的组合来学习长期和短期相关性。为了观察独立于特征集的网络模型的影响,我们仅使用单词嵌入作为这些模型中的每一个的特征。此外,我们使用了相应论文中提到的相同超参数。

递归卷积神经网络

这个模型受到(Wang et al。,2016b)的启发,使用卷积来获得区域嵌入

表3:针对i2b2数据集的CRNN-Att模型中变化的滤波器大小f1和f2上的平均F1得分。

层。然后将它们馈入一个递归层,并在遍历整个序列之后获得单个输出。我们将我们的模型与这个RCNN模型进行比较,以观察在每个词上获得输出的效果,而不是在序列的末尾。

316

5 5.1

结果和讨论过滤器尺寸f1和f2的影响

我们使用我们的CRNN-Att模型在i2b2数据集上试验滤波器大小f1和f2的各种组合。由于f1表示第一个池化过滤器的大小,因此它基本上代表了馈送到卷积层的区域嵌套中存在的信息量。如果f1太小(f1 = 1,即没有池),似乎不重要的单词可能会通过嵌套,如果它很大(f1≥3),可能会混合单个嵌入,使得几个单词主宰大部分地区。对于卷积层中的滤波器大小f2,发现中值范围(4至6)可以很好地工作。这可能是因为这个层学习识别通常是这个长度的短语。这些观察对于两个数据集都是常见的。

5.2字嵌入的初始化和调整

我们模型中唯一使用的特征是句子中每个单词的单词向量。我们对i2b2数据进行了几次实验,以观察字向量初始化和更新对模型性能的影响。结果总结在表5中。

有趣的是,表现最好的模型使用随机初始化的词嵌入,在训练期间不更新。这与之前的研究(Sahu和Anand,2017; Collobert和Weston,2008)形成了鲜明对比,其中预嵌入的嵌入

模型

i2b2-2010

DDI提取

精确

召回

F1得分

精确

召回

F1得分

支持向量机(Rink et al。,2011)

67.44

57.85

59.31

65.39

40.13

49.74

CNN-Max(Sahu等人,2016)

55.73

50.08

49.42

68.15

46.58

54.05

LSTM-Max(Sahu和Anand,2017)

57.54

55.40

55.60

73.98

59.96

65.41

LSTM-Att(Sahu和Anand,2017)

65.23

56.77

60.04

53.43

64.86

58.27

RCNN(Wang等,2016b)

50.07

45.34

46.47

CRNN – 马克斯

67.91

61.98

64.38

72.91

60.88

65.89

CRNN-ATT

64.62

62.14

62.45

69.03

59.04

63.24

表4:我们提出的模型CRNN-Max和CRNN-Att与基线在i2b2-2010和DDI提取数据集上的比较。

初始化

更新

CRNN – 马克斯

CRNN-ATT

随机

可训练

62.78

61.19

随机

非可训练

64.38

61.51

考研

可训练

60.60

62.45

考研

非可训练

58.49

59.35

表5:使用i2b2-2010数据集,根据F1得分,在我们提出的模型中初始化和更新词汇嵌入的效果。

表6:i2b2数据集上各种模型的分类表现(以F1分数表示)。

通常将模型性能提高3-4%。然而,这个结果与(Johnson和Zhang,2015)中的观察结果相一致,并且支持单热LSTM的观点。讨论为什么会得到这样的结果可能会让人感到欣慰。

首先,我们注意到在LSTM的公式中,例如ut = tanh(W(u)xt + U(u)ht-1 + b(u)),如果xt是单词的单热表示,词W(u)xt用作词嵌入。因此,一个单热LSTM在其计算中固有地包含一个单词em-bedding。此外,单词矢量查找是线性操作,因此它可以通过将LSTM权重乘以单词嵌入矩阵而合并到LSTM层本身中。这意味着使用预训练矢量的LSTM的表现力与使用随机初始化词模板的表达力相同。早期的研究也表明,预层次嵌入并不会随着层数的增加而提高网络的性能。

Johnson等人 (2015年)甚至认为,em-bedding层可以用一个热点来替代

代表性而不影响性能。经验地说,即使在自适应学习率的帮助下,包含嵌入层也会使得从零开始的培训变得更加困难。关于CNN也有类似的观察结果(Kim,2014; Johnson和Zhang,2014)。

5.3与基准方法的比较

表4显示了与基线方法相比,使用我们提出的模型在i2b2和DDI提取数据集上获得的结果。即使不需要明确的特征工程,我们的模型也能胜过基线。值得注意的是,我们的CRNN-Max表现比CRNN-Att更好,而且早些时候也观察到类似的结果(Sahu和Anand,2017)。

分类性能分析

我们将我们对i2b2数据集模型的分类性能与一些基线进行了比较,这在表6中进行了总结。显然,随着训练规模和混淆矩阵(此处未显示),性能会提高,我们发现较低频率类别的样本被错误分类为包含相同实体类型的较高频率类别。例如,属于TrWP(治疗恶化的医疗问题)的样本通常被归类为TrAP(治疗中的医疗问题)。

5.4注意力集中的影响

我们的CRNN-Att模型在最后的合并层中使用基于注意力的技术,即它根据它们在句子嵌入中的相对重要性获得不同短语的加权线性组合。为了证实这一点,我们通过如图2所示的热图,对具有(f1,f2)=(1,3)的CRNN-Att模型中的5个样本在i2b2数据集中的注意力权重进行了可视化。到短语而不是单词,以获得我们所说的每个单词的注意力

尺寸

SVM

CNN

LSTM – 马克斯

RCNN

CRNN – 马克斯

CRNN-ATT

TRCP

108

34.90

34.01

35.48

18.30

43.18

47.66

陷阱

532

63.48

46.69

58.74

45.15

67.39

63.94

TrWP

26

7.41

10.26

0.00

0.00

16.67

9.52

41

9.09

21.74

0.00

0.00

25.71

34.48

TrNAP

34

5.13

15.87

0.00

0.00

36.36

18.60

TERP

614

80.44

63.52

73.50

67.01

80.32

76.31

TECP

101

30.30

27.63

25.20

11.48

39.46

39.76

PIP

443

49.44

49.30

51.54

45.05

58.04

55.53

317

图2:从i2b2-2010数据集中选择的5个句子的注意热图。较暗的背景对应于较大的注意力。

该词汇出现的所有词组的权数。该图表明,细心的分组方案能够根据分类标签选择重要的词组。很显然,该模型赋予语义相关词如“显示”,“问题”和“显示”更高的权重。

5.5长期和短期相关性

我们推测,我们提出的CRNN模型比单层CNN或RNN执行得更好,因为它们可以有效地捕获本地和全球范围内的情况。为了证实我们的假设,我们确定了属于我们的模型表现良好的类别的几组句子的平均句子长度和实体间隔,以及对于CNN模型或LSTM-Max模型表现相对较好的类别i2b2-2010数据集。这些结果在图3所示的框图中可视化。

从图中我们注意到,我们的模型CRNN-Max和CRNN-Att在分类具有较大实体间隔的长句子方面表现明显优于CNN模型,而CNN模型在较短的句子中运用得较好,而实体较少分离。通过观察图中的低位到高位四位数值的中位数和范围可以明显看出。这证实了我们的猜想,即我们的模型比单纯的CNN模型更好地学习长期依赖关系。同样,我们提出的模型在更大范围的句子长度上表现比LSTM更好,这可能是由于更有效的本地情景建模。

(一个)

(b)中

图3:分析(a)句子长度和(b)句子组合的实体分离的箱形图。形式{X} \ {Y}的表示表示由模型X正确分类的句子集合,但是由模型Y错误地分类。顶部的数字是每个框的中值。

5.6语言特征的影响

前面描述的SVM基线模型包括对句子中的每个词获得的以下特征:词嵌入,词类(POS)标签,块标签,距第一实体的距离,距第二实体的距离和实体类型。其中,实体类型特征已在我们的CRNN模型中用于预处理步骤

318

尺寸

SVM

CRNN – 马克斯

#1

#2

TRCP

108

34.90

36.91

11

三十

陷阱

532

63.48

68.85

83

93

TrWP

26

7.41

0.00

1

0

41

9.09

0.00

2

0

TrNAP

34

5.13

0.00

1

0

TERP

614

80.44

81.29

69

83

TECP

101

30.30

36.90

14

PIP

443

49.44

60.66

45

110

1899年

59.31

63.78

217

330

表7:使用语言特征的SVM和CRNN-Max之间的分类性能比较。#1表示由SVM正确分类的类别的句子数,但是由CRNN-Max错误地表示; #2反之亦然。

通过用它们相应的类型替换实体。此外,我们还通过初始化和更新词嵌入来描述实验。

在本节中,我们在我们提出的模型中添加其他四个语言特征,以观察其与SVM模型相比的性能。表7总结了这种比较。

尽管模型的F1得分相对接近,但精度(P)和召回率(R)显着不同:P分别为67.44和61.00,而R分别为57.85和67.54。因此,我们的CRNN-Max模型更敏感,而SVM分类器具有更高的特异性。此外,显然SVM仅在实例数量不成比例的类别上优于我们的模型。我们可能会争辩说,由于存在更多的功能和更少的记录,我们的模型只能在较大的类上进行过度训练。这个问题可以通过更好的注册来避免,以达到更高的性能。

六,结论

在这项工作中,我们提出并评估了一个双层体系结构,该体系结构依次包含循环层和卷积层,以便学习句子中的全局和局部情景,然后将其用于关系分类。就我们所知,这是第一次将CNN和RNN顺序结合起来,用于生物医学领域的关系分类任务。在i2b2-2010数据集和SemEval 2013 DDI提取数据集上对该模型的两种变体CRNN-Max和CRNN-Att进行了评估,发现最大池化的效果优于细致的池化。尽管我们的方法只采用了单词嵌入,

放置功能,它能够方便地胜过使用广泛特征工程的最新技术。最后,我们的结果表明,“循环+共享”层有效地生成区域嵌入,而不需要预先训练的单词向量。看看单向热词向量是否比随机初始化的嵌入更好。我们也可以从探索基于树或非连续卷积的工作以及用于学习长期和短期关系分类依赖关系的CRNN模型中受益。

参考

MartınAbadi,Ashish Agarwal,Paul Barham,Eugene Brevdo,陈志峰,Craig Citro,Greg S Corrado,Andy Davis,Jeffrey Dean,Matthieu Devin等人。Tensorflow:异构分布式系统上的大规模机器学习。arXiv预印本arXiv:1603.04467。

尤金Agichtein,西尔维Cucerzan和埃里克布里尔。分析有效关系提取的真实性问题。在第28届国际ACM SIGIR大会关于信息检索研究和发展的会议论文集中。ACM,第567-568页。

Dzmitry Bahdanau,Kyunghyun Cho和Yoshua Bengio。通过联合学习来对齐和翻译神经机器翻译。arXiv预印本arXiv:1409.0473。

Razvan C Bunescu和Raymond J Mooney。用于关系抽取的最短路径依赖内核。在人类语言技术和自然语言处理实证方法会议论文集中。计算语言学协会,第724-731页。

陈桂彬,叶德恒,Erik Cambria,陈杰山和Zhenchang Xing。卷积和递归神经网络的集合应用用于多标签文本分类。IJCNN。

罗南科洛伯特和杰森韦斯顿。2008.自然语言处理的统一架构:具有多任务学习的深度神经网络。在第25届机器学习国际会议的演讲中。ACM,第160-167页。

Alexis Conneau,Holger Schwenk,LöıcBarrault和Yann Lecun。非常深的卷积网络 –

319

适用于自然语言处理。预印本arXiv:1606.01781。

罗伯特Desimone和约翰邓肯。1995年。选择性视觉注意的机制。Annual review of neuroscience 18(1):193-222。

的arXiv

神经

Jeffrey Donahue,Lisa Anne Hendricks,Sergio Guadar-rama,Marcus Rohrbach,Subhashini Venugopalan,Kate Saenko和Trevor Darrell。用于视觉识别和描述的长期递归卷积网络。在关于计算机视觉和模式识别的IEEE会议论文集中。第2625-2634页。

CÄceroNogueira多斯桑托斯和Maira加蒂。深卷积神经网络用于短文本的情感分析。在COLING中。第69-78页。

Michael Fleischman,Eduard Hovy和Abdessamad Echihabi。在线问题解答的离线策略:在提问前回答问题。在计算语言学协会第41届年会上的会议记录 – 第1卷计算语言学协会,第1-7页。

Alex Graves。用循环神经网络生成序列。arXiv预印本arXiv:1308.0850。

Alex Graves,Marcus Liwicki,Santiago Ferna ndez,Roman Bertolami,Horst Bunke和JürgenSchmidhuber。一种新颖的无约束手写识别连接系统。IEEE模式分析和机器智能交易31(5):855-868。

Sepp Hochreiter和JürgenSchmidhuber。长期的短期记忆。神经计算9(8):1735-1780。

黄志恒,徐伟,凯宇。用于序列标签的双向lstm-crf模型。arXiv预印本arXiv:1508.01991。

Trung Huynh,Yulan He,Allistair Willis和Stefan Rüger。2016.不良药物反应分类与深度神经网络。

Laurent Itti,Christof Koch,Ernst Niebur等人。1998.一种基于显着性的快速场景分析视觉注意模型。IEEE Transactions on pattern analysation and machine intelligence 20(11):1254-1259。

Rie Johnson和Tong Zhang。有效使用词序对卷积神经网络进行文本分类。arXiv预印本arXiv:1412.1058。

Rie Johnson和Tong Zhang。通过区域嵌入进行文本分类的半监督卷积神经网络。在神经信息处理系统的进展。919-927页。

Rie Johnson和Tong Zhang。2016.使用lstm进行区域嵌入的超级监督和半监督文本分类。arXiv预印本arXiv:1602.02373。

Nanda Kambhatla。将词汇,合成和语义特征与最大熵模型相结合以提取关系。在诉讼中

交互式海报和演示会上的ACL 2004。计算语言学协会,第22页。

尹金 卷积神经网络用于句子分类。arXiv预印本arXiv:1408.5882。

Diederik Kingma和Jimmy Ba。亚当:随机优化的一种方法。arXiv预印本arXiv:1412.6980。

Changki Lee,Yi-Gyu Hwang和Myung-Gil Jang。细粒度的命名实体识别和问题回答关系提取。在第30届年度国际ACM SI-GIR信息检索研究与发展会议的演讲中。ACM,第799-800页。

刘圣宇,唐步洲,陈庆才,王小龙。通过卷积神经网络提取药物 – 药物相互作用。2016年医学中的计算和数学方法。

麦克明茨,史蒂文比尔斯,里昂斯诺和丹朱拉夫斯基。对无关标签数据的关系提取进行远程监督。在第47届ACL联席会议论文集和AFNLP自然语言处理第4届国际联合会议论文集:第2卷 – 第2卷计算语言学协会,第1003-1011页。

Raymond J Mooney和Razvan C Bunescu。用于关系提取的子序列内核。在神经信息处理系统中的进展。第171-178页。

TH Muneeb,Sunil Kumar Sahu和Ashish Anand。评估用于捕获生物医学概念语义的分布式词表示。Proceedings of ACL-IJCNLP第158页。

Thien Huu Nguyen和Ralph Grishman。2015A。结合神经网络和对数线性模型来改善关系提取。arXiv预印本arXiv:1511.05926。

Thien Huu Nguyen和Ralph Grishman。2015B。关系提取:来自卷积神经网络的观点。在NAACL-HLT的论文集中。第39-48页。

F. Pedregosa,G. Varoquaux,A. Gramfort,V. Michel,B. Thirion,O. Grisel,M. Blondel,P. Prettenhofer,R. Weiss,V. Dubourg,J. Vanderplas,A. Pas- sos,D. Cournapeau,M.Brucher,M.Perrot和E.Duchesnay。Scikit-learn:Python中的机器学习。机器学习研究杂志12:2825-2830。

Jeffrey Pennington,Richard Socher和Christopher D Manning。2014年。手套:词表示的全球媒介。在EMNLP。第14卷,第1532-1543页。

320

Majid Rastegar-Mojarad,Richard D Boyce和Rashmi Prasad。UWM-TRIADS:分类与两阶段支持向量机和后处理的药物相互作用。在第七届国际语义评估研讨会论文集中。第667-674页。

Bryan Rink,Sanda Harabagiu和Kirk Roberts。自动提取临床文本中医学概念之间的关系。Journal of the American Medical Informatics Association 18(5):594-600。

Sunil Kumar Sahu和Ashish Anand。2017.使用长期短期记忆网络从生物医学文本中提取药物 – 药物相互作用。arXiv预印本arXiv:1701.08303。

Sunil Kumar Sahu,Ashish Anand,Krishnadev Oru-ganty和Mahanandeeshwar Gattu。使用域不变卷积神经网络从临床文本中提取关系。arXiv预印本arXiv:1606.09370。

Cicero Nogueira dos Santos,Bing Bing和Bowen Zhou。利用卷积神经网络进行排序来分类关系。arXiv预印本arXiv:1504.06580。

伊莎贝尔塞古拉Bedmar,帕洛马Martınez和MarıaHerrero Zazo。Semeval-2013任务9:从生物医学文本中提取药物相互作用(ddiextraction 2013)。计算语言学协会。

Nitish Srivastava,Geoffrey E Hinton,Alex Krizhevsky,Ilya Sutskever和Ruslan Salakhutdinov。辍学:一种防止神经网络过度拟合的简单方法。机器学习杂志15(1):1929-1958。

Fabian M Suchanek,Georgiana Ifrim和Gerhard Weikum。2006.结合语言和统计分析从Web文档中提取关系。在第12届ACM SIGKDD关于知识发现和数据挖掘的国际会议论文集中。ACM,第712-717页。

孙卫一,Anna Rumshisky和Ozlem Uzuner。评估临床文本中的时间关系:2012年i2b2挑战。Journal of the American Medical Informatics Association 20(5):806-813。

Mihai Surdeanu,Julie Tibshirani,Ramesh Nallapati和Christopher D Manning。用于关系提取的多实例多标签学习。在2012年联合会议实证研究的过程中

自然语言处理和计算机自然语言学习的方法。计算语言学协会,第455-465页。

Oriol Vinyals,Alexander Toshev,Samy Bengio和Dumitru Erhan。显示并告诉:神经图像标题生成器。在IEEE计算机视觉和模式识别会议论文集中。第3156-3164页。

王琳琳,朱曹,杰拉德德梅洛,刘致远。2016a。通过多级关注cnns进行关系分类。在ACL中。

王兴友,姜伟杰,罗智勇。2016B。卷积与递归神经网络相结合用于短文本情感分析。在第26届计算语言学国际会议论文集中。第2428-2437页。

Kelvin Xu,Jimmy Ba,Ryan Kiros,Kyunghyun Cho,Aaron Courville,Ruslan Salakhutdinov,Richard S Zemel和Yoshua Bengio。2015A。显示,参加并讲述:神经影像字幕的生成与视觉注意力。arXiv预印本arXiv:1502.03044 2(3):5。

徐坤,冯岩松,宋松芳,赵东燕。2015B。通过简单负抽样的卷积神经网络进行语义关系分类。arXiv预印本arXiv:1506.07650。

杨子超,杨迪一,克里斯代尔,何晓东,亚历克斯斯莫拉,爱德华霍维。2016年。文件分类的分层关注网络。在NAACL-HLT的论文集中。第1480-1489页。

曾道建,刘康,赖思维,周广有,赵军,等。2014.通过卷积深度神经网络的关系分类。在COLING中。第2335-2344页。

彭周,魏世,田田,齐振宇,李冰琛,洪伟伟,徐博。2016a。基于注意力的双向长期短期记忆网络用于关系分类。在ACL中。

彭周,魏世,田田,齐振宇,李冰琛,洪伟伟,徐博。2016B。基于注意力的双向长期短期记忆网络用于关系分类。在计算机协会第五十四届年会上,

guistics。第207页。

321

Leave a Reply

Your email address will not be published. Required fields are marked *