利用卷积循环网络模型对生物医学文本中的关系分类学习局部和全局情境

Desh Raj和Sunil Kumar Sahu和Ashish Anand计算机科学与工程系印度技术学院Guwahati Guwahati,印度

抽象

 

生物医学领域中关系分类的任务是复杂的,因为存在从非生物来源获得的样本,如研究文献,出院总结或电子健康记录。这也是使用手动特征工程的分类器的一个限制。在本文中,我们提出了一个卷积递归神经网络(CRNN)架构,它将RNN和CNN按顺序组合起来解决这个问题。我们的方法背后的基本原理是,CNN可以有效地识别周围的粗粒度局部特征,而RNN更适合长期依赖。我们将我们的CRNN模型与两个生物医学数据集上的几条基线进行比较,即i2b2- 2010临床关系提取挑战数据集和SemEval-2013 DDI提取数据集。我们还评估了一种反思池化技术,并与传统的最大池化方法进行比较来报告其性能。我们的结果表明,所提出的模型实现了两个数据集上最先进的性能

1介绍

关系分类是识别一段文本中给定的一对实体之间存在的语义关系的任务。由于大多数搜索查询都是某种形式的二元表达式(Agichtein et al。,2005),现代的问答系统在很大程度上依赖于关系分类作为预处理步骤(Fleischman

等人,2003; Lee等人,2007)。准确的关系分类也有助于话语处理和精确的句子解释。因此,这一任务在过去十年中受到了极大的关注(Mintz等,2009; Surdeanu等,2012)。

在生物医学领域,特别是从数据中提取这些元组对于识别蛋白质和药物的相互作用,疾病的症状和病因等是至关重要的。此外,由于临床数据倾向于从多种(多种)信息来源获得,如期刊文章,出院总结和电子患者记录,所以关系分类成为一项更具挑战性的任务。

为了识别实体之间的关系,可以利用各种各样的词汇,句法或语用线索,这会导致用于分类目的的特征类型具有挑战性。由于这种变化,已经提出了许多方法,其中一些方法依赖于从POS标记,形态分析,依赖性分析和世界知识中提取的特征(Kambhatla,2004; San- tos et al。 ,2015; Suchanek等,2006; Mooney和Bunescu,2005; Bunescu和Mooney,2005)。深度学习架构最近引起了很大兴趣,因为它们能够在不需要显式特征工程的情况下快速提取相关特征。因此,许多卷积和递归神经网络模型(Zeng等,2014; Xu等,

在本文中,我们提出了一个使用递归神经网络(RNN)和卷积神经网络(CNN)分别学习全局和局部背景的模型。我们将其称为CRNN,遵循(Huynh et al。,2016)中使用的命名惯例。我们认为,为了使任何分类任务有效,

1的代码可以

https://github.com/desh2608/ crnn-relation-classification。

发现于:

311

Proceedings of the 21st Conference on Computational Natural Language Learning(CoNLL 2017),第311-321页,加拿大温哥华,2017年8月3日至8月4日。⃝c2017计算语言学协会

Continue reading