利用卷积循环网络模型对生物医学文本中的关系分类学习局部和全局情境

Desh Raj和Sunil Kumar Sahu和Ashish Anand计算机科学与工程系印度技术学院Guwahati Guwahati,印度

抽象

 

生物医学领域中关系分类的任务是复杂的,因为存在从非生物来源获得的样本,如研究文献,出院总结或电子健康记录。这也是使用手动特征工程的分类器的一个限制。在本文中,我们提出了一个卷积递归神经网络(CRNN)架构,它将RNN和CNN按顺序组合起来解决这个问题。我们的方法背后的基本原理是,CNN可以有效地识别周围的粗粒度局部特征,而RNN更适合长期依赖。我们将我们的CRNN模型与两个生物医学数据集上的几条基线进行比较,即i2b2- 2010临床关系提取挑战数据集和SemEval-2013 DDI提取数据集。我们还评估了一种反思池化技术,并与传统的最大池化方法进行比较来报告其性能。我们的结果表明,所提出的模型实现了两个数据集上最先进的性能

1介绍

关系分类是识别一段文本中给定的一对实体之间存在的语义关系的任务。由于大多数搜索查询都是某种形式的二元表达式(Agichtein et al。,2005),现代的问答系统在很大程度上依赖于关系分类作为预处理步骤(Fleischman

等人,2003; Lee等人,2007)。准确的关系分类也有助于话语处理和精确的句子解释。因此,这一任务在过去十年中受到了极大的关注(Mintz等,2009; Surdeanu等,2012)。

在生物医学领域,特别是从数据中提取这些元组对于识别蛋白质和药物的相互作用,疾病的症状和病因等是至关重要的。此外,由于临床数据倾向于从多种(多种)信息来源获得,如期刊文章,出院总结和电子患者记录,所以关系分类成为一项更具挑战性的任务。

为了识别实体之间的关系,可以利用各种各样的词汇,句法或语用线索,这会导致用于分类目的的特征类型具有挑战性。由于这种变化,已经提出了许多方法,其中一些方法依赖于从POS标记,形态分析,依赖性分析和世界知识中提取的特征(Kambhatla,2004; San- tos et al。 ,2015; Suchanek等,2006; Mooney和Bunescu,2005; Bunescu和Mooney,2005)。深度学习架构最近引起了很大兴趣,因为它们能够在不需要显式特征工程的情况下快速提取相关特征。因此,许多卷积和递归神经网络模型(Zeng等,2014; Xu等,

在本文中,我们提出了一个使用递归神经网络(RNN)和卷积神经网络(CNN)分别学习全局和局部背景的模型。我们将其称为CRNN,遵循(Huynh et al。,2016)中使用的命名惯例。我们认为,为了使任何分类任务有效,

1的代码可以

https://github.com/desh2608/ crnn-relation-classification。

发现于:

311

Proceedings of the 21st Conference on Computational Natural Language Learning(CoNLL 2017),第311-321页,加拿大温哥华,2017年8月3日至8月4日。⃝c2017计算语言学协会

Continue reading

一、关系抽取简介

信息抽取的主要目的是将非结构化或半结构化描述的自然语言文本转化成结构化数据(Structuring),关系抽取是其重要的子任务,主要负责从文本中识别出实体(Entities),抽取实体之间的语义关系。

如:句子“Bill Gates is the founder of MicrosoftInc.”中包含一个实体对(Bill Gates, Microsoft Inc.),这两个实体对之间的关系为Founder。


Continue reading

一下为知网初步理解:
核心思想:
提取和标注 2个 或者多个 事物之间的对应关系

核心标注事物的2个基本概念:

部件 和 属性

关于对部件的认识是:每一个事物都可能是另外一个事物的部件,同时每一个事物也可能是另外一个事物的整体。

关于对属性的认识是:任何一个事物都一定包含着多种属性,事物之间的异或同是由属性决定的,没有了属性就没有了事物。

知网着力要反映概念之间和概念的属性之间的各种关系
Continue reading

介绍

随着近几年文本信息的爆发式增长,人们每天能接触到海量的文本信息,如新闻、博客、聊天、报告、论文、微博等。从大量文本信息中提取重要的内容,已成为我们的一个迫切需求,而自动文本摘要(automatic text summarization)则提供了一个高效的解决方案。
根据Radev的定义3,摘要是“一段从一份或多份文本中提取出来的文字,它包含了原文本中的重要信息,其长度不超过或远少于原文本的一半”。自动文本摘要旨在通过机器自动输出简洁、流畅、保留关键信息的摘要。
自动文本摘要有非常多的应用场景,如自动报告生成、新闻标题生成、搜索结果预览等。此外,自动文本摘要也可以为下游任务提供支持。
尽管对自动文本摘要有庞大的需求,这个领域的发展却比较缓慢。对计算机而言,生成摘要是一件很有挑战性的任务。从一份或多份文本生成一份合格摘要,要求计算机在阅读原文本后理解其内容,并根据轻重缓急对内容进行取舍,裁剪和拼接内容,最后生成流畅的短文本。因此,自动文本摘要需要依靠自然语言处理/理解的相关理论,是近几年来的重要研究方向之一。
自动文本摘要通常可分为两类,分别是抽取式(extractive)和生成式(abstractive)。抽取式摘要判断原文本中重要的句子,抽取这些句子成为一篇摘要。而生成式方法则应用先进的自然语言处理的算法,通过转述、同义替换、句子缩写等技术,生成更凝练简洁的摘要。比起抽取式,生成式更接近人进行摘要的过程。历史上,抽取式的效果通常优于生成式。伴随深度神经网络的兴起和研究,基于神经网络的生成式文本摘要得到快速发展,并取得了不错的成绩。

Continue reading

前言:

第二篇的文章中谈到,和部门老大一宁出去outing的时候,他给了我相当多的机器学习的建议,里面涉及到很多的算法的意义、学习方法等等。一宁上次给我提到,如果学习分类算法,最好从线性的入手,线性分类器最简单的就是LDA,它可以看做是简化版的SVM,如果想理解SVM这种分类器,那理解LDA就是很有必要的了。

谈到LDA,就不得不谈谈PCA,PCA是一个和LDA非常相关的算法,从推导、求解、到算法最终的结果,都有着相当的相似。

本次的内容主要是以推导数学公式为主,都是从算法的物理意义出发,然后一步一步最终推导到最终的式子,LDA和PCA最终的表现都是解一个矩阵特征值的问题,但是理解了如何推导,才能更深刻的理解其中的含义。本次内容要求读者有一些基本的线性代数基础,比如说特征值、特征向量的概念,空间投影,点乘等的一些基本知识等。除此之外的其他公式、我都尽量讲得更简单清楚。

LDA:

LDA的全称是Linear Discriminant Analysis(线性判别分析),是一种supervised learning。有些资料上也称为是Fisher’s Linear Discriminant,因为它被Ronald Fisher发明自1936年,Discriminant这次词我个人的理解是,一个模型,不需要去通过概率的方法来训练、预测数据,比如说各种贝叶斯方法,就需要获取数据的先验、后验概率等等。LDA是在目前机器学习、数据挖掘领域经典且热门的一个算法,据我所知,百度的商务搜索部里面就用了不少这方面的算法。

Continue reading

文章目录

  1. 1. 写在前面
  2. 2. Boosting
    1. 2.1. Boosting介绍
    2. 2.2. 前向分步加法模型
    3. 2.3. Boosting四大家族
  3. 3. Adaboost
    1. 3.1. 算法学习过程
    2. 3.2. 示例:AdaBoost算法
    3. 3.3. 训练误差分析
    4. 3.4. 前向分步加法模型与Adaboost
  4. 4. Boosted Decision Tree
    1. 4.1. 提升树模型
    2. 4.2. 提升树算法
  5. 5. Gradient Boosting
  6. 6. Boosting利器
  • author: zhouyongsdzh@foxmail.com
  • date: 2015-11-12
  • weibo: @周永_52ML

Continue reading