标记培训数据越来越成为部署机器学习系统的最大瓶颈。我们展示了Snorkel,这是首个同类系统,使用户无需手工标记任何培训数据即可培训最先进的模型。相反,用户编写表示任意启发式的标签函数,其可能具有未知的准确性和相关性。通过整合我们最近提出的最新机器学习范例 – 数据编程的第一个端到端实现,浮潜可以减少他们的输出而无需访问基本事实。我们根据过去一年与公司,机构和研究实验室合作的经验,提出了一个灵活的界面层来撰写标签功能。在用户研究中,主题专家建立的模型速度提高2.8倍,平均预测性能提高45倍。5%与7个小时的手工标签。我们在这个新设置中研究了建模折衷方案,并提出了一个优化器,用于实现折衷决策的自动化,从而可以实现每管线执行速度高达1.8倍的加速。在与美国退伍军人事务部和美国食品和药物管理局的两项合作中,以及代表其他部署的四个开源文本和图像数据集合,Snorkel提供的平均预测性能比先前的启发式方法提高了132%在大型手工培训集的预测性能平均3.60%之内。PVLDB参考格式:A. Ratner,SH Bach,H. Ehrenberg,J. Fries,S. Wu,C. R’e。浮潜:快速培训数据创建与弱监督。PVLDB,11(3):xxxx-yyyy,2017. DOI:10.14778 / 3157794.3157797 我们在这个新环境中研究建模折衷方案,并提出一个优化器来实现折衷决策的自动化,每个管道执行速度最高可达1.8倍。在与美国退伍军人事务部和美国食品和药物管理局的两项合作中,以及代表其他部署的四个开源文本和图像数据集合,Snorkel提供的平均预测性能比先前的启发式方法提高了132%在大型手工培训集的预测性能平均3.60%之内。PVLDB参考格式:A. Ratner,SH Bach,H. Ehrenberg,J. Fries,S. Wu,C. R’e。浮潜:快速培训数据创建与弱监督。PVLDB,11(3):xxxx-yyyy,2017. DOI:10.14778 / 3157794.3157797 我们在这个新环境中研究建模折衷方案,并提出一个优化器来实现折衷决策的自动化,每个管道执行速度最高可达1.8倍。在与美国退伍军人事务部和美国食品和药物管理局的两项合作中,以及代表其他部署的四个开源文本和图像数据集合,Snorkel提供的平均预测性能比先前的启发式方法提高了132%在大型手工培训集的预测性能平均3.60%之内。PVLDB参考格式:A. Ratner,SH Bach,H. Ehrenberg,J. Fries,S. Wu,C. R’e。浮潜:快速培训数据创建与弱监督。PVLDB,11(3):xxxx-yyyy,2017. DOI:10.14778 / 3157794.3157797 退伍军人事务部和美国食品和药物管理局,以及代表其他部署的四个开源文本和图像数据集,Snorkel提供的平均预测性能比先前的启发式方法提高了132%,平均降低了3.60%大型手工培训集的预测性能。PVLDB参考格式:A. Ratner,SH Bach,H. Ehrenberg,J. Fries,S. Wu,C. R’e。浮潜:快速培训数据创建与弱监督。PVLDB,11(3):xxxx-yyyy,2017. DOI:10.14778 / 3157794.3157797 退伍军人事务部和美国食品和药物管理局,以及代表其他部署的四个开源文本和图像数据集,Snorkel提供的平均预测性能比先前的启发式方法提高了132%,平均降低了3.60%大型手工培训集的预测性能。PVLDB参考格式:A. Ratner,SH Bach,H. Ehrenberg,J. Fries,S. Wu,C. R’e。浮潜:快速培训数据创建与弱监督。PVLDB,11(3):xxxx-yyyy,2017. DOI:10.14778 / 3157794.3157797 大型手工培训集预测性能的60%。PVLDB参考格式:A. Ratner,SH Bach,H. Ehrenberg,J. Fries,S. Wu,C. R’e。浮潜:快速培训数据创建与弱监督。PVLDB,11(3):xxxx-yyyy,2017. DOI:10.14778 / 3157794.3157797 大型手工培训集预测性能的60%。PVLDB参考格式:A. Ratner,SH Bach,H. Ehrenberg,J. Fries,S. Wu,C. R’e。浮潜:快速培训数据创建与弱监督。PVLDB,11(3):xxxx-yyyy,2017. DOI:10.14778 / 3157794.3157797
Continue reading

https://arxiv.org/pdf/1707.06690.pdf

https://github.com/xwhan/DeepPath

摘要
我们研究了在大规模知识图(KGs)中学习推理的问题。更具体地说,我们描述了一种用于学习多跳关系路径的新型强化学习框架:我们使用基于知识图嵌入的具有连续状态的基于策略的代理,其通过采样最有希望的关系来扩展它的KG向量空间路径。与之前的工作相比,我们的方法包括一个奖励功能,该功能考虑了准确性,多样性和效率。在实验上,我们表明,我们提出的方法胜过基于路径排序的算法和知识图嵌入方法Freebase和Never-Ending语言学习数据集。

1介绍

用于语音识别中声学建模的深度神经网络近年来,深度学习技术已经在各种分类和识别问题中获得了许多现成的结果(Krizhevsky et al。,2012; Hinton et al。,2012; Kim,2014)。然而,复杂的自然语言处理问题通常需要多个相互关联的决策,并且赋予深度学习模型以学习理性的能力仍然是一个具有挑战性的问题。为了处理没有明显答案的复杂查询,智能机器必须能够推理现有资源,并学会推断未知答案。

更具体地说,我们把我们的研究放在多跳推理的环境中,给出一个大的KG,这是学习显式推理公式的任务。例如,如果KG包含诸如Neymar为巴塞罗那出战的信念,而巴塞罗那在西甲联赛中,那么机器应该能够学习以下公式:playerPlaysForTeam(P,T)∧teamPlaysInLeague(T,L)⇒ playerPlaysInLeague(P,L)。在测试时间内,通过插入学习公式,系统应该能够自动推断一对实体之间的缺失链接。这种推理机可能会成为复杂QA系统的重要组成部分

近年来,路径排序算法(PRA)(Lao et al。,2010,2011a)成为大型幼儿园学习推理路径的一种有前途的方法。PRA使用基于重启的基于推理机制的随机游走来执行多个有界深度优先搜索过程来查找关系路径。加上基于弹性网络的学习,PRA然后使用监督式学习选择更合理的路径。然而,PRA在完全独立的空间中运作,这使得评估和比较KG中类似的实体和关系变得困难。
Continue reading

https://arxiv.org/pdf/1707.06690.pdf

https://github.com/xwhan/DeepPath

Abstract
We study the problem of learning to reason in large scale knowledge graphs (KGs). More specifically, we describe a novel reinforcement learning framework for learning multi-hop relational paths: we use a policy-based agent with continuous states based on knowledge graph embeddings, which reasons in a KG vector space by sampling the most promising relation to extend its path. In contrast to prior work, our approach includes a reward function that takes the accuracy, diversity, and efficiency into consideration. Experimentally, we show that our proposed method outperforms a path-ranking based algorithm and knowledge graph embedding methods on Freebase and Never-Ending Language Learning datasets.1

1 Introduction

Deep neural networks for acoustic modeling in speech recognitionIn recent years, deep learning techniques have obtained many state-of-theart results in various classification and recognition problems (Krizhevsky et al., 2012; Hinton et al., 2012; Kim, 2014). However, complex natural language processing problems often require multiple inter-related decisions, and empowering deep learning models with the ability of learning to reason is still a challenging issue. To handle complex queries where there are no obvious answers, intelligent machines must be able to reason with existing resources, and learn to infer an unknown answer.

More specifically, we situate our study in the context of multi-hop reasoning, which is the task of learning explicit inference formulas, given a large KG. For example, if the KG includes the beliefs such as Neymar plays for Barcelona, and Barcelona are in the La Liga league, then machines should be able to learn the following formula: playerPlaysForTeam(P,T) ∧ teamPlaysInLeague(T,L) ⇒ playerPlaysInLeague(P,L). In the testing time, by plugging in the learned formulas, the system should be able to automatically infer the missing link between a pair of entities. This kind of reasoning machine will potentially serve as an essential components of complex QA systems

Continue reading

机器能像

人类一样思考吗?

http://gdm.fudan.edu.cn/GDMWiki/attach/Yanghuaxiao/Language%20Understanding.pdf

语言是思考的工具


使我们与动物区别开来的是语言能力和理解能力使
人类能够理解人类语言的机器是实现智能信息处理和智能机器人大脑的根本途径。

机器语言
理解的障碍
• 机器的语言理解
需要知识库
•大规模
•语义丰富
•友好结构
•传统知识表示
不能满足这些要求
•本体论
•语义网络
•文本

 
Continue reading

Can machine think like
humans?

http://gdm.fudan.edu.cn/GDMWiki/attach/Yanghuaxiao/Language%20Understanding.pdf

Language is the tool of thinking


It is the ability of language speaking and understanding that distinguish us from animals
Enabling machine to understand human language is the essential path to realize intelligent information processing and smart robot brain.

Obstacles of machine language
understanding
• Language understanding of machines
needs knowledge bases
• Large scale
• Semantically rich
• Friendly structure
• Traditional knowledge representations
can not satisfy these requirements
• Ontology
• Semantic network
• Texts

Continue reading

https://arxiv.org/abs/1803.07828v1
https://github.com/AKSW/KG2Vec

Tommaso Soru
1
, Stefano Ruberto
2
, Diego Moussallem
1
, Edgard Marx
1
, Diego
Esteves
3
, and Axel-Cyrille Ngonga Ngomo
4
1 AKSW, University of Leipzig, D-04109 Leipzig, Germany
{tsoru,moussallem,marx
}@informatik.uni-leipzig.de
2 Gran Sasso Science Institute, INFN, I-67100 L’Aquila, Italy
stefano.ruberto@gssi.infn.it
3
SDA, University of Bonn, D-53113 Bonn, Germany
esteves@cs.uni-bonn.de
4 Data Science Group, Paderborn University, D-33098 Paderborn, Germany
axel.ngonga@upb.de
Abstract. Knowledge Graph Embedding methods aim at representing entities
and relations in a knowledge base as points or vectors in a continuous vector
space. Several approaches using embeddings have shown promising results on
tasks such as link prediction, entity recommendation, question answering, and
triplet classification. However, only a few methods can compute low-dimensional
embeddings of very large knowledge bases. In this paper, we propose KG2VEC
,
a novel approach to Knowledge Graph Embedding based on the skip-gram model.
Instead of using a predefined scoring function, we learn it relying on Long ShortTerm
Memories. We evaluated the goodness of our embeddings on knowledge
graph completion and show that KG2VEC is comparable to the quality of the
scalable state-of-the-art approach RDF2Vec and can process large graphs by parsing
more than a hundred million triples in less than 6 hours on common hardware.\
Continue reading

利用卷积循环网络模型对生物医学文本中的关系分类学习局部和全局情境

Desh Raj和Sunil Kumar Sahu和Ashish Anand计算机科学与工程系印度技术学院Guwahati Guwahati,印度

抽象

 

生物医学领域中关系分类的任务是复杂的,因为存在从非生物来源获得的样本,如研究文献,出院总结或电子健康记录。这也是使用手动特征工程的分类器的一个限制。在本文中,我们提出了一个卷积递归神经网络(CRNN)架构,它将RNN和CNN按顺序组合起来解决这个问题。我们的方法背后的基本原理是,CNN可以有效地识别周围的粗粒度局部特征,而RNN更适合长期依赖。我们将我们的CRNN模型与两个生物医学数据集上的几条基线进行比较,即i2b2- 2010临床关系提取挑战数据集和SemEval-2013 DDI提取数据集。我们还评估了一种反思池化技术,并与传统的最大池化方法进行比较来报告其性能。我们的结果表明,所提出的模型实现了两个数据集上最先进的性能

1介绍

关系分类是识别一段文本中给定的一对实体之间存在的语义关系的任务。由于大多数搜索查询都是某种形式的二元表达式(Agichtein et al。,2005),现代的问答系统在很大程度上依赖于关系分类作为预处理步骤(Fleischman

等人,2003; Lee等人,2007)。准确的关系分类也有助于话语处理和精确的句子解释。因此,这一任务在过去十年中受到了极大的关注(Mintz等,2009; Surdeanu等,2012)。

在生物医学领域,特别是从数据中提取这些元组对于识别蛋白质和药物的相互作用,疾病的症状和病因等是至关重要的。此外,由于临床数据倾向于从多种(多种)信息来源获得,如期刊文章,出院总结和电子患者记录,所以关系分类成为一项更具挑战性的任务。

为了识别实体之间的关系,可以利用各种各样的词汇,句法或语用线索,这会导致用于分类目的的特征类型具有挑战性。由于这种变化,已经提出了许多方法,其中一些方法依赖于从POS标记,形态分析,依赖性分析和世界知识中提取的特征(Kambhatla,2004; San- tos et al。 ,2015; Suchanek等,2006; Mooney和Bunescu,2005; Bunescu和Mooney,2005)。深度学习架构最近引起了很大兴趣,因为它们能够在不需要显式特征工程的情况下快速提取相关特征。因此,许多卷积和递归神经网络模型(Zeng等,2014; Xu等,

在本文中,我们提出了一个使用递归神经网络(RNN)和卷积神经网络(CNN)分别学习全局和局部背景的模型。我们将其称为CRNN,遵循(Huynh et al。,2016)中使用的命名惯例。我们认为,为了使任何分类任务有效,

1的代码可以

https://github.com/desh2608/ crnn-relation-classification。

发现于:

311

Proceedings of the 21st Conference on Computational Natural Language Learning(CoNLL 2017),第311-321页,加拿大温哥华,2017年8月3日至8月4日。⃝c2017计算语言学协会

Continue reading