使机器能够通过知识图理解人类语言

机器能像

人类一样思考吗?

http://gdm.fudan.edu.cn/GDMWiki/attach/Yanghuaxiao/Language%20Understanding.pdf

语言是思考的工具


使我们与动物区别开来的是语言能力和理解能力使
人类能够理解人类语言的机器是实现智能信息处理和智能机器人大脑的根本途径。

机器语言
理解的障碍
• 机器的语言理解
需要知识库
•大规模
•语义丰富
•友好结构
•传统知识表示
不能满足这些要求
•本体论
•语义网络
•文本

 

知识图

•知识图是一种大规模的语义


网络由实体/概念以及
它们之间的语义关系组成
•更高的实体和概念覆盖率
•更丰富的语义关系
•通常组织为RDF
•众包提供的质量保险
•为什么使用知识图?
•了解文本的语义需要
背景知识
•机器人大脑需要知识库来了解
世界
•Yago҅WordNet,FreeBase,Probase,NELL,CYC,
DBPedia …。

 

如何使机器通过知识图来理解人类语言?

理解人类语言
•了解一个概念/类别(IJCAI2016)
•理解一组实体(正在审查中)
•理解一包单词(IJCAI2015)
•理解动词短语(AAAI2016)
•理解短文本(EMNLP2016)
•理解自然语言问题(VLDB2017?
IJCAI2016)
•推断缺少的事实(AAAI2017)

 

语言认知能力
•概念化
•牛顿 – >科学家
•协会
•微软 – >比尔盖茨
•推理
•人有脑,脑可以思考
– >人可以思考•诱导
•仪式,新娘,玫瑰 – >婚礼
•分类
•性别=人,婚姻状况=未婚!单身汉

 

 

Probase和Probase +

通过Hearst模式提取
•NP,如NP,NP,…和NP或NP,
如NP,*或|和NP
•NP,NP *或其他NP
•NP,NP *和其他NP
•NP,包括NP,*或| 和NP NP,
尤其是NP,*或|和NP;
家畜如猫和狗
……
•中国是一个发展中国家。
•生活是一盒巧克力。

 

 

 

DBPedia和CN-DBPedia

•DBpedia



从维基百科中提取结构化信息

使用开放许可证在Web 上提供此信息
•将DBpedia数据集与
Web上的其他数据集互联
•贡献者
•柏林自由大学(德国)
•莱比锡大学(德国)
•OpenLink软件(英国)
•链接开放数据

CN-DBpedia:
DBPedia 的中国对手
•由复旦Knowledge Works开发
•丰富实体的结构化信息。
•包含许多类别,实体标签

 

理解概念/类别

问题

我们如何理解一个概念类别?

Exampleғ

学士:性别=男性婚姻状况=未婚

什么是定义类别的特征

假定特征被假定为确定 描述该类别含义的
必要和充分条件

•具有定义要素的任何实体都应该
属于该类别
• 属于该类别的任何实体都必须
包含定义要素

例如,类别“周杰伦专辑”
定义特征
{(类型,专辑),(歌手,周杰伦)}
非定义特征
{(类型,专辑),(歌手,周杰伦),(风格,流行音乐)}
{ (Type,single),(歌手,周杰伦)}

 

解决方案和结果

如何衡量
一组功能的优劣

挑战与解决方案

候选特征集的搜索空间是
指数的
使用频繁模式挖掘来找到
足够频繁的候选定义特征集

 

解决方案框架

重复,直到找不到新的DF。
步骤1:使用分数函数来查找某些
类别的DF
第2步和第3步:使用基于规则的方法获得更多
类别的DF
第4步:使用
发现的类别的DF填充DBpedia 远

结果
我们最终获得60,247个新的C-DF,平均质量
得分为2.82

理解一组实体

问题:
给定一组实体,我们是否可以理解
其概念并推荐最
相关的实体?

应用
ғ电子商务:如果用户在搜索
samsung s6和iPhone 6,我们应该
推荐什么?为什么?

 

 

 

 

 

 

理解一组实体

天真的解决方案:
使用分类法(如Probase)来查找
最近的共同祖先

•问题:
•一个概念不一定存在
•我们可以
在“发展中国家”的主题下找到中国,俄罗斯,巴西和印度,但
没有确切的话题“金砖四国”。
•一个概念可能涵盖许多不相关的
实例
•在“发展中国家”这个主题下,还有
许多其他国家让
我们很难找到最相关的
实体。
•在大多数情况下,最好的概念是隐含
•在Probase的信息是不干净
enoug

 

模型1:将概念用作隐藏
变量,并用太多
的成员实体来惩罚概念

模型2:与
查询实体结合的实体应该保留查询的概念
分布。

理解一组实体

理解动词短语

例如,我看了惊人的蜘蛛侠2,并
认为它令人印象深刻。
如何
使用动词“手表” 来理解“惊人的蜘蛛侠2”?
模式:观看$电影 – >“惊人的蜘蛛侠
2”是电影
语言学家[辛克莱1990]发现
动词短语的两个原则:
•成语模式:踢屁股/观看步骤
•概念化模式:吃水果(苹果/
香蕉等)喝饮料(酒,茶
等)
模型:提取动词短语的模式

应用:
使用动词
的概念化他昨天吃的(动词)苹果(对象)
味道不好。
模式:吃美食 – >苹果是美食
解析:找到主观/客观/等等。一的
动词

理解动词短语

挑战:在普遍性和特异性之间取舍

一般性:一种一般模式
比几种特定模式更好。
特定性:模式的指定
实体和模式本身应该
匹配

通过使用MDL

 

 

结果

我们的方法胜过竞争对手
动词模式有助于概念化

理解短文本

iPhone 6 plus的封面

•短文本
无处不在
•网页查询
•即时消息

 

 

从月球到地球的距离

理解
短文本的语义
•句法分析

 

位于休斯敦的泰国食物

 

 

 

 

理解短文本


文本的句法分析具有挑战性
•来自
函数词和词序的语法信号
不可用
•没有 用于Web 查询的标记
依赖树
(treebank)
,也没有
用于构建
这样的依赖树的标准

我们的解决方案

通过启发式
规则从完整的句子中推断树的体面
•例如通过功能
词连接

培训基于过渡的
正派解析器

 

理解短文本

结果
•斯坦福大学Parser严重依赖语法信号
,如函数词和词序,而
QueryParser更多地依赖于查询的语义
•QueryParser 在短语
查询解析任务方面一贯优于竞争对手

理解一袋文字

 

问题:
给出一袋单词,我们可以推论
文章的内容吗?
例如:
中国,日本,印度,韩国 – >亚洲国家
晚餐,午餐,食物,儿童,女孩 – >餐,儿童
新娘,新郎,礼服,庆典 – >婚礼

挑战:如何测量中的“善”
,我们分配到的话一袋标签
覆盖范围:概念标签应涵盖
许多单词和短语的输入作为
可能
极小性:概念标签的数量
应尽可能小

应用
主题标签
•一个主题是一包没有
明确语义的单词
•概念标签将每个主题转化为
一小组有意义的概念
语言理解
•动词标注
•可以概括动词吃饭的直接对象
苹果,早餐,猪肉,牛肉,子弹,变成
一小组概念,如水果,
餐,肉,子弹

 

 

最小描述长度

最好的概念应尽可能多地捕捉单词的规律性,这
使我们能够尽可能多地压缩数据

概念
概念
问题:给出一袋词xm,找到

结果

•我们的解决方案可以找到最少
数量的概念来标注
一袋单词
•大多数概念标签
足够具体
•噪音词将被忽略

 

 

 

 

 

•我们的模型可以充分利用
概念的属性来
生成更好的标签

 

 

 

理解自然语言问题

在线过程解析并回答
问题
•问题解析:
通过NER 将问题转换为模板并进行
概念化
•谓词查找:查找
给定模板的实体和谓词,并
返回相应的值
离线过程学习从
模板到谓词的映射
•模板提取:学习模板
及其相应的谓词
•谓词扩展:学习谓词
路径

 

 

 

主要观点:


通过
模板了解问题的意图

 

 

 

基于模板的概率生成模型


谓词推断
1.从问题q开始,根据
分布P(e | q)生成它的实体e 。
2.根据分布P(t | q,e)生成模板t。
3.通过P(p | t)推断谓词p,其中谓词p仅
依赖于t。
4.通过P(v | e,p)生成答案值v。

 

 

KBQA发现
比其竞争对手更多的模板和谓词,尽管
引导的语料库大小更大

缺少是事实推断

在数据驱动的概念
分类中有很多缺失的环节,比如Probase
Newton是一位科学家
史蒂夫乔布斯是亿万富翁

问题ғ
我们能否从
知识库中的现有事实推断缺失的事实?

数据偏差: 从数据中
无法
观察到许多类似于事实的常识

例如: 从比尔盖茨是亿万富翁的事实
我们可以推断史蒂夫乔布斯是
亿万富翁吗?

缺少事实推断 – 想法和结果

来自类似情况的推断

从类似的概念推断

结果:
•我们的功能可以有效地找到
遗漏的事实
•我们的模型可以始终达到
90%的精度
•更类似的实体/概念,
准确度越高

开放的挑战
•常识知识
•人类不能飞翔
•太阳从东方升起
•物体将落地
但没有任何
支持

理解语言的理由
•奥巴马是一个白人Ҙ

•为什么理解
常识性知识具有挑战性
•没有人会
在文本中明确提及它
•没有提取来源
•为什么推理如此困难
•硬性推断总是遭遇
例外
•鸟类可以飞翔,但鸵鸟
不能飞翔

研究大纲

 

图形分析
1̵对称模型(Physical Review E 2008)
2̵图形简化(Physical Review E 2008)
3̵复杂性/距离测量(Pattern
Recognition 2008,Physica A 2008)
4̵图形索引压缩(EDBT2009)
5̵图形匿名化(EDBT2010)

 

 

知识图构建
1̵IsA分类完成(TKDE2017)
2̵显式isA关系推断(AAAI2017)
3̵错误是校正(AAAI2017)
4̵跨语种类型推断(DASFAA2016)
5̵端对端知识收集
6̵特定领域知识获取

 

 

KG的自然语言理解
1̵ 理解自然语言(IJCAI2015)
2̵ 理解自然语言(IJCAI2016)2̵ 理解自然语言3̵ 理解
动词词组(AAAI2016)
4̵理解概念(IJCAI 2106)
5̵理解简短文本
(EMNLP2016)

 

知识搜索/建议
1̵KG 推荐推荐(WWW2014̵DASFAA2015)
2̵KG 推荐(ICDM2015̵CIKM2015)3̵CKM分类
推荐(CIKM 2015)
4̵实体推荐及概念说明
5̵长概念查询实体搜索

 

大图管理
1̵ 大图管理(SIGMOD12)
2̵重叠社区搜索(SIGMOD2013)
3̵本地社区搜索(SIGMOD2014)
4̵大图分区(ICDE2014҂5̵
最短距离查询(VLDB2014҂6̵
快速图探索(VLDB 2016)

 

 

1. CN-DBPedia CN-DBpedia旨在

百度百科等中文百科全书网站中提取结构化信息,并
在网络上提供这些信息。CN-DBpedia允许您
对中国百科全书
网站提出复杂的查询,并将网络上的不同数据集链接到
中文百科全书网站数据
2. Probase Plus Probase是一个网络级分类法
,包含1,000万个概念/实体和16个
数以百万计的关系。另外,ProbasePlus是一个
更新的分类法,它具有更多的
从原始Probase 推断出的isA 关系。它们对
概念化,推理等有用
3.动词基础
动词模式是对
动词的概率语义表示。我们引入动词模式来表示动词的
语义,使得每个模式对应于
动词的单个语义。我们
根据它们的一般性和特异性构建了动词模式。
ķ

 

•复旦
Kowledge
作品•http : //Kw.fudan.edu.cn• 知识工程是一个工作室,专注于构建
和管理
高质量的大型知识图谱,以及知识图谱
在文本理解,
智能搜索和机器人大脑。
•图数据管理实验室@复旦
•http:
//gdm.fudan.edu.cn•GDM @ FUDAN致力于研究和开发有效和高效的解决方案来
管理和挖掘这些图数据,旨在
了解真实图形并支持
构建的实际应用程序在大型真实图表上。
最近,我们对
知识图及其应用特别感兴趣。

我们的使命:大型
知识图谱的建设,管理和应用

 

知识图谱
是由实体/
概念及其语义关系组成的一种语义网络。 预计
对实体和概念的覆盖率更高,
语义关系更丰富,以更
自动化的方式构建,准确度更高。
智能信息处理的关键。
KG在解决诸如搜索意图理解,
关系解释,用户分析等问题方面表现出其潜力。它在智能搜索,
智能软件,网络安全和智能业务方面具有巨大的商业价值。
构建像人类
KG 这样思维的机器的关键在于提供必要的背景知识,使机器能够理解语言
并像人类一样思考。

Leave a Reply

Your email address will not be published. Required fields are marked *