基于滑动窗口的词性标注

滑动窗口基础部分词性标注用于部分的语音标签文本。

自然语言高百分比的单词是超出上下文范围的单词可以分配多于一个部分的语音。这些含糊不清的单词的百分比通常在30%左右,尽管它在很大程度上取决于语言。解决这个问题在很多自然语言处理领域都非常重要例如,在机器翻译中,改变单词的词性可以显着改变其翻译。

基于滑动窗口的词性标注器是这样的程序,其通过查看词语周围的固定大小的“窗口”以被消除歧义,将单一词性分配给词的给定词汇形式。

这种方法的两个主要优点是:

正式定义[ 编辑]

是应用程序的一组语法标签,也就是说,可能被分配给一个词的所有可能标签的集合,并让

成为应用程序的词汇。

是形态分析的一个功能,它分配每个形态分析

它的一组可能的标签,

,这可以通过完整的词典或形态分析器来实现。

是集词类,在一般的将是一个分区

与每个限制

所有的话

将收到相同的一组标签,即每个单词类中的所有单词

属于相同的歧义类。

一般,

构造方式是:对于高频词,每个词类包含单个词,而对于低频词,每个词类对应于单个歧义类。这为高频模糊的词语提供了良好的性能,并且不需要太多的参数。

通过这些定义,可以用以下方式表示问题:给定文本

每个字

被分配一个词类

(通过使用词典或词法分析器)以获得含糊标记的文本

标记器的工作是获取标记文本

(与

)尽可能正确。

统计标记器为含糊标记的文本查找最可能的标记

 

使用贝叶斯公式,这被转换成:

哪里

是一个特定标签(句法概率)和的概率

是这个标签对应于文本的概率

(词汇​​概率)。

马尔可夫模型中,这些概率近似为产品。句法概率由一阶马尔可夫过程建模:

哪里

是分隔符号。

词汇概率独立于上下文:

标签的一种形式是近似第一个概率公式:

 

哪里

 

 

是大小的正确背景

这样滑动窗口算法只需要考虑大小的上下文

对于大多数应用

 

 

例如,要在“他从危险中跑出来”这个句子中标出歧义词“run”,只需要考虑“他”和“来自”这两个词的标签。

进一步阅读[ 编辑]

http://www.dlsi.ua.es/~mlf/docum/sanchezvillamil04p.pdf


 

Leave a Reply

Your email address will not be published. Required fields are marked *