作者:塞南的雪
链接:https://www.zhihu.com/question/34554321/answer/152478734
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

聚类算法有好几种不同的分类方法,说三种常见的大类吧。

  1. partitional clustering
  2. Hierarchical clustering
  3. Density-based clustering
  • 划分聚类

最典型的就是K-means。原理就不说了。前面也有答主提到你可以使用不同的邻近度函数。

 
Continue reading

词性标注

词性标注(Part-of-Speech tagging 或POS tagging),又称词类标注或者简称标注,是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或其他词性的过程。在汉语中,词性标注比较简单,因为汉语词汇词性多变的情况比较少见,大多词语只有一个词性,或者出现频次最高的词性远远高于第二位的词性。据说,只需选取最高频词性,即可实现80%准确率的中文词性标注程序。

利用HMM即可实现更高准确率的词性标注,本文旨在介绍HanLP中的词性标注模块。

 

开源项目

本文代码已集成到HanLP中开源:http://www.hankcs.com/nlp/hanlp.html

训练

HanLP中使用了一阶隐马模型,在这个隐马尔可夫模型中,隐状态是词性,显状态是单词。

语料库

训练语料采用了2014人民日报切分语料:
Continue reading