词汇关系 相似性词推荐,推荐性,常用表述推荐
句子关系 细节题(定位), 推断题(因果调节推断原理),
篇章关系

 

实体:词汇-词汇

关系:近义词,高频出现词(PMI),写作高分协作词汇(PMI),命名实体(高频协作内容)

 

实体:词汇-句子

关系:语法举例,习题所属关系,推荐协作关系

 

实体:句子-句子

关系:习题推断关系,习题细节关系,写作高分句子改写关系,

 

实体:词汇-文章

关系:所属关系,推荐预料

 

LDA

(LDA文档主题生成模型)

锁定

LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。所谓生成模型,就是说,我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布,主题到词服从多项式分布。[1]
LDA是一种非监督机器学习技术,可以用来识别大规模文档集(document collection)或语料库(corpus)中潜藏的主题信息。它采用了词袋(bag of words)的方法,这种方法将每一篇文档视为一个词频向量,从而将文本信息转化为了易于建模的数字信息。但是词袋方法没有考虑词与词之间的顺序,这简化了问题的复杂性,同时也为模型的改进提供了契机。每一篇文档代表了一些主题所构成的一个概率分布,而每一个主题又代表了很多单词所构成的一个概率分布。

Continue reading

深度学习笔记:主成分分析(PCA)(1)——标准化、协方差、相关系数和协方差矩阵

笔者在学习主成分分析(PCA)的时候接触到了协方差矩阵的应用。这部分知识有些遗忘了,因此重新巩固一下,记录在此,希望能帮助到有需要的同学。

1. 概率论中的标准化、协方差、相关系数和协方差矩阵概念

1.1 随机变量的部分数字特征

假设有二维随机向量(X,Y)

数字特征 意义 描述
E(X) 数学期望 反映X的平均值
D(X) 方差 反映X与平均值偏离的程度
Cov(X,Y) 协方差 等于E((XE(X))(YE(Y))),若为0,则说明XY独立
ρρXY 相关系数(就是随机变量标准化后的协方差) 等于Cov(X,Y)D(X)D(Y)

Continue reading

贝叶斯定理是关于随机事件A和B的条件概率(或边缘概率)的一则定理。其中P(A|B)是在B发生的情况下A发生的可能性。

 

贝叶斯公式与两个概率有关系,一个是先验概率(基础概率),一个是现象概率(观察到的条件)

仍然是熊猫给出的例子:某城市发生了一起汽车撞人逃跑事件,该城市只有两种颜色的车,蓝色15%,绿色85%,事发时有一个人在现场看见了,他指证是蓝车。但是根据专家在现场分析,当时那种条件能看正确的可能性是80%。那么,肇事的车是蓝车的概率到底是多少?

令B是城市里车为蓝色的事件,G为车子是绿色的事件,E为观察到车子为蓝色的事件。则由已知条件可以得出P(B)=0.15,P(G)=P(~B)=0.85,至于P(E)我们一会儿再说。

好了,现在,如果没有证人看到肇事者车的话,那么我们只能盲猜,因此肇事者的车子为蓝色的概率只能是整个城市里面车为蓝色的概率,也就是先验概率P(B)=0.15,因为这时我们还没有其他证据介入,只能做个粗略的估算。

接下来,当当当当,有证人了。证人说他看到了车子,并且说是蓝色的,注意,这分两种情况,…………重要的事情说两遍:贝叶斯里面现象(新的证据)部分总是分两种情况出现的:一是车子的确是蓝色的,并且证人也正确的分辨出车是蓝色的来了,概率为 P(E,B)=P(B)xP(E|B)=0.15×0.8=0.12,二是车子根本就是绿色的,只是证人看成蓝色的了,概率为P(E,~B)=P(~B)xP(E|~B)=P(~B)x(1 – P(~E|~B))=0.85x(1-0.8)=0.17(此处原本计算有误,感谢

提醒),所以P(E)=P(E,B)+P(E,~B)=0.12+0.17=0.29然后,我们要求解的其实是在有证人的条件下车子为蓝色的概率,也就是P(B|E)=P(E,B)/P(E)=0.12/0.29=0.41

你看,P(B|E)根本就是P(B)的加强版本,条件概率跟先验概率描述的根本就是同一件事。那么当当当当,又一个结论来了:当有新的证据出现时,P(B|E)会替代原来P(B)的角色。换句话说,现在警察找到了一个新的证人,他也觉得这辆肇事车是蓝色的,这时在新一轮的贝叶斯概率计算中,基础概率P(B)=0.41,而不是原先的0.15,大家可以算一下,新的P(B|E)=0.73,换句话说,当有两个人看见肇事车辆为蓝色的时候,对比只有一个人看到肇事车辆为蓝色的时候,该车实际为蓝色的概率大大增加

关于贝叶斯,写过一篇文章专门详述了相关的内容,可以参考链接:

在概率论与数理统计中,有两个相当重要的公式——全概率公式与贝叶斯公式。然而很多人对这两个公式感到非常迷茫。一来不知道公式背后的意义所在,二来不知道这些冰冷的公式能有什么现实应用。

Continue reading

古典概型也叫传统概率、其定义是由法国数学家拉普拉斯 (Laplace ) 提出的。如果一个随机试验所包含的单位事件是有限的,且每个单位事件发生的可能性均相等,则这个随机试验叫做拉普拉斯试验,这种条件下的概率模型就叫古典概型。
在这个模型下,随机实验所有可能的结果是有限的,并且每个基本结果发生的概率是相同的。古典概型是概率论中最直观和最简单的模型,概率的许多运算规则,也首先是在这种模型下得到的。
中文名
古典概型
外文名
classical models of probability
应用学科
数学
适用领域范围
数学 统计学
又    名
等可能概型
样本空间
有限个元素

Continue reading

凸函数,是数学函数的一类特征。凸函数就是一个定义在某个向量空间的凸子集C(区间)上的实值函数。
凸函数是一个定义在某个向量空间的凸子集C(区间)上的实值函数f,而且对于凸子集C中任意两个向量, f((x1+x2)/2)>=(f(x1)+f(x2))/2,则f(x)是定义在凸子集c中的凸函数(该定义与凸规划中凸函数的定义是一致的,下凸)。
中文名
凸函数
外文名
convex function
类    别
数学
性    质
局部最小值即全局最小值
定义域
实线性空间
注    意
国内外凹凸性定义不同

Continue reading

基尼系数

编辑

基尼系数是指国际上通用的、用以衡量一个国家或地区居民收入差距的常用指标。基尼系数介于0-1之间,基尼系数越大,表示不平等程度越高。[1]
长久以来,人们错误的把这个指标归到基尼名下。但1964年,赫希曼在AER发表了一页纸的澄清文字,标题是《一项指标的父权认证》(the Paternity of An Index)。[2]  据此,我们得知,基尼系数并非基尼发明的,也不是赫芬道尔重新发明的,而是赫希曼发明的。

Continue reading