9 综合小题 整理

150 题数据挖掘

https://www.jianshu.com/p/37b5d84a3481

 

 

[机器学习]以下不属于有监督的词义消歧方法的是

  • Flip-Flop算法
  • 贝叶斯分类器
  • 最大熵消歧
  • 基于词典的消歧

 

机器学习模型 error 和模型 bias 和 variance 之间的关系:

  • 没有关系
  • error = bias^2+variance
  • error = bias+variance^0.5
  • error = bias + variance

 

下面哪些是基于核的机器学习算法?()

  • Expectation Maximization
  • Radial Basis Function
  • Linear Discrimimate Analysis
  • Support Vector Machine

 

机器学习中做特征选择时,可能用到的方法有?

  • 卡方
  • 信息增益
  • 平均互信息
  • 期望交叉熵
特征提取算法
特征提取算法分为特征选择和特征抽取两大类
特征选择
常采用特征选择方法。常见的六种特征选择方法:
  1. DF(Document Frequency) 文档频率
    DF:统计特征词出现的文档数量,用来衡量某个特征词的重要性
  2. MI(Mutual Information) 互信息法
    互信息法用于衡量特征词与文档类别直接的信息量。
    如果某个特征词的频率很低,那么互信息得分就会很大,因此互信息法倾向”低频”的特征词。
    相对的词频很高的词,得分就会变低,如果这词携带了很高的信息量,互信息法就会变得低效。
  3. (Information Gain) 信息增益法
    通过某个特征词的缺失与存在的两种情况下,语料中前后信息的增加,衡量某个特征词的重要性。
  4. CHI(Chi-square) 卡方检验法
    利用了统计学中的”假设检验”的基本思想:首先假设特征词与类别直接是不相关的
    如果利用CHI分布计算出的检验值偏离阈值越大,那么更有信心否定原假设,接受原假设的备则假设:特征词与类别有着很高的关联度。
  5. WLLR(Weighted Log Likelihood Ration)加权对数似然
  6. WFO(Weighted Frequency and Odds)加权频率和可能性
特征抽取(降维)
PCA等

机器学习中L1正则化和L2正则化的区别是?

  • 使用L1可以得到稀疏的权值
  • 使用L1可以得到平滑的权值
  • 使用L2可以得到稀疏的权值
  • 使用L2可以得到平滑的权值

在其他条件不变的前提下,以下哪种做法容易引起机器学习中的过拟合问题()

  • 增加训练集量
  • 减少神经网络隐藏层节点数
  • 删除稀疏的特征   S
  • SVM算法中使用高斯核/RBF核代替线性核

 

 

深度学习是当前很热门的机器学习算法,在深度学习中,涉及到大量的矩阵相乘,现在需要计算三个稠密矩阵A,B,C的乘积ABC,假设三个矩阵的尺寸分别为m*n,n*p,p*q,且m<n<p<q,以下计算顺序效率最高的是()

  • (AB)C
  • AC(B)
  • A(BC)
  • 所以效率都相同

以下哪个方法不是用于模型选择的

  • 交叉验证
  • AIC
  • BIC
  • 维特比算法

 

在深度学习网络中, 以下哪种技术不是主要用来做网络正则化的(提升模型泛化能力)

  • dropout
  • 参数共享
  • Early stopping
  • Pooling

以下关于过拟合和欠拟合说法正确的是

  • 过拟合一般表现为偏差较大
  • 欠拟合一般表现为方差较大
  • 过拟合可以通过减少变量来缓解
  • 欠拟合可以通过正则化来解决

SVM模型通过最大化边界实现线性分类, 以下哪个可以使得SVM实现非线性分类

  • kernel
  • 松弛变量
  • 对偶空间求解
  • SMO算法

以下关于贝叶斯网络和马尔科夫网络说法正确的是

  • 贝叶斯网络是有向图, 而马尔科夫网络是无向图
  • 贝叶斯网络和马尔科夫网络都是无向图, 只是网络结构差别
  • 贝叶斯网络和马尔科夫网络都是有向图, 只是网络结构差别
  • 贝叶斯网络为无向图, 而马尔科夫网络是有向图

 

隐马尔可夫模型三个基本问题以及相应的算法说法正确的是( )

  • 评估—前向后向算法
  • 解码—维特比算法
  • 学习—Baum-Welch算法
  • 学习—前向后向算法

以下描述错误的是:

  • SVM是这样一个分类器,他寻找具有最小边缘的超平面,因此它也经常被称为最小边缘分类器(minimal margin classifier)
  • 在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。
  • 在决策树中,随着树中结点数变得太大,即使模型的训练误差还在继续减低,但是检验误差开始增大,这是出现了模型拟合不足的问题。
  • 聚类分析可以看作是一种非监督的分类。

一般,k-NN最近邻方法在( )的情况下效果较好

  • 样本较多但典型性不好
  • 样本较少但典型性好
  • 样本呈团状分布
  • 样本呈链状分布

考虑如下数据集,其中Customer ID(顾客id),Transaction ID(事务id),Items Bought(购买项)。如果将每个事务id看成一个购物篮,计算项集{e}, {b, d}, {b, d, e}的支持度:

  • s({e}) =0.8s({b, d})= 0.2s({b, d, e})= 0.2
  • s({e}) =0.7s({b, d})= 0.3s({b, d, e})= 0.3
  • s({e}) =0.6s({b, d})= 0.4s({b, d, e})= 0.3
  • s({e}) =0.8s({b, d})= 0.1s({b, d, e})= 0.1

某单位想做一个基于数据挖掘的系统,该系统有一份调查问卷。希望一个高中生通过回答调查问卷中的问题,然后系统可以判断出该学生适合读大学的什么专业。如果调查问卷已经设计好了。 请说明应该如何收集数据?应该使用哪一类数据挖掘任务来完成该系统?

在现实的数据挖掘任务中,举例说明收集的数据会有什么样的噪声数据,请说明一般有哪些噪声数据处理方法?

比如,在收集野外的气象数据的时候,每一个自动化收集站都会收集气压,气温,雨量,方向等数据。如果由于传感器灵敏度的原因,收集的数据会有误差,这些数据就属于噪声数据。噪声数据处理的方法一般有处理方法一般有分箱,聚类,回归这些处理方法。(需要回答得更详细一点)

对于数据:{12,9,7,6,20,100,35,21,11,18,25,37}

1) 计算它的平均值,20%的截断均值和中位数,并说明这三个统计特征在描述数据集方面的特点。
2)使用MIN-MAX规范方法将值其中的6,100,35转换到[0,1]。
3) 对数据按照深度为4进行划分,再写出按边界值进行平滑后的结果。解释一下一般会因为什么目的对数据进行平滑处理。

1)答案:平均值是25.08,20%的截断均值(两端各去掉两个数以后的平均值)是 18.8,,中位数是19。

2)规范化后,转换后的值为(0,1,0.31)

3)深度为4进行划分,得到三个箱(6,7,9,11),(12,18,20,21),(25,35,37,100)

边界值平滑后的结果为(6,6,11,11),(12,12,21,21),(25,25,25,100)

边界平滑不应该是(6,6,11,11)(12,21,21,21)(25,25,25,100)吗?
画出如下数据的FP树,并按支持度阈值是2找到频繁项集。

序号

事务
1 M,O,N,K,E,Y
2 D,O,N,K,E,Y
3 M,A,K,E
4 M,U,C,K,Y
5 C,O,K,I,E
6 Y,M,K,O

 

 

 

 

 

 

 

 

 

 

 

 

假设描述学生的信息包含属性:性别,籍贯,年龄。有两条记录 p , q 和 C1 , C2 的信息如下,分别求出记录和簇彼此之间的距离。
p={ 男,广州, 18}
q={ 女,韶关, 20}
C1={ 男: 25 ,女: 5 ;广州: 20 ,深圳: 6 ,韶关: 4 ; 20}
C2={ 男: 3 ,女: 12 ;汕头: 12 ,深圳: 1 ,韶关: 2 ; 24}
请举例说明什么是关联数据挖掘任务?
 答:关联分析任务是发现各因素之间的相关性。比如分析购物篮中的商品之间的销售关系,挖掘哪些商品容易被一起购买。

如下表所示的数据集。请写出按属性A和B划分时的信息增益的计算表达式。不需要计算出最后结果。并回答计算信息增益在分类算法中的作用。

A B 类标号
T F *
T T *
T T *
T F #
T T *
F F #
F F #
F F #
T #
T F #

 

信息增益表示特征X使得类y的不确定性减少的程度
某学校对入学的新生进行性格问卷调查,没有心理学家的参与,根据学生对问题的回答,把学生的性格分成了 8 个类别。请说明该数据挖掘任务是属于分类任务还是聚类任务?为什么?并利用该例说明聚类分析和分类分析的异同点。
聚类任务,因为没有明确的标签说明这8类性格具体是什么性格,所以是按照相关性聚成8种不同的类的聚类任务,分类与聚类之间的区别是所得的类是否有明确标签(教师信号),若是有明确的标签则为分类,去明确属性标签仅根据其相关性得到所需类别结果则为聚类。(个人理解是这样的)

 

 

 

有状态空间图如下,图中边上标明的数字是指边所联接的两个状态的转换,应状态的启发函数值,S为起始节点,G为目标节点。
(1)请写出用A*图搜索策略搜索从S到G的路径的算法;
(2)根据你的算法,写出每一步OPEN和CLOSED表的内容,以及当前扩展内容;
(3)分析你的算法结果,是否是最优解。如果是,分析为什么能找到最优;如果不是,并给出修改方案,使算法能找到最优解。

 

 

给你一组向量 a,b,c,d 。
a) 计算 a,b 的 Jaccard 相似系数。
b) 计算 c,d 的向量空间余弦相似度 。
c) 计算 c、d 的皮尔森相关系数 。

(1)Jaccard(a,b) = a和b各分量相同的个数 (即a和b分量的交集)/ a和b各分量总的个数(即a和b分量的并集)
(2)cos(c,d)=c*d/(||c||*||d||)
(3)设c={c1,c2,…,cn},d={d1,d2,…,dn},sum(xi)表示对x1,x2,…,xn求和。
r(c,d)=(n*sum(ci*di)-sum(ci)*sum(di))/(sqrt(n*sum(ci*ci)-sum(ci)*sum(ci)) * sqrt(n*sum(di*di)-sum(di)*sum(di)))

一监狱人脸识别准入系统用来识别待进入人员的身份,此系统一共包括识别4种不同的人员:狱警、小偷、送餐员、其他,下面哪种学习方法最适合此种应用需求?

  • 二分类问题
  • 多分类问题
  • 层次聚类问题
  • K-中心点聚类问题
  • 回归问题
  • 结构分析问题
  • 应该选B:
二分类:每个分类器只能把样本分为两类。监狱里的样本分别为狱警、小偷、送餐员、其他。二分类肯   定行不通。瓦普尼克95年提出来基础的支持向量机就是个二分类的分类器,这个分类器学习过   程就是解一个基于正负二分类推导而来的一个最优规划问题(对偶问题),要解决多分类问题
就要用决策树把二分类的分类器级联,VC维的概念就是说的这事的复杂度。
层次聚类:创建一个层次等级以分解给定的数据集。监狱里的对象分别是狱警、小偷、送餐员、或者其 他,他们等级应该是平等的,所以不行。此方法分为自上而下(分解)和自下而上(合并)两种操作方式。
K-中心点聚类:挑选实际对象来代表簇,每个簇使用一个代表对象。它是围绕中心点划分的一种规则,所以这里并不合适。
回归分析:处理变量之间具有相关性的一种统计方法,这里的狱警、小偷、送餐员、其他之间并没有什 么直接关系。
结构分析:结构分析法是在统计分组的基础上,计算各组成部分所占比重,进而分析某一总体现象的内部结构特征、总体的性质、总体内部结构依时间推移而表现出的变化规律性的统计方法。结构分析法的基本表现形式,就是计算结构指标。这里也行不通。
多分类问题: 针对不同的属性训练几个不同的弱分类器,然后将它们集成为一个强分类器。这里狱警、 小偷、送餐员 以及他某某,分别根据他们的特点设定依据,然后进行区分识别。
1 推导朴素贝叶斯分类 P(c|d),文档 d(由若干 word 组成),求该文档属于类别 c 的概率, 并说明公式中哪些概率可以利用训练集计算得到。
根据贝叶斯公式P(c|d)=(P(c)P(d|c)/P(d))。
这里,分母P(d)不必计算,因为对于每个类都是相等的。
分子中,P(c)是每个类别的先验概率,可以从训练集直接统计,
P(d|c)根据独立性假设,可以写成如下
P(d|c)=¥P(wi|c)(¥符号表示对d中每个词i在c类下概率的连乘),
P(wi|c)也可以从训练集直接统计得到。
至此,对未知类别的d进行分类时,类别为c=argmaxP(c)¥P(wi|c)。
2 请写出贝叶斯公式,请描述朴素贝叶斯分类方法的原理和步骤。
P(d|c)=p(d1|c)*p(d2|d1,c)*…P(dn|d1,…dn-1,c)=p(d1|c)*p(d2|c)*…p(dn|c)根据条件独立想假设,
P(c|d)=P(d|c)*P(c)/p(d),其中p(c)可以从训练样本中获得,即每个类别出现的概率,
因此P(d|c)与p(c)均可以从训练集中得到,对于所有的类别c来说,p(d)的值是一样的,不用计算
p(x|y) = p(x,y)/p(y)
       = p(y|x)*p(x)/p(y)
3 如何判定训练出的模型过拟合?
链接:https://www.nowcoder.com/questionTerminal/cdba8cf8b0114721acc21e7550f06f5c
来源:牛客网

可通过使用学习曲线Learning Curves来判断是否出现bias问题或者variance问题,借用Ng的机器学习课程ppt,
假设有high bias,学习曲线如下:
You can see both the training and test sets have poor performance, which suggests a high bias problem.
假设有high variance学习曲线如下,
You can see a large gap, indicating that cross validation error is much larger than training error and Algorithm is suffering from high variance.
上述可知,可通过绘制学习曲线Learning Curves来判断模型是否是欠拟合或者过拟合
在实际应用中我们也可以通过观察训练误差很小,而预测误差很大的模型通常过拟合

4  对于logistic regession问题(prob(t|x)=1/(1+exp(w*x+b))且label y=0或1)请给出loss function和权重w的更新公式及推导。

Logistic regression 的loss function 是log loss, 公式表达为:
w的更新公式可以由最小化loss function得到,即:
其中大括号里面的部分,等价于逻辑回归模型的对数似然函数,所以也可以用极大似然函数方法求解,
根据梯度下降法,其更新公式为:

5 下列哪个不属于常用的文本分类的特征选择算法?

  • 卡方检验值
  • 互信息
  • 信息增益
  • 主成分分析

6 语言模型的参数估计经常使用MLE(最大似然估计)。面临的一个问题是没有出现的项概率为0,这样会导致语言模型的效果不好。为了解决这个问题,需要使用:( )

  • 平滑
  • 去噪
  • 随机插值
  • 增加白噪音

 

7 下列哪个不属于CRF模型对于HMM和MEMM模型的优势( )

  • 特征灵活
  • 速度快
  • 可容纳较多上下文信息
  • 全局最优

1)CRF没有HMM那样严格的独立性假设条件,因而可以容纳任意的上下文信息。特征设计灵活(与ME一样) ————与HMM比较
(2)同时,由于CRF计算全局最优输出节点的条件概率,它还克服了最大熵马尔可夫模型标记偏置(Label-bias)的缺点。 ­­————与MEMM比较
(3)CRF是在给定需要标记的观察序列的条件下,计算整个标记序列的联合概率分布,而不是在给定当前状态条件下,定义下一个状态的状态分布。
————与ME比较

缺点:训练代价大、复杂度高

8 下列不是SVM核函数的是:

  • 多项式核函数
  • logistic核函数
  • 径向基核函数
  • Sigmoid核函数
SVM核函数包括线性核函数、多项式核函数、径向基核函数、高斯核函数、幂指数核函数、拉普拉斯核函数、ANOVA核函数、二次有理核函数、多元二次核函数、逆多元二次核函数以及Sigmoid核函数
9  我们对一批一维数据进行回归拟合。给定训练数据D=(xi ,yi ),i=1…n,其中xi ∈R是一个实数,yi ∈R是xi对应的回归坐标。我们拟使用线性,二次,高次函数对yi 进行拟合:
线性函数:f(x)=ax+b
二次函数:f(x)=ax2 +bx+c
三次函数:f(x)=ax3 +bx2 +cx+d

①我们设定最小均方误差为损失函数,请写出损失函数的具体形式。
②以二次函数拟合为例,请使用随机梯度下降(stochastic gradient decent)对损失函数进行优化,给出参数a,b,c的梯度推倒并写出算法。
③下面三图分别是一次函数,二次函数,七次函数拟合的结果,同时给出它们在D上的损失函数值依次是0.760.15,0.01。在选择用什么函数作为最终拟合函数的时候,你会有哪些考虑。本例中你学会选择哪个函数?

二次函数:∑(f(xi)-yi)*(f(xi)-yi)   (i=1…n)
对a,b,c求导
考虑损失函数的值大的大小还有模型的复杂度,避免陷入过拟合,在本例中选择二次函数。

线性函数:∑(axi+b-yi)*(axi+b-yi)   (i=1…n)

11  请计算年龄,地区,学历,收入中对用户是否使用调查产品信息增益最大的属性
[单选题]
如下表是用户是否使用某产品的调查结果()
UID 年龄 地区 学历 收入 用户是否使用调查产品
1 北方 博士
2 北方 本科
3 南方 本科
4 北方 研究生

请计算年龄,地区,学历,收入中对用户是否使用调查产品信息增益最大的属性(Log23≈0.63)

  • 年龄
  • 地区
  • 学历
  • 收入
答案:C
不用算一眼就能看出来,所有本科学历都不使用调查产品,所有非本科学历都使用了调查产品。这种可以确定的划分导致信息熵为0,信息增益最大

12

以下哪个是常见的时间序列算法模型

  • RSI
  • MACD
  • ARMA
  • KDJ
时间序列中常用预测技术  一个时间序列是一组对于某一变量连续时间点或连续时段上的观测值。
1.  移动平均法 (MA)
1.1. 简单移动平均法
设有一时间序列y1,y2,…, 则按数据点的顺序逐点推移求出N个数的平均数,即可得到一次移动平均数.
 1.2 趋势移动平均法  
当时间序列没有明显的趋势变动时,使用一次移动平均就能够准确地反映实际情况,直接用第t周期的一次移动平均数就可预测第1t+周期之值。
时间序列出现线性变动趋势时,用一次移动平均数来预测就会出现滞后偏差。修正的方法是在一次移动平均的基础上再做二次移动平均,利用移动平均滞后偏差的规律找出曲线的发展方向和发展趋势,然后才建立直线趋势的预测模型。故称为趋势移动平均法。
2.  自回归模型(AR)
AR模型是一种线性预测,即已知N个数据,可由模型推出第N点前面或后面的数据(设推出P点).
本质类似于插值,其目的都是为了增加有效数据,只是AR模型是由N点递推,而插值是由两点(或少数几点)去推导多点,所以AR模型要比插值方法效果更好。
3. 自回归滑动平均模型(ARMA)
其建模思想可概括为:逐渐增加模型的阶数,拟合较高阶模型,直到再增加模型的阶数而剩余残差方差不再显著减小为止。
4. GARCH模型
回归模型。除去和普通回归模型相同的之处,GARCH对误差的方差进行了进一步的建模。特别适用于波动性的分析和预测。
5. 指数平滑法
移动平均法的预测值实质上是以前观测值的加权和,且对不同时期的数据给予相同的加权。这往往不符合实际情况。
指数平滑法则对移动平均法进行了改进和发展,其应用较为广泛。
基本思想都是:预测值是以前观测值的加权和,且对不同的数据给予不同的权,新数据给较大的权,旧数据给较小的权。
根据平滑次数不同,指数平滑法分为:一次指数平滑法、二次指数平滑法和三次指数平滑法等。

13

[单选题]

下列时间序列模型中,哪一个模型可以较好地拟合波动性的分析和预测

  • AR模型
  • MA模型
  • ARMA模型
  • GARCH模型
AR模型:自回归模型,是一种线性模型
MA模型:移动平均法模型,其中使用趋势移动平均法建立直线趋势的预测模型
ARMA模型:自回归滑动平均模型,拟合较高阶模型
GARCH模型:广义回归模型,对误差的方差建模,适用于波动性的分析和预测
14

关于线性回归的描述,以下正确的有:

  • 基本假设包括随机干扰项是均值为0,方差为1的标准正态分布
  • 基本假设包括随机干扰项是均值为0的同方差正态分布
  • 在违背基本假设时,普通最小二乘法估计量不再是最佳线性无偏估计量
  • 在违背基本假设时,模型不再可以估计
  • 可以用DW检验残差是否存在序列相关性
  • 多重共线性会使得参数估计值方差减小

一元线性回归的基本假设有
1、随机误差项是一个期望值或平均值为0的随机变量;
2、对于解释变量的所有观测值,随机误差项有相同的方差;
3、随机误差项彼此不相关;
4、解释变量是确定性变量,不是随机变量,与随机误差项彼此之间相互独立;
5、解释变量之间不存在精确的(完全的)线性关系,即解释变量的样本观测值矩阵是满秩矩阵;
6、随机误差项服从正态分布

违背基本假设的计量经济学模型还是可以估计的,只是不能使用普通最小二乘法进行估计。
当存在异方差时,普通最小二乘法估计存在以下问题: 参数估计值虽然是无偏的,但不是最小方差线性无偏估计。

杜宾-瓦特森(DW)检验,计量经济,统计分析中常用的一种检验序列一阶 自相关 最常用的方法。

所谓多重共线性(Multicollinearity)是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。影响

(1)完全共线性下参数估计量不存在
(2)近似共线性下OLS估计量非有效
多重共线性使参数估计值的方差增大,1/(1-r2)为方差膨胀因子(Variance Inflation Factor, VIF)
(3)参数估计量经济含义不合理
(4)变量的显著性检验失去意义,可能将重要的解释变量排除在模型之外
(5)模型的预测功能失效。变大的方差容易使区间预测的“区间”变大,使预测失去意义。
15

下列哪些方法可以用来对高维数据进行降维:

  • LASSO
  • 主成分分析法
  • 聚类分析
  • 小波分析法
  • 线性判别法
  • 拉普拉斯特征映射
lasso通过参数缩减达到降维的目的;
pca就不用说了
线性鉴别法即LDA通过找到一个空间使得类内距离最小类间距离最大所以可以看做是降维;
小波分析有一些变换的操作降低其他干扰可以看做是降维
拉普拉斯请看这个http://f.dataguru.cn/thread-287243-1-1.html
16

下列方法中,可以用于特征降维的方法包括()

  • 主成分分析PCA
  • 线性判别分析LDA
  • 深度学习SparseAutoEncoder
  • 矩阵奇异值分解SVD
  • 最小二乘法LeastSquares

 

17

关于支持向量机SVM,下列说法错误的是()

  • L2正则项,作用是最大化分类间隔,使得分类器拥有更强的泛化能力
  • Hinge 损失函数,作用是最小化经验分类错误
  • 分类间隔为1/||w||,||w||代表向量的模
  • 当参数C越小时,分类间隔越大,分类错误越多,趋于欠学习

 

 

 

18

影响聚类算法效果的主要原因有:( )?

  • 特征选取
  • 模式相似性测度
  • 分类准则
  • 已知类别的样本质量
19

类域界面方程法中,不能求线性不可分情况下分类问题近似或精确解的方法是?

  • 伪逆法
  • 感知器算法
  • 基于二次准则的H-K算法
  • 势函数法
20

位势函数法的积累势函数K(x)的作用相当于Bayes判决中的()

  • 后验概率
  • 先验概率
  • 类概率密度
  • 类概率密度与先验概率的乘积
21

统计模式分类问题中,当先验概率未知时,可以使用()

  • 最小最大损失准则
  • 最小误判概率准则
  • 最小损失准则
  • N-P判决
A. 考虑p(wi)变化的条件下,是风险最小
B. 最小误判概率准则, 就是判断p(w1|x)和p(w2|x)哪个大,x为特征向量,w1和w2为两分类,根据贝叶斯公式,需要用到先验知识
C. 最小损失准则,在B的基础之上,还要求出p(w1|x)和p(w2|x)的期望损失,因为B需要先验概率,所以C也需要先验概率
D. N-P判决,即限定一类错误率条件下使另一类错误率为最小的两类别决策,即在一类错误率固定的条件下,求另一类错误率的极小值的问题,直接计算p(x|w1)和p(x|w2)的比值,不需要用到贝叶斯公式_
22

以下关于PMF(概率质量函数),PDF(概率密度函数),CDF(累积分布函数)描述错误的是()

  • PDF描述的是连续型随机变量在特定取值区间的概率
  • CDF是PDF在特定区间上的积分
  • PMF描述的是离散型随机变量在特定取值点的概率
  • 有一个分布的CDF函数H(x),则H(a)等于P(X<=a)
概率质量函数 (probability mass function,PMF)是离散随机变量在各特定取值上的概率。
概率密度函数(p robability density function,PDF )是对 连续随机变量定义的,本身不是概率,只有对连续随机变量的取值进行积分后才是概率。
累积分布函数(cumulative distribution function,CDF) 能完整描述一个实数随机变量X的概率分布,是概率密度函数的积分。对於所有实数x ,与pdf相对。

23

已知一组数据的协方差矩阵P,下面关于主分量说法错误的是()

  • 主分量分析的最佳准则是对一组数据进行按一组正交基分解, 在只取相同数量分量的条件下,以均方误差计算截尾误差最小
  • 在经主分量分解后,协方差矩阵成为对角矩阵
  • 主分量分析就是K-L变换
  • 主分量是通过求协方差矩阵的特征值得到

 

 

24

在Logistic Regression 中,如果同时加入L1和L2范数,会产生什么效果()

  • 可以做特征选择,并在一定程度上防止过拟合
  • 能解决维度灾难问题
  • 能加快计算速度
  • 可以获得更准确的结果

 

25

在分类问题中,我们经常会遇到正负样本数据量不等的情况,比如正样本为10w条数据,负样本只有1w条数据,以下最合适的处理方法是()

  • 将负样本重复10次,生成10w样本量,打乱顺序参与分类
  • 直接进行分类,可以最大限度利用数据
  • 从10w正样本中随机抽取1w参与分类
  • 将负样本每个权重设置为10,正样本权重为1,参与训练过程
26

在HMM中,如果已知观察序列和产生观察序列的状态序列,那么可用以下哪种方法直接进行参数估计()

  • EM算法
  • 维特比算法
  • 前向后向算法
  • 极大似然估计
EM算法: 只有观测序列,无状态序列时来学习模型参数,即Baum-Welch算法
维特比算法: 用动态规划解决HMM的预测问题,不是参数估计
前向后向:用来算概率
极大似然估计:即观测序列和相应的状
27
以下几种模型方法属于判别式模型的有
1)混合高斯模型
2)条件随机场模型
3)区分度训练
4)隐马尔科夫模型
  • 1,4
  • 3,4
  • 2,3
  • 1,2

28

以下说法中正确的是()

  • SVM对噪声(如来自其他分布的噪声样本)鲁棒
  • 在AdaBoost算法中,所有被分错的样本的权重更新比例相同
  • Boosting和Bagging都是组合多个分类器投票的方法,二者都是根据单个分类器的正确率决定其权重
  • 给定n个数据点,如果其中一半用于训练,一般用于测试,则训练误差和测试误差之间的差别会随着n的增加而减少
29

基于二次准则函数的H-K算法较之于感知器算法的优点是()?

  • 计算量小
  • 可以判别问题是否线性可分
  • 其解完全适用于非线性可分的情况
  • 其解的适应性更好
 30

在统计模式识分类问题中,当先验概率未知时,可以使用()?

  • 最小损失准则
  • N-P判决
  • 最小最大损失准则
  • 最小误判概率准则
在贝叶斯决策中,对于先验概率p(y),分为已知和未知两种情况。
1. p(y)已知,直接使用贝叶斯公式求后验概率即可;
2. p(y)未知,可以使用聂曼-皮尔逊决策(N-P决策)来计算决策面。
最大最小损失规则主要就是使用解决最小损失规则时先验概率未知或难以计算的问题的。
30

在()情况下,用分支定界法做特征选择计算量相对较少?

  • 选用的可分性判据J具有可加性
  • 选用的可分性判据J对特征数目单调不减
  • 样本较多
正确答案:B D
该算法的主要思路是:定义一个满足单调性条件的评价准则函数,对两个特征子集S1和S2而言,如果S1是S2的子集, 那么S1所对应的评价函数值必须要小于S2所对应的评价函数值,在定义了该评价函数的前提下,该算法对最终特征子集的选择过程可以用一棵树来描述,树根是所有特征的集合从树根可分性判据值和事先定义的最佳特征子集的特征数目,搜索满足要求的特征子集
但存在3个问题:
1于该算法无法对所有的特征依据其重要性进行排序!如何事先确定最优特征子集中特征的数目是一个很大的问题2合乎问题要求的满足单调性的可分性判据难以设计3当处理高维度多分类问题时!算法要运行多次!计算效率低下的问题将非常明显
31

以下()属于线性分类器最佳准则?

  • 感知准则函数
  • 贝叶斯分类
  • 支持向量机
  • Fisher准则

正确答案:A C D

线性分类器有三大类:感知器准则函数、SVM、Fisher准则,而贝叶斯分类器不是线性分类器。
感知器准则函数:代价函数J=-(W*X+w0),分类的准则是最小化代价函数。感知器是神经网络(NN)的基础,网上有很多介绍。
SVM:支持向量机也是很经典的算法,优化目标是最大化间隔(margin),又称最大间隔分类器,是一种典型的线性分类器。(使用核函数可解决非线性问题)
Fisher准则:更广泛的称呼是线性判别分析(LDA),将所有样本投影到一条远点出发的直线,使得同类样本距离尽可能小,不同类样本距离尽可能大,具体为最大化“广义瑞利商”。
贝叶斯分类器:一种基于统计方法的分类器,要求先了解样本的分布特点(高斯、指数等),所以使用起来限制很多。在满足一些特定条件下,其优化目标与线性分类器有相同结构(同方差高斯分布等),其余条件下不是线性分类。

32

有两个样本点,第一个点为正样本,它的特征向量是(0,-1);第二个点为负样本,它的特征向量是(2,3),从这两个样本点组成的训练集构建一个线性SVM分类器的分类面方程是()

  • 2x+y=4
  • x+2y=5
  • x+2y=3
  • 以上都不对
查看正确选项
正确答案:D
x+2y=3是间隔最大,也就是最佳的分类超平面,本题只是说,需要求一个超平面,并没有说求最佳的那个;——所以x+2y=5,作为x+2y=3的平行平面,当然也是一个分割超平面

33

以下几种模型方法属于判别式模型(Discriminative Model)的有()
1)混合高斯模型
2)条件随机场模型
3)区分度训练
4)隐马尔科夫模型
  • 2,3
  • 3,4
  • 1,4
  • 1,2
查看正确选项
正确答案:A

常见的判别式模型有:

Logistic regression

Linear discriminant analysis

Supportvector machines

Boosting

Conditional random fields

Linear regression

             Neural networks

 常见的生成式模型有:

Gaussian mixture model and othertypes of mixture model

Hidden Markov model

NaiveBayes

AODE

Latent Dirichlet allocation

Restricted Boltzmann Machine

 

 

 

34

Nave Bayes是一种特殊的Bayes分类器,特征变量是X,类别标签是C,它的一个假定是:()

  • 各类别的先验概率P(C)是相等的
  • 以0为均值,sqr(2)/2为标准差的正态分布
  • 特征变量X的各个维度是类别条件独立随机变量
  • P(X|C)是高斯分布
查看正确选项
正确答案:C
朴素贝叶斯的条件就是每个变量相互独立

35

已知两个一维模式类别的类概率密度函数为:
先验概率P(ω1)=0.6;P(ω2)=0.4,则样本{x1=1.35,x2=1.45,x3=1.55,x4=1.65}各属于哪一类别?

  • X4 ∈ w2
  • X3 ∈ w1
  • X2 ∈ w1
  • X1 ∈ w1
查看正确选项
正确答案:A B C D
概率问题基本上都是贝叶斯和全概率互相扯蛋,,他们之间往往可以通过条件概率建立联系。
本题中,要判断 x属于w1,还是w2,就是判断 p(w1 | xi)  和 p(w2 | xi)的大小关系。即在xi已经发生的情况下,xi 属于哪个类别(w1 ,w2)的可能性更大。
p(w1 | xi) = p(xiw1) / p(xi) = p(xi | w1) * p(w1) / p(xi) = 0.6*(2 – xi) / p(xi)   // 因为xi都在 (1,2)范围
p(w2 | xi) = p(xiw2) / p(xi) = p(x| w2) * p(w2) / p(xi) = 0.4*(x– 1) / p(xi)   // 因为xi都在 (1,2)范围
上面两等式相减,得:
delta = p(w1 | xi) – p(w2 | xi) = (1.6 – xi) / p(xi)
所以,在上诉样本中,大于1.6的,属于w2,小于1.6的,属于w1。
看了很多公司的概率题基本上都是在贝叶斯和全概率上面扯,掌握这个套路就行。

36

输入图片大小为200×200,依次经过一层卷积(kernel size 5×5,padding 1,stride 2),pooling(kernel size 3×3,padding 0,stride 1),又一层卷积(kernel size 3×3,padding 1,stride 1)之后,输出特征图大小为:

  • 95
  • 96
  • 97
  • 98
  • 99
  • 100
查看正确选项
正确答案:C
1层卷积:
(200-5+2)/2+1=99
池化:
(99-3)+1=97
2层卷积:
(97-3+2)/1+1=97

37

假定某同学使用Naive Bayesian(NB)分类模型时,不小心将训练数据的两个维度搞重复了,那么关于NB的说法中正确的是:

  • 这个被重复的特征在模型中的决定作用会被加强
  • 模型效果相比无重复特征的情况下精确度会降低
  • 如果所有特征都被重复一遍,得到的模型预测结果相对于不重复的情况下的模型预测结果一样。
  • 当两列特征高度相关时,无法用两列特征相同时所得到的结论来分析问题
  • NB可以用来做最小二乘回归
  • 以上说法都不正确
查看正确选项
正确答案:B D
NB的核心在于它假设向量的所有分量之间是独立的。
在贝叶斯理论系统中,都有一个重要的条件独立性假设:假设所有特征之间相互独立,这样才能将联合概率拆分
 38
学校图书馆共有 300 万册图书,想统计其中 Computer , Science ,计算机,科学这几个词出现的次数,并按照自然年度分类,如 2016 年出版的书籍中这几个词各自出现的次数, 2015 年······依次类推。
链接:https://www.nowcoder.com/questionTerminal/0b09751acbb64f9d8c63706052748cd4
来源:牛客网

将每本书都存在hdfs里作为一个文件,文件名为 时间(4位年份)+书的id+书的名称。
使用mapreduce进行运算,map输出为<日期,computer次数;science次数;计算机次数;科学次数>,reduce输出同样,不过作为value的字符串中的次数为总次数。代码如下:
    public static class MyMapper extends Mapper<LongWritable,Text,Text,Text>{       
        
        private static Text outputKey = new Text();
        private static Text outputValue = new Text();
   
        @Override
        protected void map(LongWritable key, Text value, Context context)
                throws IOException, InterruptedException { 
        //得到hdfs文件名
        String filename = ((FileSplit) context.getInputSplit()).getPath().getName();
        String date = filename.substring(0, 4);
       
        //分别统计computer,science,计算机,科学出现的次数
        int computer = 0;
        int science = 0;
        int jisuanji = 0;
        int kexue = 0;
       
        String line = value.toString();
        String[] words = line.split(" ");
        for(String s:words){
        if(s.equals("computer")) computer++;
        if(s.equals("science")) science++;
        if(s.equals("计算机")) jisuanji++;
        if(s.equals("科学")) kexue++;
        }
       
        String outputVal = "" + computer + ";" + science + ";" + jisuanji + ";" + kexue;
        outputKey.set(date);
        outputValue.set(outputVal);
        context.write(outputKey, outputValue);
                             
        }
  }
    
    public static class MyReducer extends Reducer<Text, Text, Text, Text> {

    @Override
protected void reduce(Text key, Iterable<Text> values,Context context)
throws IOException, InterruptedException {
    int allComputer = 0;
    int allScience = 0;
    int allJisuanji = 0;
    int allKexue = 0;
   
    for(Text value:values){
    String val = value.toString();
    String[] str = val.split(";");
    allComputer += Integer.parseInt(str[0]);
    allScience += Integer.parseInt(str[1]);
    allJisuanji += Integer.parseInt(str[2]);
    allKexue += Integer.parseInt(str[3]);
    }
   
    String finalVal = "" + allComputer + ";" + allScience + ";" + allJisuanji + ";" + allKexue;
    context.write(key, new Text(finalVal));    
    } 
  }

 

 

39

以下哪些算法是基于规则的分类器()

  • KNN
  • ANN
  • NaiveBayes
  • C4.5
D。基于规则的分类器有决策树、随机森林、Aprior。
1.决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。
2.在机器学习中,随机森林是一个包含多个决策树的分类器, 并且其输出的类别是由个别树输出的类别的众数而定。
3.在关联规则挖掘领域最经典的算法法是Apriori,其致命的缺点是需要多次扫描事务数据库。
D选项:C4.5算法是一个分类决策树算法。

 

40

在某些规划的分类器中,依据规划质量的某种度量对规划排序,保证每一个测试记录都是由覆盖它的‘最好的’规格来分类,这种方案称为()

  • 基于规格的排序方案
  • 基于度量的排序方案
  • 基于规则的排序方案
  • 基于类的排序方案
41

 下面属于维归约的线性代数技术的有:

  • 奇异值分解
  • 特征加权
  • 主成分分析
  • 特征提取
42

以下关于人工神经网络(ANN)的描述错误的有()

  • 至少含有一个隐藏层的多层神经网络
  • 可以处理冗余特征
  • 训练ANN是一个很耗时的过程
  • 神经网络对训练数据中的噪声非常敏感
ABCD. D项神经网络对于噪声并不敏感,适度的噪声还能带来准确率的提升 A是存在单神经元神经网络诸如对mnist进行softmax分类;C的话目前运算性能除了深度神经网络,浅层的都很快;D的应用有降噪自动编码机,噪声能提高准确率。B还真想不起啥例子…
43

以下描述不是解决overfitting问题的是()

  • 使用regularization
  • SVM中从多项式核转向使用高斯核
  • 拿更多的数据
  • 数据清洗,去掉一些noise
选B.高斯核函数会使得模型变得更加复杂,提升VC维,更加容易过拟合。
44

评论分类模型好坏的指标是()

  • 准确率与召回率
  • 准确率与置信度
  • 准确率与提升度
  • 置信度与提升度
A。http://www.cnblogs.com/acmpirlo21/p/5515859.html
评价模型好坏,不仅看accuracy,还要根据实际情况看别的指标,比如预测地震这类正负样本不平衡的情况,应看recall和precision。

45

下列有关SVM说法不正确的是()

  • SVM使用核函数的过程实质是进行特征转换的过程
  • SVM对线性不可分的数据有较好的分类性能
  • SVM因为使用了核函数,因此它没有过拟合的风险
  • SVM的支持向量是少数的几个数据点向量
46

以下哪项关于决策树的说法是错误的()

  • 寻找最佳决策树是NP完全问题
  • 冗余属性不会对决策树的准确率造成不利的影响
  • 子树可能在决策树重复多次
  • 决策树算法对于噪声的干扰非常敏感

 

 

47

常见的分箱方法有哪些()

  • 等宽
  • 等频
  • 聚类法
  • 自定义区间

 

分箱:分箱方法是一种简单常用的预处理方法,通过考察相邻数据来确定最终值。所谓“分箱”,实际上就是按照属性值划分的子区间,如果一个属性值处于某个子区间范围内,就称把该属性值放进这个子区间所代表的“箱子”内。把待处理的数据(某列属性值)按照一定的规则放进一些箱子中,考察每一个箱子中的数据,采用某种方法分别对各个箱子中的数据进行处理。在采用分箱技术时,需要确定的两个主要问题就是:如何分箱以及如何对每个箱子中的数据进行平滑处理。

分箱的方法:有4种:等深分箱法、等宽分箱法、最小熵法和用户自定义区间法。

统一权重,也成等深分箱法,将数据集按记录行数分箱,每箱具有相同的记录数,每箱记录数称为箱子的深度。这是最简单的一种分箱方法。

统一区间,也称等宽分箱法,使数据集在整个属性值的区间上平均分布,即每个箱的区间范围是一个常量,称为箱子宽度。

用户自定义区间,用户可以根据需要自定义区间,当用户明确希望观察某些区间范围内的数据分布时,使用这种方法可以方便地帮助用户达到目的。

 

 

48

下面哪个算法不能起到降维的作用()

  • GBDT
  • LDA
  • PCA
  • SVD
选A。GBDT是一种boosting算法,不能用于降维。
49

()是一个观测值,它与其他观测值的差别如此之大,以至于怀疑它是由不同的机制产生的

  • 边界点
  • 离群点
  • 核心点
  • 质心

 

 

50

决策树中不包含以下哪种结点()

  • 根结点
  • 内部结点
  • 叶结点
  • 外部结点
类比于一棵二叉树进行理解:
根节点(决策节点)必然有,内部节点(测试节点),叶子节点在末端
51
链接:https://www.nowcoder.com/questionTerminal/4c2c36fa2e7a4c64a144a7de9af5cfe6
来源:牛客网

下列购物篮能够提取的3项集的最大数量是多少 ()
 ID购买项
1. 牛奶,啤酒,尿布
2. 面包,黄油,牛奶
3. 牛奶,尿布,饼干
4. 面包,黄油,饼干
5. 啤酒,饼干,尿布
6. 牛奶,尿布,面包,黄油
7. 面包,黄油,尿布
8. 啤酒,尿布
9. 牛奶,尿布,面包,黄油
10. 啤酒,饼干

  • 3
  • 1
  • 4
  • 2
52
下面有关regularization说法不正确的是()

  • L2 regularization 将倾向得到普遍较小较光滑的模型权值
  • L1 regularization将倾向得到某些维度为0的模型权值
  • regularization是对模型权值进行某种限制的一种方式
  • 因为损失函数加入了regularization项,会使模型变得更加复杂一些

 

53

下面公式中,哪一个不是损失函数
A
B
C
D
D
D不是损失函数。AB是均方误差损失函数,C是0-1损失函数。
54

Apriori算法的计算复杂度受()影响

  • 项数(维度)
  • 事务平均宽度
  • 事务数
  • 支持度阀值
ABCD是会影响复杂度,但是如果单选感觉D更正确。 因为例如A,维度变多其实存在于是存储变大,但是如果支持度阀值本来很大,多余的维度可能在第一次就被剔除掉,感觉之后就并不会影响计算量了。而且支持度阀值的改变,是直接影响存在频繁项的多少问题。  当然这只是个人看法,感觉应该ABCD更为合理。
55

以下哪种距离会侧重考虑向量的方向()

  • 欧式距离
  • 海明距离
  • Jaccard距离
  • 余弦距离

D

选择D.余弦距离,余弦距离距离定义为1-余弦相似度,而余弦相似度的计算公式为两个向量的点积除以模积。两个向量夹角越小,余弦距离就越小。
56

当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离()

  • 聚类
  • 关联分析
  • 分类
  • 隐马尔科夫

 

 

 

57

数据挖掘的预测建模任务主要包括哪几大类问题()

  • 模式发现
  • 回归
  • 分类
  • 模式匹配

 

58

使用交互式的可视化技术,队数据进行探索属于数据挖掘的哪一类任务()

  • 寻找模式和规则
  • 建模描述
  • 探索性数据分析
  • 预测建模
c:explanatory data analysis(EDA)
59

关于 logit 回归和 SVM 不正确的是()

  • Logit回归目标函数是最小化后验概率
  • Logit回归可以用于预测事件发生概率的大小
  • SVM目标是结构风险最小化
  • SVM可以有效避免模型过拟合

A. Logit回归本质上是一种根据样本对权值进行极大似然估计的方法,而后验概率正比于先验概率和似然函数的乘积。logit仅仅是最大化似然函数,并没有最大化后验概率,更谈不上最小化后验概率。A错误 B. Logit回归的输出就是样本属于正类别的几率,可以计算出概率,正确 C. SVM的目标是找到使得训练数据尽可能分开且分类间隔最大的超平面,应该属于结构风险最小化,严格来说也是错误的。 D. SVM可以通过正则化系数控制模型的复杂度,避免过拟合。

60
在一次 深度学习 的研讨会上,Andrew NG出席了这次会议。遗憾的是,在这个会上的学者没有一个是他认识的,而出席会议的其他学者,每个人都认识Andrew NG。其他学者之间,有些是A认识B,B不认识A,也有些事A和B相互都不认识。我们要通过询问学者的方式,找出谁是Andrew NG。询问的时候可以任意找一个人X,问X是否认识Y。假设一共有N位学者出席会议,每次询问算一次操作,请问通过这种询问的方式确定谁是Andrew NG的最优复杂度是()

  • O(N*logN)
  • O(logN)
  • O(N)
  • O(N*N)
选a啊 分治策略。 两两比较,只有三种情况。 互不认识,都认识,一个认识另一个,ng只存在第三种情况被认识的那个。 树高最多为lgn,每层比较为n 所以是nlogn
61
62

(一)问题描述

在一个3*3的方棋盘上放置着1,2,3,4,5,6,7,8八个数码,每个数码占一格,且有一个空格。这些数码可以在棋盘上移动,其移动规则是:与空格相邻的数码方格可以移入空格。现在的问题是:对于指定的初始棋局和目标棋局,给出数码的移动序列。该问题称八数码难题或者重排九宫问题。

(二)问题分析

八数码问题是个典型的状态图搜索问题。搜索方式有两种基本的方式,即树式搜索和线式搜索。搜索策略大体有盲目搜索和启发式搜索两大类。盲目搜索就是无“向导”的搜索,启发式搜索就是有“向导”的搜索。

1、启发式搜索

由于时间和空间资源的限制,穷举法只能解决一些状态空间很小的简单问题,而对于那些大状态空间的问题,穷举法就不能胜任,往往会导致“组合爆炸”。所以引入启发式搜索策略。启发式搜索就是利用启发性信息进行制导的搜索。它有利于快速找到问题的解。

由八数码问题的部分状态图可以看出,从初始节点开始,在通向目标节点的路径上,各节点的数码格局同目标节点相比较,其数码不同的位置个数在逐渐减少,最后为零。所以,这个数码不同的位置个数便是标志一个节点到目标节点距离远近的一个启发性信息,利用这个信息就可以指导搜索。即可以利用启发信息来扩展节点的选择,减少搜索范围,提高搜索速度。

  启发函数设定。对于八数码问题,可以利用棋局差距作为一个度量。搜索过程中,差距会逐渐减少,最终为零,为零即搜索完成,得到目标棋局。

(三)数据结构与算法设计

该搜索为一个搜索树。为了简化问题,搜索树节点设计如下:

struct Chess//棋盘

{

       int cell[N][N];//数码数组

       int Value;//评估值

       Direction BelockDirec;//所屏蔽方向

       struct Chess * Parent;//父节点

};

int cell[N][N];    数码数组:记录棋局数码摆放状态。

int Value;        评估值:记录与目标棋局差距的度量值。

Direction BelockDirec; 所屏蔽方向:一个屏蔽方向,防止回推。

Direction enum Direction{None,Up,Down,Left,Right};//方向枚举

struct Chess * Parent;  父节点:指向父亲节点。

下一步可以通过启发搜索算法构造搜索树。

1、局部搜索树样例:

2、搜索过程

  搜索采用广度搜索方式,利用待处理队列辅助,逐层搜索(跳过劣质节点)。搜索过程如下:

  1)、把原棋盘压入队列;

  2)、从棋盘取出一个节点;

  3)、判断棋盘估价值,为零则表示搜索完成,退出搜索;

  4)、扩展子节点,即从上下左右四个方向移动棋盘,生成相应子棋盘;

5)、对子节点作评估,是否为优越节点(子节点估价值小于或等于父节点则为优越节点),是则把子棋盘压入队列,否则抛弃;

  5)、跳到步骤(2);

3、算法的评价

完全能解决简单的八数码问题,但对于复杂的八数码问题还是无能为力。现存在的一些优缺点。

1、可以改变数码规模(N),来扩展成N*N的棋盘,即扩展为N数码问题的求解过程。

2、  内存泄漏。由于采用倒链表的搜索树结构,简化了数据结构,但有部分被抛弃节点的内存没有很好的处理,所以会造成内存泄漏;

3、  采用了屏蔽方向,有效防止往回搜索(节点的回推),但没能有效防止循环搜索,所以不能应用于复杂度较大的八数码问题;

 

 

67

BP神经网络的学习算法属于(   )

  • 增强学习
  • 无监督学习
  • 有监督学习
  • 深度学习

 

 

68

有如下图的一个单个神经元组成的神经网络,阈值为令权向量为[w0,w1,w2],则以下哪个权向量成“或”逻辑(            )

  • [0,0,0]
  • [-1,0,1]
  • [1,2,2]
  • [-0.5,1,1]
69

宽度优先算法中,新生成的节点会怎样处理(            )

  • 插入OPEN表的前端
  • 插入OPEN表的末端
  • 计算估价函数值
  • 继续扩展出后继节点

因为是放在队列中,要先进先出

70
决定神经网络的三个主要因素是 1 、 2 和 3 。
阈值,隐藏层层数,节点数
神经元特性(激活函数),网络结构,学习算法
71

BP算法中,输出层节点的误差计算与隐层节点的误差计算是不同的,输出层节点的误差计算公式为 1,隐层节点的误差计算公式为 2 。

输出层
Errj = Oj(1-Oj)(Ti-Oj)    其中Oj是单元j的实际输出,Tj是神经单元根据已知样本的真实输出
隐层
Errj = Oj(1-Oj)sigma(Errk*wkj)    其中wkj是神经单元k到j的连接权重,Errk是单元误差

Leave a Reply

Your email address will not be published. Required fields are marked *