文章目录

  1. 1. 写在前面
  2. 2. Boosting
    1. 2.1. Boosting介绍
    2. 2.2. 前向分步加法模型
    3. 2.3. Boosting四大家族
  3. 3. Adaboost
    1. 3.1. 算法学习过程
    2. 3.2. 示例:AdaBoost算法
    3. 3.3. 训练误差分析
    4. 3.4. 前向分步加法模型与Adaboost
  4. 4. Boosted Decision Tree
    1. 4.1. 提升树模型
    2. 4.2. 提升树算法
  5. 5. Gradient Boosting
  6. 6. Boosting利器
  • author: zhouyongsdzh@foxmail.com
  • date: 2015-11-12
  • weibo: @周永_52ML

Continue reading

 

第二篇的文章中谈到,和部门老大一宁出去outing的时候,他给了我相当多的机器学习的建议,里面涉及到很多的算法的意义、学习方法等等。一宁上次给我提到,如果学习分类算法,最好从线性的入手,线性分类器最简单的就是LDA,它可以看做是简化版的SVM,如果想理解SVM这种分类器,那理解LDA就是很有必要的了。

谈到LDA,就不得不谈谈PCA,PCA是一个和LDA非常相关的算法,从推导、求解、到算法最终的结果,都有着相当的相似。

本次的内容主要是以推导数学公式为主,都是从算法的物理意义出发,然后一步一步最终推导到最终的式子,LDA和PCA最终的表现都是解一个矩阵特征值的问题,但是理解了如何推导,才能更深刻的理解其中的含义。本次内容要求读者有一些基本的线性代数基础,比如说特征值、特征向量的概念,空间投影,点乘等的一些基本知识等。除此之外的其他公式、我都尽量讲得更简单清楚。

LDA:
Continue reading

 

在上面的图中,M=1,000,000,N=500,000。第 i 行,第 j 列的元素,是字典中第 j 个词在第 i 篇文章中出现的加权词频(比如,TF/IDF)。读者可能已经注意到了,这个矩阵非常大,有一百万乘以五十万,即五千亿个元素。

奇异值分解就是把上面这样一个大矩阵,分解成三个小矩阵相乘,如下图所示。比如把上面的例子中的矩阵分解成一个一百万乘以一百的矩阵X,一个一百乘以一百的矩阵B,和一个一百乘以五十万的矩阵Y。这三个矩阵的元素总数加起来也不过1.5亿,仅仅是原来的三千分之一。相应的存储量和计算量都会小三个数量级以上。


Continue reading

 一、PCA:
PCA
图1.寻找主成分方向
    PCA的中文名叫做主成分分析,是降维和去噪的一种重要方法。PCA选取包含信息量最多的方向对数据进行投影。其投影方向可以从最大化方差或者最小化投影误差两个角度理解(详细推导见机器学习圣经PRML)。假设有n×dn×d矩阵X,每一行是一个dd维样本xixi,寻找投影方向vjvj以最大化投影方差:
Continue reading