1 什么是文本挖掘?

文本挖掘是信息挖掘的一个研究分支,用于基于文本信息的知识发现。文本挖掘的准备工作由文本收集、文本分析和特征修剪三个步骤组成。目前研究和应用最多的几种文本挖掘技术有:文档聚类、文档分类和摘要抽取。

2 什么是自然语言处理?

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究人与计算机之间用自然语言进行有效通信的理论和方法。融语言学、计算机科学、数学等于一体的科学。
自然语言处理原理:形式化描述-数学模型算法化-程序化-实用化
语音的自动合成与识别、机器翻译、自然语言理解、人机对话、信息检索、文本分类、自动文摘等。

3 常用中文分词?

中文文本词与词之间没有像英文那样有空格分隔,因此很多时候中文文本操作都涉及切词,这里整理了一些中文分词工具。
StanfordNLP(直接使用CRF 的方法,特征窗口为5。)汉语分词工具(个人推荐)

哈工大语言云

庖丁解牛分词

盘古分词  ICTCLAS(中科院)汉语词法分析系统

IKAnalyzer(Luence项目下,基于java的)

FudanNLP(复旦大学)

Continue reading

k-means 怎么优化选取k

1、减少聚类的数目K。因为,每个样本都要跟类中心计算距离。
2、减少样本的特征维度。比如说,通过PCA等进行降维。
3、考察其他的聚类算法,通过选取to据,去测试聚类算法的性能。

4、hadoop集群,K-means算法是很容易进行并行计算的。

kmeans一般在数据分析前期使用,选取适当的k,将数据聚类后,然后研究不同聚类下数据的特点。

算法原理:

(1) 随机选取k个中心点;

(2) 在第j次迭代中,对于每个样本点,选取最近的中心点,归为该类;

(3) 更新中心点为每类的均值;

(4) j<-j+1 ,重复(2)(3)迭代更新,直至误差小到某个值或者到达一定的迭代步数,误差不变.

空间复杂度o(N)

时间复杂度o(I*K*N)

其中N为样本点个数,K为中心点个数,I为迭代次数

Continue reading

机器学习
贝叶斯公式 公式的证明

朴素贝叶斯公式 公式的证明

HMM公式

HMM分词步骤

CRF公式

CRF 词性标注步骤

SVM
超平面的推理
核函数应用的推导

线性回归的证明

逻辑回归的证明

常用激活函数的听写

常用损失函数/代价函数

L1正则函数 公式

L2正则函数 公式

Neo4j 基本语句

Spark Ghahx 使用

流程理清说明:
分词
文本分类
命名实体识别
摘要提取
词相似度提取
情感判定
用户意图判定

1、机器学习的数学基础1 – 数学分析

机器学习的一般方法和横向比较
数学是有用的:以SVD为例
机器学习的角度看数学
复习数学分析
直观解释常数e
导数/梯度
随机梯度下降
Taylor展式的落地应用
gini系数
凸函数
Jensen不等式
组合数与信息熵的关系

 

Continue reading

log

在数学中,对数是对求幂的逆运算,正如除法是乘法的倒数,反之亦然。 这意味着一个数字的对数是必须产生另一个固定数字(基数)的指数。 在简单的情况下,乘数中的对数计数因子。更一般来说,乘幂允许将任何正实数提高到任何实际功率,总是产生正的结果,因此可以对于b不等于1的任何两个正实数b和x计算对数。
如果a的x次方等于N(a>0,且a不等于1),那么数x叫做以a为底N的对数(logarithm),记作x=logaN。其中,a叫做对数的底数,N叫做真数

Continue reading

1. 实现归并排序。

def merge(left, right):
    i, j = 0, 0
    result = []
    while i < len(left) and j < len(right):
        if left[i] <= right[j]:
            result.append(left[i])
            i += 1
        else:
            result.append(right[j])
            j += 1
    result += left[i:]
    result += right[j:]
    return result
 
def merge_sort(lists):
    # 归并排序
    if len(lists) <= 1:
        return lists
    num = len(lists) / 2
    left = merge_sort(lists[:num])
    right = merge_sort(lists[num:])
    return merge(left, right)

Continue reading