1. 处理分类问题常用算法
1.1 交叉熵公式
交叉熵——设q(x) p(x)是X中取值的两个概率分布,则p对q的相对熵为
在一定程度上,相对熵可以度量两个随机变量的“距离”,且D(p||q) 与 D(q||p)不等。
两个随机变量X Y的互信息定义——X Y的联合分布和各自独立分布乘积的相对熵,用I(X,Y)表示:
1.2 LR公式——逻辑回归
9. 降维算法
在机器学习中经常会碰到一些高维的数据集,而在高维数据情形下会出现数据样本稀疏,距离计算等困难,这类问题是所有机器学习方法共同面临的严重问题,称之为“ 维度灾难 ”。另外在高维特征中容易出现特征之间的线性相关,这也就意味着有的特征是冗余存在的。基于这些问题,降维思想就出现了。
9.1 SVD奇异值分解(线性降维)
步骤
- 将矩阵A变换成一个双对角矩阵(除了两行对角线元素非零,剩下的都是零),这个过程的计算量为
,如果矩阵是稀疏的,可以大大缩短计算时间 - 将双对角矩阵变成奇异值分解的三个矩阵,这一步计算量只是第一步的零头。
SVD算法的实现
1 | class SVDReduce(object): |
示例:SVD用于图像压缩
1 | # -*- coding: utf-8 -*- |
关于SVD的结论
9.2 PCA主成分分析
思路:
数据从原来坐标转换到新坐标,由数据本身决定。