特征选择
从特征集合中挑选一组最具统计意义的特征子集,从而达到降维的效果。
- filter(刷选器)方法,主要侧重于单个特征跟目标变量的相关性
- 优点是计算时间上较高效,对于过拟合问题也具有较高的鲁棒性。
- 缺点就是倾向于选择冗余的特征,因为他们不考虑特征之间的相关性,有可能某一个特征的分类能力很差,但是它和某些其它特征组合起来会得到不错的效果。
- wrapper(封装器)和Embeded(集成方法)
- 优点是考虑了特征与特征之间的关联性
- 缺点是当观测数据较少时容易过拟合,而当特征数量较多时,计算时间又会增长。
- Embeded集成方法
特征提取
自动地构建新的特征,将原始特征转换为一组具有明显物理意义(Gabor、几何特征[角点、不变量]、纹理[LBP HOG])或者统计意义或核的特征。
- PCA (Principal component analysis,主成分分析)
- ICA (Independent component analysis,独立成分分析)
- LDA (Linear Discriminant Analysis,线性判别分析)
特征构建
从原始数据中人工的构建新的特征