特征工程

特征选择

从特征集合中挑选一组最具统计意义的特征子集,从而达到降维的效果

  • filter(刷选器)方法,主要侧重于单个特征跟目标变量的相关性
    • 优点是计算时间上较高效,对于过拟合问题也具有较高的鲁棒性。
    • 缺点就是倾向于选择冗余的特征,因为他们不考虑特征之间的相关性,有可能某一个特征的分类能力很差,但是它和某些其它特征组合起来会得到不错的效果。
  • wrapper(封装器)和Embeded(集成方法)
    • 优点是考虑了特征与特征之间的关联性
    • 缺点是当观测数据较少时容易过拟合,而当特征数量较多时,计算时间又会增长。
  • Embeded集成方法

特征提取

自动地构建新的特征,将原始特征转换为一组具有明显物理意义(Gabor、几何特征[角点、不变量]、纹理[LBP HOG])或者统计意义或核的特征

  • PCA (Principal component analysis,主成分分析)
  • ICA (Independent component analysis,独立成分分析)
  • LDA (Linear Discriminant Analysis,线性判别分析)

特征构建

从原始数据中人工的构建新的特征

本文标题:特征工程

文章作者:松子

发布时间:2020年01月03日 - 20:01

最后更新:2022年03月21日 - 23:03

博文链接:https://songzi.info/post/8ae97bf8/

许可协议: 署名-非商业性使用-禁止演绎 4.0 国际 转载请保留原文链接及作者。

0%