阅读笔记——基于大数据的数据模式挖掘研究

Posted on 2019-12-25 | In 数据挖掘 |

Words count in article 6.5k | Reading time 6 mins.

目录

2. 日志数据挖掘

2.1 特征工程难点

难以快速理解复杂的业务逻辑和业务背景
基础数据不全面、不完整
某些数据的采集非常有难度，或是暂时没有行之有效的采集和处理方法，如某些自然语言的特征

2.2 日志数据挖掘目标

2.2.1 多维分析

在不同维度上对数据进行汇总和整理，并通过结合业务问题，或者与其他对象进行对比，以期发现相同的规律或业务内在流程和提升方式。通过对数据进行定期的总结，可以实现对业务在实际数据上的全盘掌握。

利用传统的统计方法来统计数据库中的数据或进行多维数据查询和计算。

日志数据挖掘——使用平台对日志进行统计分析和可视化。

2.2.2 关联分析

通过对数据项集之间的共现关系的计算，以及对于项集间的支持度和置信度的要求，从而导出项集之间的关联规则。

日志数据挖掘——对warning日志的因果关联分析，进行错误检测。

2.2.3 分类和预测

通过对已有数据和结论进行分析来对未知事物进行判断。

日志数据挖掘——对warning日志的分析来进行故障的预测。

2.2.4 聚类分析

根据对象在各维度上的相似性判别指标进行聚类，使得在同一个类中的对象可以无监督地进行类别区分。

日志数据挖掘——通过对web日志数据的聚类分析，对web日志进行聚类以减少页面数据量。

2.2.5 孤立点分析

虽然孤立点在进行规律总结是会被认为是异常点或是噪声，从而被排除。但是在某些应用中国，孤立点本省就是挖掘的目的所在。

日志数据挖掘——通过对使用日志的异常点分析，从而发现登录数据中的异常登录行为。

2.2.6 时间序列分析

数据的属性值随时间不断变化，而且这类变化还可能与时间周期有一定关系。这些数据一般在相等或不等的时间间隔内取得，通过时间序列图的方法还可以对时间序列数据进行可视化，更直观地发现序列规律。

2.3 日志数据挖掘常用算法

2.3.1 分类与回归预测算法

算法名称	算法描述	使用场景	示例代码
BP(Back Propagation, 反向传播)	按误差逆传播算法训练的多层反馈网络	电信客户分析识别
LM(Levenberg-Marquardt)	基于梯度下降法和牛顿法结合的优化算法，特点是迭代次数少，收敛速度快，精准度高	证券策略投资、水质样本评价
FNN(Fuzzy Neural Network, 模糊神经网络)	具有模糊权系数或者输入信号是模糊量的神经网络，是模糊系统和神经网络相结合的产物，汇聚了神经网络和模糊系统的优点	用户服务感知
RBF(Radial Basis Function, 径向基函数)	具有单隐层的三层前馈网络。是一种局部逼近网络，能够以任意精度逼近任意连续函数，特别适合解决分类问题。	桩基完整性检测、企业客户关系分析
ANFIS(Adaptive Neural Fuzzy Inference System, 自适应神经模糊推理网络)	功能上与一阶T-S模糊推理系统等价的自适应网络	交叉路口信号灯控制
WNN(Wavelet Neural Network, 小波神经网络)	基于小波变换而构成的神经网络模型，即用非线性小波基代替通常的神经元非线性激励函数	智能复合材料应变损伤位置的诊断
SVM(Support Vector Machine, 支持向量机)	支持向量机根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折中	生物质废物混合厌氧消化有事组合互补机制
CART(Classification And Regression Tree, 分类与回归树)	非参数分类和回归方法，通过构建树、修建树、评估树来构建一个二叉树	纳税评估模型
朴素贝叶斯	根据特征属性，计算某个输入分类项属于某个类别的概率，选择其中最大的作为其类别	检测SNS社区中不真实账户
贝叶斯网络	基于概率推理的图形化网络	解决复杂设备不确定性和关联性引起的故障

2.3.2 聚类算法

类别	主要算法	示例
划分（分裂）方法	K-means(K-平均值)
	K-MEDOIDS(K-中心值)
	CLARAND(基于选择的算法)
层次方法	BIRCH(平衡迭代规约和聚类)
	CURE(代表点聚类)
	CHAMELEON(动态模型)
基于密度的方法	DBSCAN(基于高密度连续区域)
	DENCLUE(密度分布函数)
	OPTICS(对象排序识别)
基于网格的方法	STING(统计信息网络)
	CLIOUE(聚类高维空间)
	WAVE-CLUSTER(小波变换)
基于模型的方法	统计学方法
	神经网络方法

2.3.3 关联规则

算法名称	算法描述	示例
Apriori	挖掘布尔关联规则频繁项集的算法。核心是基于两阶端频基思想的递推算法
FP-Tree	不产生候选挖掘频繁项集的方法
灰色关联法	分析和确定各因素之间的影响程度或若干子因素（子序列）对主因素（母序列）的贡献程度而进行的一种分析方法
HotSpot	挖掘得到通过树状结构显示的感兴趣的目标最大化/最小化的一套规则，最大化/最小化的利益目标变量/值

0%