目录
阅读顺序
《数据挖掘:概念与技术(第三版)》
数据挖掘入门导论章节
章节 | 内容 |
---|---|
第一章 | 引论 |
第二章 | 认识数据 |
第三章 | 数据预处理 |
第六章 | 挖掘频繁模式、关联和相关性:基本概念和方法 |
第八章 | 分类:基本概念 |
第十章 | 聚类分析:基本概念和方法 |
第一章 引论
1.1 为什么需要数据挖掘
数据丰富,信息贫乏
1.2 什么是数据挖掘
数据挖掘 = 数据中的知识发现(KDD) or 知识发现过程的一个基本步骤
由以下迭代序列组成
数据清理(消除噪音和删除不一致数据)
数据集成(多种数据源可以组合在一起)
数据选择(从数据库中提取与分析任务相关的数据)
数据变换(通过汇总或狙击操作,把数据变换和统一成适合挖掘的形式)
数据挖掘(基本步骤,使用智能方法提取数据模式)
模式评估(根据某种兴趣度量,识别代表知识的真正有趣的模式。)
知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)
1.3 可以挖掘什么类型的数据
1.3.1 数据库数据
关系型数据库是数据挖掘最常见、最丰富的信息源头。
1.3.2 数据仓库
见 数据仓库
数据立方体——多维数据挖掘(详情见第四章)
1.3.3 事务数据
频繁模式挖掘
1.3.4 其他类型的数据
更高级的课题
1.4 挖掘模式
用于指定数据挖掘任务发现的模式,任务类型可分为
- 描述性
- 预测性
1.4.1 类/概念描述:特征化与区分
通过以下方法得到类/概念描述
- 数据特征化:一般地汇总目标类的数据
- 基于统计度量和图的简单数据汇总(第二章)
- 基于数据立方体的OLAP上卷操作(第四五章)
- 面向属性的归纳技术(第四章)
- 输出形式:多维表、广义关系或特征规则
- 数据区分:将目标类与一个或多个对比类进行比较
- 区分规则
- 数据特征化和区分
1.4.2 挖掘频繁模式、关联、相关性
频繁模式:数据中频繁出现的模式
- 频繁项集:例如小卖部被许多顾客频繁一起购买的啤酒和尿布
- 频繁子序列(序列模式):例如项集里的购买顺序
- 频繁子结构:将项集与子序列结合起来的数据结构
单维关联规则
以上为包含单个谓词的关联规则-> 单维关联规则,可简化为
多维关联规则
最小支持度阈值 和 最小置信度阈值
相关性
详情见第六七章
1.4.3 预测分析的分类与回归
分类模型 分类预测类别符号
- IF-THEN 规则
- 决策树——每个节点代表在一个属性值上的测试,每个分支代表测试的一个结果,树叶代表类或类分布
- 神经网络——类似神经元的处理单位,单元之间加权连接
回归建立连续值函数模型;也包含基于可用数据的分布趋势识别
相关分析 试图识别与分类和回归过程显著相关的属性
1.4.4 聚类分析
聚类分析数据对象,而不考虑类符号。
对象根据最大化类内相似性、最小化类间相似性的原则进行聚类
1.4.5 离群点分析 第十二章
- 离群点:在数据集中,与其他数据的一般行为或模型不一致的数据对象
- 检测方法
- 统计检测
- 距离度量
- 基于密度的一系列方法
1.4.6 寻找有趣的模式
1.5 使用的技术
- 统计
- 及其学习
- 数据库系统与数据仓库
- 信息检索
1.6 面向什么类型的应用
数据挖掘本身是应用驱动的学科
两个数据挖掘非常成功的应用例子
- 商务智能——是BI的核心。商务智能的联机分析处理工具依赖于数据仓库和多维数据挖掘。分类和预测技术是商务智能预测分析的核心。
- Web引擎——本质是大型数据挖掘应用
- 云计算
- 实时处理在线数据
- 在快速增长的数据流上维护和增量更新模型
- 处理出现次数不多的查询
1.7 数据挖掘的重要问题
1.7.1 挖掘方法
要考虑数据的不确定性、噪声和不完全等问题
- 挖掘各种新的知识类型
- 挖掘多维空间的知识
- 集成多学科的新方法
- 提升网络环境下的发现能力:多个数据对象之间的语义链接->链接创造知识发现
- 处理不确定性、噪声、不完全数据:数据清洗、数据预处理、离群点检测与删除、不确定推理等等
- 模式评估和模式或约束指导的挖掘
1.7.2 用户界面
- 交互挖掘:如何与数据挖掘系统交互。
- 结合背景知识:把背景知识、约束、规则和关于该领域的其他信息结合到发现过程中
- 特定的数据挖掘和数据挖掘查询语言
- 数据挖掘结果的表示和可视化
1.7.3 有效性和可伸缩性
- 数据挖掘算法的有效性和可伸缩性:驱动算法开发的关键标准
- 并行、分布式、增量挖掘算法
==> 云计算 集群计算
第二章 认识数据
2.1 数据对象与属性类型
一个数据对象代表一个实体,用属性描述。
2.1.1 什么是属性
属性(attribute)数据字段——常常等同于维度(dimension)、特征(feature)、变量(variable)。
观测——给定属性的观测值
属性向量(特征向量)——描述一个给定对象的一组属性
单变量的(univariate)——涉及一个属性或变量的数据分布
双变量的(bivariate)——涉及两个属性
2.1.2 标称属性
标称属性(normal attribute)的值是一些符号或事物的名称。每个值表示某种类别、编码、状态。因此,标称数据被看作是分类的(categorical)或枚举的(enumeration)。
标称数据没有序列,也不是定量的。
对于标称属性,均值或中位数没有意义。
众数,中心趋势度量 有意义。
特殊:二元属性
只有两个类别或状态:0或1
- 对称——两种状态具有同等价值并携带相同权重,如性别
- 非对称——状态的结果不是同样重要的,如HIV化验结果
2.1.3 序数属性
在记录不能客观度量的主观质量评估时很有用,例如满意程度从0-5排序。
其中心趋势可以用众数和中位数(有序序列的中间值)表示
,但不能定义均值。
以上属性都是定性的。
2.1.4 数值属性
数值属性(numeric attribute)是定量的,用整数或实数值表示,可以使区间标度或比率标度。
2.1.4.1 区间标度属性
例如温度,用相等的单位尺度度量
2.1.4.2 比率标度属性
例如工作年限,具有固定零点的数值属性