数据挖掘——概念和技术

目录

阅读顺序

《数据挖掘:概念与技术(第三版)》

数据挖掘入门导论章节

章节 内容
第一章 引论
第二章 认识数据
第三章 数据预处理
第六章 挖掘频繁模式、关联和相关性:基本概念和方法
第八章 分类:基本概念
第十章 聚类分析:基本概念和方法

第一章 引论

1.1 为什么需要数据挖掘

数据丰富,信息贫乏

1.2 什么是数据挖掘

数据挖掘 = 数据中的知识发现(KDD) or 知识发现过程的一个基本步骤

由以下迭代序列组成

  1. 数据清理(消除噪音和删除不一致数据)

  2. 数据集成(多种数据源可以组合在一起)

  1. 数据选择(从数据库中提取与分析任务相关的数据)

  2. 数据变换(通过汇总或狙击操作,把数据变换和统一成适合挖掘的形式)

  3. 数据挖掘(基本步骤,使用智能方法提取数据模式)

  4. 模式评估(根据某种兴趣度量,识别代表知识的真正有趣的模式。)

  5. 知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)

1.3 可以挖掘什么类型的数据

1.3.1 数据库数据

关系型数据库是数据挖掘最常见、最丰富的信息源头。

1.3.2 数据仓库

数据仓库

数据立方体——多维数据挖掘(详情见第四章)

1.3.3 事务数据

频繁模式挖掘

1.3.4 其他类型的数据

更高级的课题

1.4 挖掘模式

用于指定数据挖掘任务发现的模式,任务类型可分为

  • 描述性
  • 预测性

1.4.1 类/概念描述:特征化与区分

通过以下方法得到类/概念描述

  1. 数据特征化:一般地汇总目标类的数据
    • 基于统计度量和图的简单数据汇总(第二章)
    • 基于数据立方体的OLAP上卷操作(第四五章)
    • 面向属性的归纳技术(第四章)
    • 输出形式:多维表广义关系或特征规则
  2. 数据区分:将目标类与一个或多个对比类进行比较
    • 区分规则
  3. 数据特征化和区分

1.4.2 挖掘频繁模式、关联、相关性

  • 频繁模式:数据中频繁出现的模式

    • 频繁项集:例如小卖部被许多顾客频繁一起购买的啤酒和尿布
    • 频繁子序列(序列模式):例如项集里的购买顺序
    • 频繁子结构:将项集与子序列结合起来的数据结构
  • 单维关联规则

    以上为包含单个谓词的关联规则-> 单维关联规则,可简化为

  • 多维关联规则

  • 最小支持度阈值最小置信度阈值

  • 相关性

详情见第六七章

1.4.3 预测分析的分类与回归

  • 分类模型 分类预测类别符号

    • IF-THEN 规则
    • 决策树——每个节点代表在一个属性值上的测试,每个分支代表测试的一个结果,树叶代表类或类分布
    • 神经网络——类似神经元的处理单位,单元之间加权连接
  • 回归建立连续值函数模型;也包含基于可用数据的分布趋势识别

  • 相关分析 试图识别与分类和回归过程显著相关的属性

1.4.4 聚类分析

聚类分析数据对象,而不考虑类符号。

对象根据最大化类内相似性最小化类间相似性的原则进行聚类

1.4.5 离群点分析 第十二章

  • 离群点:在数据集中,与其他数据的一般行为或模型不一致的数据对象
  • 检测方法
    • 统计检测
    • 距离度量
    • 基于密度的一系列方法

1.4.6 寻找有趣的模式

1.5 使用的技术

数据挖掘从其他许多领域吸纳技术

  • 统计
  • 及其学习
  • 数据库系统与数据仓库
  • 信息检索

1.6 面向什么类型的应用

数据挖掘本身是应用驱动的学科

两个数据挖掘非常成功的应用例子

  • 商务智能——是BI的核心。商务智能的联机分析处理工具依赖于数据仓库和多维数据挖掘分类和预测技术是商务智能预测分析的核心。
  • Web引擎——本质是大型数据挖掘应用
    • 云计算
    • 实时处理在线数据
    • 在快速增长的数据流上维护和增量更新模型
    • 处理出现次数不多的查询

1.7 数据挖掘的重要问题

1.7.1 挖掘方法

要考虑数据的不确定性、噪声和不完全等问题

  • 挖掘各种新的知识类型
  • 挖掘多维空间的知识
  • 集成多学科的新方法
  • 提升网络环境下的发现能力:多个数据对象之间的语义链接->链接创造知识发现
  • 处理不确定性、噪声、不完全数据:数据清洗、数据预处理、离群点检测与删除、不确定推理等等
  • 模式评估和模式或约束指导的挖掘

1.7.2 用户界面

  • 交互挖掘:如何与数据挖掘系统交互。
  • 结合背景知识:把背景知识、约束、规则和关于该领域的其他信息结合到发现过程中
  • 特定的数据挖掘和数据挖掘查询语言
  • 数据挖掘结果的表示和可视化

1.7.3 有效性和可伸缩性

  • 数据挖掘算法的有效性和可伸缩性:驱动算法开发的关键标准
  • 并行、分布式、增量挖掘算法

==> 云计算 集群计算

第二章 认识数据

2.1 数据对象与属性类型

一个数据对象代表一个实体,用属性描述。

2.1.1 什么是属性

属性(attribute)数据字段——常常等同于维度(dimension)特征(feature)变量(variable)

观测——给定属性的观测值

属性向量(特征向量)——描述一个给定对象的一组属性

单变量的(univariate)——涉及一个属性或变量的数据分布

双变量的(bivariate)——涉及两个属性

2.1.2 标称属性

标称属性(normal attribute)的值是一些符号或事物的名称。每个值表示某种类别、编码、状态。因此,标称数据被看作是分类的(categorical)枚举的(enumeration)

标称数据没有序列,也不是定量的。

对于标称属性,均值或中位数没有意义。

众数,中心趋势度量 有意义。

特殊:二元属性

只有两个类别或状态:0或1

  • 对称——两种状态具有同等价值并携带相同权重,如性别
  • 非对称——状态的结果不是同样重要的,如HIV化验结果

2.1.3 序数属性

在记录不能客观度量的主观质量评估时很有用,例如满意程度从0-5排序。

其中心趋势可以用众数和中位数(有序序列的中间值)表示

,但不能定义均值。

以上属性都是定性的

2.1.4 数值属性

数值属性(numeric attribute)是定量的,用整数或实数值表示,可以使区间标度比率标度

2.1.4.1 区间标度属性

例如温度,用相等的单位尺度度量

2.1.4.2 比率标度属性

例如工作年限,具有固定零点的数值属性

2.1.5 离散属性和连续属性

2.2 数据基本统计描述

2.2.1 中心趋势度量:均值、中位数、总数

2.2.2 度量数据散布:极差、四分位数、方差、标准差、四分位数极差

本文标题:数据挖掘——概念和技术

文章作者:松子

发布时间:2019年04月25日 - 09:04

最后更新:2022年03月27日 - 19:03

博文链接:https://songzi.info/post/f4ae35d9/

许可协议: 署名-非商业性使用-禁止演绎 4.0 国际 转载请保留原文链接及作者。

0%