keywords: 数据挖掘
数据
数据对象、数据集、 属性
(数据挖掘通常是针对大量的数据对象,所以我们就需要一个集合,该集合中包含你所要处理的所有对象;数据对象需要属性来描述自己的特征)1.1 属性与度量
1)什么是属性
属性 就是对象的特征,测量标度 就是通过一个手法来衡量这个属性
2)属性类型
3)属性的不同类型
- 定性的
- 定量的
4)用值的个数描述属性
- 离散的
- 连续的
5)非对称属性
非对称属性的非零值才重要
1.2 数据集的类型
1)数据集的一般特性
- 维度: 数据集中描述数据对象属性的数目
- 稀疏性: 数据集中有多少对象某属性值是零
- 分辨率: 我觉得就是一个精度的问题
2)记录数据
数据对象的记录这个要根据实际情况选择相应的记录结果,一般都存在在数据库里面,数据库也有多种类型。
3)基于图形的数据
- 带对象之间联系的数据
- 具有图形对象的数据(例如,分子结构)
4)有序数据
5)处理非记录的数据
数据质量问题无法避免,所以数据挖掘会关注 1).数据质量的检测和纠正,即数据清理or清洗 2).使用可以容忍低质量数据的算法。
2.1 测量和数据收集问题
1)测量误差和数据收集错误
2)噪声和伪象
噪声<->测量误差 / 伪象<-> 数据错误(是更加具有确定性)
3)精度、偏倚、准确率
- 精度(precision):(同一个量)重复测量值之间的接近程度,通常用值集合的标准差度量
- 偏倚(bias):测量值与被测量之间的系统的变差,通常用值集合的均值与测出的已知值(真实值)之间的差度量
- 准确率(accuracy):被测量的测量值与实际值之间的接近度(只是一个一般化概念)
4)离群点(outlier)
又称异常对象或者异常值,可以是合法的数据对象或者值,有别与噪声。基本概念是:在某种意义上不同于数据集中其他大部分数据对象的特征的数据对象,或者是相对于该属性的典型值来说不寻常的属性值。
5)遗漏值
应对策略
- 删除数据对象或者属性
- 估计遗漏值
- 在分析时忽略遗漏值
6)不一致的值
7)重复数据
2.2 关于应用的问题
时效性、相关性、关于数据的知识
3.1 聚集(aggregation)
将两个或多个对象合并成单个对象
3.2 抽样
抽样最重要的是要能使得丑出的样本具有代表性
抽样会带来信息的损失,所以要确实适当的样本容量1)抽样方法
- 简单随机抽样:无放回抽样+有放回抽样
- 分层抽样
- 渐进抽样:样本的容量很难确定时,就从小样本开始,逐渐增加样本容量,并评估样本质量
3.3 维归约
维归约就是减少属性的数目
1)维灾难
2)维归约的线性代数技术
主成分分析(PCA)、奇异值分解(SVD) 我想书后都有详细的讲解,就不在这里纠结了
(接下来的特征子集选择和特征创建,我觉得都是实现维归约的手段)3.4 特征子集选择
当存在冗余特征(属性)和不相关特征(属性)时,我们就要进行特征子集的选择;有三个特征选择的方法:
1)嵌入方法
这个方法是数据挖掘算法决定选择哪些属性和忽略哪些属性
2)过滤方法
使用独立于数据挖掘算法时的方法来进行特征子集的选择,在数据挖掘前选择好特征
3)包装方法
(这个名字感觉叫的怪怪的)其实就是以数据挖掘算法作为评价目标,然后各种排列组合选择子集,看哪个子集的结果是好的,但是由于时间空间的问题,所以并不是使用所有的排列组合。
- 特征子集选择体系结构:其实就是一个迭代的过程,其中最重要的是如何评估一个特征子集
- 特征加权:重要的特征的权值越大
3.5 特征创建
由原来的属性创建新的属性集
1)特征提取
2)映射数据到新的空间
3)特征构造
3.6 离散化和二元化
1)二元化
这里其实有点不够理解,回头再看
2)连续属性离散化
要解决俩个问题:如果确定有多少个分类值;哪些连续属性值映射到对应的分类值中
- 非监督离散化
- 监督离散化
3)具有过多值的分类属性
3.7 变量变换
变量变换就是属性值的变换
1)简单函数
2)规范化或标准化
这个看的我尬尬的,除了皮尔森相关系数我用过,其他的都是头一次看……(待重读)