离散处理是一个训练集预处理的方法,用于将连续的数值属性转化为离散的数值属性。离散数值属性在数据挖掘的过程中具有重要的作用。
简介在数字计算机上对连续系统进行仿真时,首先遇到的问题是如何解决数字计算机在数值及时间上的离散性与被仿真系统数值及时间上的连续性这一基本问题。从根本意义上讲,数字计算机所进行的数值计算仅仅是“数字”计算,它表示数值的精度受限于字长,这将引入舍入误差;另一方面,这种计算是按指令一步一步进行的,因而,还必须将时间离散化,这样就只能得到离散时间点上系统性能。用数字仿真的方法对微分方程的数值积分是通过某种数值计算方法来实现的。任何一种计算方法都只能是原积分的一种近似。因此,连续系统仿真,从本质上是对原连续系统从时间、数值两个方面对原系统进行离散化,并选择合适的数值计算方法来近似积分运算,由此得到的离散模型来近似原连续模型。如何保证离散模型的计算结果从原理上确能代表原系统的行为,这是连续系统数字仿真首先必须解决的问题。1
离散处理一般步骤对连续特征进行离散化处理,一般经过以下步骤:
(1)对此特征进行排序。特别是对于大数据集,排序算法的选择要有助于节省时间,提高效率,减少离散化的整个过程的时间开支及复杂度。
(2)选择某个点作为候选点,用所选取的具体的离散化方法的尺度来衡量候选选点是否满足要求。
(3)若候选点满足离散化的衡量尺度,则对数据集进行分裂或合并,再选择下一个候选点,重复步骤(2)(3)。
(4)当离散算法存在停止准则时,如果满足停止准则,则不再进行离散化过程,从而得到最终的离散结果。
离散处理方法的分类及特点离散化方法依据不同的需求沿着不同的主线发展至今,目前已存在很多不同离散化方法的分类体系。不同的分类体系强调离散化方法间的区别的不同方面。主要的分类体系有有监督的和无监督的、动态的和静态的、全局的和局部的、分裂式的(从上至下)和合并式的(从下至上)、单变量的和多变量的以及直接的和增量式的。
根据离散化方法是否在离散化过程当中使用数据集的类别标注信息,离散化方法可以分为有监督的离散化方法和无监督的离散化方法。其中无监督的离散化方法在离散化过程当中无需使用类别信息,这类方法的典型代表是分箱方法,包括等宽度分箱和等频率分箱。分箱方法使用箱均值或箱中位数替换箱中的每一个值来将数据离散化。实际应用中,分箱方法效果不佳,特别是当数值数据分布不均匀的时候。有监督的离散化方法在离散化过程当中需要使用类别信息。以前的研究表明,有监督的方法比无监督的方法效果要好。
离散化方法也常以动态或静态的分类方法来区分。动态的离散化方法就是在建立分类模型的同时对连续特征进行离散化。静态的离散化方法就是在进行分类之前完成离散化处理。
根据离散化过程是否是针对整个训练数据空间的,离散化方法又可分为全局的和局部的。全局的离散化方法使用所有的实例,而局部的离散化方法只是用一部分的实例。
离散化方法还可分为从上至下的和从下至上的,也可称为分裂式的和合并式的。分裂的离散化方法起始的分裂点列表是空的,通过离散化过程逐渐往列表中加入分裂点,而合并的离散化方法则是将所有的连续值都看作可能的分裂点,再逐渐合并相邻区域的值形成区间。
单变量的离散化方法是指一次只对数据集的一个特征进行离散化,而多变量的离散化是同时考虑数据集的多个特征及其相互关联关系进行离散化,需要考虑更多的因素,算法更加复杂。
另外一种离散化方法的分类是直接式的和增量式的。直接式的离散化方法就是根据额外给定的参数(离散化所需得到的区间数等)一次性形成所有的分裂点,而增量式的离散化方法是根据某个准则逐渐的将离散化结果进行改进,直到满足准则的停止条件为止。2
离散处理结果的评价不同的离散化方法会产生不同的离散化结果。优良的离散化,应使划分尽可能简约,又尽可能多的保留由样本数据代表的对象的固有特性。
离散化结果的好坏可以从以下几方面来考虑:(1)区间的个数。这也是对模型简洁性的要求。理论上来说,离散得到的区间数越少越好,便于理解,但区间数目的减少另一方面也会导致数据的可理解性变差; (2) 离散化所导致的不一致性。离散化之后数据的不一致性不能比离散化之前更高。这一点是对模型一致性的要求。(3)预测准确性。即对模型准确性的要求。这一点通常通过交叉检验模式建立分类树来衡量。
本词条内容贡献者为:
张静 - 副教授 - 西南大学离散处理
图文简介
离散处理是一个训练集预处理的方法,用于将连续的数值属性转化为离散的数值属性。离散数值属性在数据挖掘的过程中具有重要的作用。
- 来源: 科普中国科学百科
- 上传时间:2018-06-21
科普中国公众号
科普中国微博

帮助