全站搜索
基于粗集理论的数据过滤方法的研究
作者:管理员    发布于:2015-12-17 08:59:58    文字:【】【】【

  1传统的特征选择方法1.1过滤方法过滤方法是分类之前采用预处理将有用的特征选择出来。

  它的主要特点:(1小的特征子集。缺点是有可能将例如ID号之类的特征选出来作为睢一的特征集。

  (2避出了高维的特征采用精度,一致性,倍息论,距离,依赖性作为特征选择的评价标准。缺点是冗余属性与分类属性相对应,不利于冗余属性的走向。

  1.2经典的特征选择方法步骤)产生过程(generation):产生下一个候选子集,采用完全搜索、启发式搜索或随机搜索策略。

  (2胖价函数。包括距离、倍息、依赖性、一致性和分类错误率等。

  2粗糙集基本概念粗糙集理论的出发点是雁据目前已有的对给定问题的知识的论域进行划分,然后对划分后的每一个组成部分确定其对某一概念的支持程度背定支持,肯定不支持,可能支持,分别用三个近似集合表示为正域、负域、边界/:/)伪决策系统其中f/为非空有限集,称为论域;4为属性集合;4由条件属性C和决策属性D称为不可分辨关系,如下定义:用f//IND(P)ft表二元关系IND(P舶所有等价类,简写为定义3令的/下近似集,是通过知识/能肯定划归到集合Z中的的所有元素的集合。可形式的定义为:定义4正域:D的C正域是指通过属性集C能肯定划归到f//D的等价类的f/中元素集合。形式的定义为:定义5必要属性和不必要属性:令feC /是不必要的,:属性集。计算机应用,2. AbrahamSilberschatz杨冬青等译。数据库系统概念。机械工业出版社。2003 3.黄为民,白晚东。软构件技术及其在数据库中的应用。计算机工程与4.杨芙清。软件复用与软件构件技术。电子学报,1999(上接176页)STEP2计算差别矩阵令r=(f/z/:刀堤一个决策表其中:,…

  二ae(7J二a(巧)且(deD/i()!二d(巧))j/=1二,是将与,分类到不同类别的属性的集合。

  CORE是差别矩阵中单个元素的集合:实际上,CORE中元素就是靠单个属性就能差中元素的属性集合。

  矩阵中不包括CORE中任意属性的元素采用布尔联结,展开后,得到的不同的表达式,再加上CORE中属性,即为reduction.集,¢=A(anVai2V…V(),将展开化简,得到析取式/,……Qn.)取出属性个数小的REDUCTION,如只有一个,则该REDUCTION即为终所求的REDUCTION.(2)属性个数小的REDUCTION有多个时,计算每个REDUCTION的任意两个属性之间的条件倍息熵。

  (3对于任意的REDUCTION,计算平均条件倍息熵。

  6小结文章提出了一种消除数据冗余的粗糙集特征选择算法。利用非一致性数据处理得到一致性论域后,用粗糙集方法得到CORE和多个可能的REDUCTION.然后用倍息论知识计算各REDUCTION中各元素的相关性,平均倍息熵小说明各元素的相关性小取该REDUCTION作为后的属性集。

  (收稿曰期2004年12月)

访问统计
51客服