聚类一粗糙集方法(研究复杂指标、分类模糊的指标、指标间存在复杂非线性关系,而需计算各指标的权重时用此法):一种基于粗糙集理论的聚类算法。聚类就是一种将数据对象的组台分组为由类似对象组成的多个类的分析过程(即类似的对象分为一类)。一个簇中的实例彼此相同。在簇中那些表示数据类别的公类或分组信息是没有的。“类似”的判定是通过定义一个距离或相似性系数。聚类分析可使复杂结构数据标准化,发现数据项间的依赖关系,从而去除或合并这类数据,也可为某些数据挖掘方法(如关联规则、粗糙集方法)提供预处理功能。
粗糙集理论:一种处理不精确 、不确定、不完全数据的数学方法 。主要思想是在保持分类能力不变的前提下,通过知识约简,导出问题的决策或分类规则。其中有几个相关需要概念:论域:我们感兴趣的对象组成的集合,类似数字里面的集合。 知识:论域的任何一个子集,包括空集,是对论域进行分类的能力,一般由特征属性进行分类。 知识库:论域中的一个个知识簇组成。 不可分辨关系:如果在表达中, 由于缺乏一定的知识,不能将已知信息系统中的某些对象区分开, 那么这些对象之间就是不分辨关系(等价关系 )(如以“黑白”作为知识区分,那黑猫与黑狗就是等价关系小)。 基本集:论域中互不可分表的对象组成的集合。 精确集和粗糙集:如果论域可以由知识中的一个或多个子集组合而成(不单出一个或几个对象),就成为精确集,否则为粗糙集。 上近似和下近似:上近似指包含给定集合X元素的最小可定义集。下近似是它含于X的最大可定集。 正域 、负域与边界域:论域被上下近似划分为三个不相交区域。粗糙集理论的优势在于不需提供处理数据集之外的任何先验信息,仅需通过观测数据,剔除冗余信息,并分析系统中各属性间的依赖性与重要性。