基于粗糙集理论的混合数据挖掘方法研究
在许多实际应用领域,需要处理的数据大部分是混合类型的。最常见的混合类型的数据是混合了数值型属性和符号型属性的数据。
如何针对混合属性数据进行数据挖掘已经成为一个极富挑战性的问题。本文主要基于粗糙集理论对混合数据挖掘方法展开研究。
研究内容包括不完备信息系统中对象的相似性刻画方法、混合数据的特征选择与样本选择、混合数据的不平衡分类方法与异常值检测方法。主要取得了以下四个方面的研究成果:第一部分,基于已有的不完备信息系统粗糙集扩展模型,进一步研究了不完备信息系统中对象之间的相似关系刻画方法,提出了邻域-容差粗糙集模型、变精度容差粗糙集模型和变精度邻域-容差粗糙集模型并讨论了相关性质。
其中,邻域-容差粗糙集模型和变精度邻域-容差粗糙集模型可以处理混合数据。另外,给出了邻域-容差关系下信息熵及条件熵的概念。
并利用邻域-容差条件熵构建了一种特征选择算法。第二部分,研究了样本选择方法及基于样本的分类方法。
首先提出了一种文本选择方法。这个方法用变精度容差关系来度量文本的相似度,并用变精度容差类作为文本聚类。
通过只遍历一次文本集得到所有的文本聚类,而且这些 ...


雷达卡




京公网安备 11010802022788号







