想获取数据挖掘软件SmartMining的伙伴可以留言或者私信我。分 类
分类是数据挖掘中应用非常广泛的一项技术,利用分类算法可以从数据集中提取描述数据类的一个函数或模型,并把数据集中的每个对象归结到某个已知的类别中。从机器学习的观点,分类属于监督学习,每个训练样本的数据对象已经有类标识,通过学习可以形成表达数据对象与类标识间对应的知识。数据挖掘的目标就是根据样本数据形成的类知识并对数据进行分类,以预测未来数据的归类。分类具有广泛的应用,例如医疗诊断、信用卡的信用分级、图像模式识别、营销用户画像等。
分类挖掘所获的分类模型可以采用多种形式加以描述输出。其中主要的表示方法有:分类规则、决策树、数学公式和神经网络等。
聚 类
聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类的目的是使得属于同类别的对象之间的差别尽可能的小,而不同类别上的对象的差别尽可能的大。因此,聚类的意义就在于将观察到的内容依据相应算法组织成类分层结构,把类似的事物组织在一起。与分类技术不同,在机器学习中,聚类是一种无监督学习。也就是说,聚类是在预先不知道欲划分类的情况下,根据信息相似度原则进行信息聚类的一种方法。通过聚类,人们能够识别密集的和稀疏的区域,因而发现全局的分布模式,以及数据属性之间的有趣的关系。
从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。常见的聚类算法包括:K-均值聚类算法、K-中心点聚类算法、层次聚类、DBScan、EM聚类、层次聚类等。聚类分析广泛应用于金融、营销、电力、交通、教育等多种行业领域。
聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析所使用方法的不同,常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析,所得到的聚类数未必一致。
更多分类与聚类算法相关内容可以查看这篇文章
http://mp.weixin.qq.com/s/oGf1uAFtyNgiymLYpZV8cw