| 所在主题: | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 文件名: spss使用教程_聚类分析与判别分析.ppt | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 资料下载链接地址: https://bbs.pinggu.org/a-1566227.html | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 附件大小: | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
在统计学的应用中,有一些方法与回归这类定量数据为主的分析不同,他们更倾向于定性的分析,比如判别,比如聚类……这类分析或许搞经济的,搞金融的不太会去使用,但在医药,咨询服务类公司则会经常(或相比经济金融界较多)使用到。今天,就来介绍一下判别分析和聚类分析。
把他们放在一起讨论,主要是因为他们都有一个“类”的概念,比如咱先看看判别分析: 判别分析又称“分辨法”,是在分类确定的条件下,根据某一研究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法。其基本原理是按照一定的判别准则,建立一个或多个判别函数,用研究对象的大量资料确定判别函数中的待定系数,并计算判别指标。据此即可确定某一样本属于何类。当得到一个新的样品数据,要确定该样品属于已知类型中哪一类,这类问题属于判别分析问题。 判别分析的类别很多,常用的有:适用于定性指标或计数资料的有最大似然法、训练迭代法;适用于定量指标或计量资料的有:Fisher二类判别、Bayers多类判别以及逐步判别。 那聚类分析呢? 聚类分析又称群分析,是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法,它们讨论的对象是大量的样品,要求能合理地按各自的特性来进行合理的分类,没有任何模式可供参考或依循,即是在没有先验知识的情况下进行的。 聚类分析的方法常用的有:系统聚类法,K-均值法,模糊聚类法,有序样品的聚类,分解法,加入法。 (如果百度过聚类分析,又点开了维基百科或者百度百科,可以发现百科里对聚类分析的算法介绍比楼主多很多,也复杂很多,还有各种算法间的比较,楼主当初也愣住了,但是看了又看,由于应用的领域不同,所以划分确实很多,但如果不是做深入数据挖掘的话,上述的几种方法已经够用了,当然你要是需要用到其他复杂的算法,那楼主的帖子估计也不适合你看,毕竟写它的目的仅仅为了普及知识而已……) Q1:什么是类别? A:类别指具有相同属性或者特征指标的个体(有的人称之为样品)的集合。用来标明相同属性、相同的特征指标,无论在判别分析还是在聚类分析中,我们都喜欢用“距离”,同一类别的个体之间距离小,不同总体的样本之间距离大。 Q2:距离是什么?有哪些距离呢? A:距离是一个原则性的定义,满足对称性、非负性。距离的分类主要有绝对距离、马氏距离、欧几里得距离(欧氏距离)。
在判别和聚类分析中,马氏距离和欧氏距离运用较多,因为欧氏距离计算相对简单,而马氏距离也有很多优点:它不受量纲的影响,两点之间的马氏距离与原始数据的测量单位无关;由标准化数据和中心化数据(即原始数据与均值之差)计算出的二点之间的马氏距离相同;马氏距离还可以排除变量之间的相关性的干扰,但它的缺点是夸大了变化微小的变量的作用。 判别分析与聚类分析的区别:
判别分析的步骤: 1、研究问题(选择对象,评估一个多元问题各组的差异,将观测个体归类,确定组与组之间的判别函数) 2、设计要点(选择解释变量,考虑样本量,简历分析样本的保留样本) 3、假定(解释变量的正态性、线性关系、解释变量间不存在多重共线性、协方差阵相等) 4、估计判别函数(联立估计或者逐步估计,判别函数的显著性) 5、判别函数的解释(需要几个判别函数) 6、评价判别函数(权重、载荷、偏F值) 判别分析的误用(假设一份分析报告点评下错误): 网友的想法:分别视4月,5月,6月三个月的离网用户数据分别为三组(GROUP),每个用户的指标包含号码、品牌 、区域 、月消费金额、计费时长、gprs流量、彩信量、短信量、数据业务取消种类、账户余额、亲情套餐捆绑、营销捆绑剩余月份 。希望通过这些指标分析出离网用户的特征,并找到阈值。 在他的分析报告中分组变量的选取:他的分组变量分为了三组,希望以月份来判别。 这里就有了第一点错误。先回忆下判别分析,假如有2个人,已知一个中国人,一个日本人,判别分析就是据此对再来一个人的归属的推断。网友希望分析出离网用户却误操作为月。 第一个问题理清后,接着出现了第二个问题,对他的分析报告认真检索发现他的数据全都是离网用户数据,不可能进行判别。 ★注:在做判别分析时fisher和贝叶斯函数都是常用的方法,但是fisher自身并不完美,所以一般做分析的时候也勾选上贝叶斯函数。除此之外,最后判别函数的书写,一定要去分Z和非Z数据。 聚类方法实例: 聚类的方法有很多,统计软件也自带很多聚类方法,画谱系图也很容易,但是考试的时候没有电脑,往往最容易考的就是让你手工计算绘图的系统聚类法(最长或最短距离进行聚类的一种),这里咱们就用一个实例来演示一下,既能阐明步骤,又能加深理解: 设有12个个体,各测了3个指标
1、计算各类(个体间)的距离 a2与a7距离(2)最近,将其合并,并命名为G13。重新计算其他10类与G13之间的距离,它们与G13间的距离按最小距离法定义,因此 D1,13=min{D1,2,D1,7}=min{13,15}=13 D3,13=min{D3,2,D3,7}=min{14,16}=14 ……以此类推,最终得到下表: 根据上表,我们可以画谱系图:纵轴为各类别,横轴为距离,最终所有类别化为一类(距离为15)。下面提供了一些相关的资料,大家可按照需要下载 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
熟悉论坛请点击新手指南
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 下载说明 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
1、论坛支持迅雷和网际快车等p2p多线程软件下载,请在上面选择下载通道单击右健下载即可。 2、论坛会定期自动批量更新下载地址,所以请不要浪费时间盗链论坛资源,盗链地址会很快失效。 3、本站为非盈利性质的学术交流网站,鼓励和保护原创作品,拒绝未经版权人许可的上传行为。本站如接到版权人发出的合格侵权通知,将积极的采取必要措施;同时,本站也将在技术手段和能力范围内,履行版权保护的注意义务。 (如有侵权,欢迎举报) |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
京ICP备16021002号-2 京B2-20170662号
京公网安备 11010802022788号
论坛法律顾问:王进律师
知识产权保护声明
免责及隐私声明