请选择 进入手机版 | 继续访问电脑版
楼主: 胖胖小龟宝
5970 12

[学科前沿] 【从零开始学统计】11.物以类聚,人以群分! [推广有奖]

大师

21%

还不是VIP/贵宾

-

TA的文库  其他...

龟宝的档案室

威望
3
论坛币
793110 个
通用积分
21906.8556
学术水平
2211 点
热心指数
2133 点
信用等级
1424 点
经验
978650 点
帖子
10001
精华
25
在线时间
4757 小时
注册时间
2012-7-27
最后登录
2020-12-21

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
       在统计学的应用中,有一些方法与回归这类定量数据为主的分析不同,他们更倾向于定性的分析,比如判别,比如聚类……这类分析或许搞经济的,搞金融的不太会去使用,但在医药,咨询服务类公司则会经常(或相比经济金融界较多)使用到。今天,就来介绍一下判别分析和聚类分析。
       把他们放在一起讨论,主要是因为他们都有一个“类”的概念,比如咱先看看判别分析:
       判别分析又称“分辨法”,是在分类确定的条件下,根据某一研究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法其基本原理是按照一定的判别准则,建立一个或多个判别函数,用研究对象的大量资料确定判别函数中的待定系数,并计算判别指标。据此即可确定某一样本属于何类。当得到一个新的样品数据,要确定该样品属于已知类型中哪一类,这类问题属于判别分析问题。
       判别分析的类别很多,常用的有:适用于定性指标或计数资料的有最大似然法、训练迭代法;适用于定量指标或计量资料的有:Fisher二类判别、Bayers多类判别以及逐步判别。

那聚类分析呢?
       聚类分析又称群分析,是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法,它们讨论的对象是大量的样品,要求能合理地按各自的特性来进行合理的分类,没有任何模式可供参考或依循,即是在没有先验知识的情况下进行的。
       聚类分析的方法常用的有:系统聚类法,K-均值法,模糊聚类法,有序样品的聚类,分解法,加入法。 (如果百度过聚类分析,又点开了维基百科或者百度百科,可以发现百科里对聚类分析的算法介绍比楼主多很多,也复杂很多,还有各种算法间的比较,楼主当初也愣住了,但是看了又看,由于应用的领域不同,所以划分确实很多,但如果不是做深入数据挖掘的话,上述的几种方法已经够用了,当然你要是需要用到其他复杂的算法,那楼主的帖子估计也不适合你看,毕竟写它的目的仅仅为了普及知识而已……)

Q1:什么是类别?
A:类别指具有相同属性或者特征指标的个体(有的人称之为样品)的集合。用来标明相同属性、相同的特征指标,无论在判别分析还是在聚类分析中,我们都喜欢用“距离”,同一类别的个体之间距离小,不同总体的样本之间距离大。

Q2:距离是什么?有哪些距离呢?
A:距离是一个原则性的定义,满足对称性、非负性。距离的分类主要有绝对距离、马氏距离、欧几里得距离(欧氏距离)。
  • 绝对距离:平面直角坐标系中两点的横坐标的差的绝对值与纵坐标的差的绝对值的和叫做这两点的绝对距离(引自百度百科),通俗点的话我们常说的这栋楼高100米,这就是一个绝对距离,它的前提是需要一个水平点。
  • 马氏距离:用来表示数据的协方差距离,用来计算两个未知样本集的相似度设有两个个体(点)X与Y(假定为一维数据,即在数轴上)是来自均数为,协方差阵为的总体(类别)A的两个个体(点),则个体X与Y的马氏距离为 1.jpg
,类似地可以定义个体X与总体(类别)A的距离为 2.jpg
  • 欧几里德距离(欧氏距离):是一个通常采用的距离定义,指在m维空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离)。二维平面上两点a(x1,y1)与b(x2,y2)间的欧氏距离: 3.jpg


           在判别和聚类分析中,马氏距离和欧氏距离运用较多,因为欧氏距离计算相对简单,而马氏距离也有很多优点:它不受量纲的影响,两点之间的马氏距离与原始数据的测量单位无关;由标准化数据和中心化数据(即原始数据与均值之差)计算出的二点之间的马氏距离相同;马氏距离还可以排除变量之间的相关性的干扰,但它的缺点是夸大了变化微小的变量的作用。


    判别分析与聚类分析的区别:

    聚类分析

    判别分析

    基本原理

    将个体(样品)或者对象(变量)按相似程度(距离远近)划分类别,使得同一类中的元素之间的相似性比其他类的元素的相似性更强。目的在于使类间元素的同质性最大化和类与类间元素的异质性最大化。

    从已知的各种分类情况中总结规律(训练出判别函数),当新样品进入时,判断其与判别函数之间的相似程度(概率最大,距离最近,离差最小等判别准则)  

    假设条件

    对变量的多元正态性,方差齐性等要求较高

    分组类型在两组以上,解释变量必须是可测的;每个解释变量不能是其它解释变量的线性组合;各解释变量之间服从多元正态分布,且各组解释变量的协方差矩阵相等

    应用领域

    细分市场,消费行为划分,设计抽样方案等

    对客户进行信用预测,寻找潜在客户,临床上用于鉴别诊断



    判别分析的步骤:
    1、研究问题(选择对象,评估一个多元问题各组的差异,将观测个体归类,确定组与组之间的判别函数)
    2、设计要点(选择解释变量,考虑样本量,简历分析样本的保留样本)

    3、假定(解释变量的正态性、线性关系、解释变量间不存在多重共线性、协方差阵相等)
    4、估计判别函数(联立估计或者逐步估计,判别函数的显著性)
    5、判别函数的解释(需要几个判别函数)
    6、评价判别函数(权重、载荷、偏F值)

    判别分析的误用(假设一份分析报告点评下错误):
    网友的想法:分别视4月,5月,6月三个月的离网用户数据分别为三组(GROUP),每个用户的指标包含号码、品牌 、区域 、月消费金额、计费时长、gprs流量、彩信量、短信量、数据业务取消种类、账户余额、亲情套餐捆绑、营销捆绑剩余月份 。希望通过这些指标分析出离网用户的特征,并找到阈值。
    在他的分析报告中分组变量的选取:他的分组变量分为了三组,希望以月份来判别。
    这里就有了第一点错误。先回忆下判别分析,假如有2个人,已知一个中国人,一个日本人,判别分析就是据此对再来一个人的归属的推断。网友希望分析出离网用户却误操作为月。
    第一个问题理清后,接着出现了第二个问题,对他的分析报告认真检索发现他的数据全都是离网用户数据,不可能进行判别。

    ★注:在做判别分析时fisher和贝叶斯函数都是常用的方法,但是fisher自身并不完美,所以一般做分析的时候也勾选上贝叶斯函数。除此之外,最后判别函数的书写,一定要去分Z和非Z数据。

    聚类方法实例:
    聚类的方法有很多,统计软件也自带很多聚类方法,画谱系图也很容易,但是考试的时候没有电脑,往往最容易考的就是让你手工计算绘图的系统聚类法(最长或最短距离进行聚类的一种),这里咱们就用一个实例来演示一下,既能阐明步骤,又能加深理解:

    设有12个个体,各测了3个指标



    编号



    指标



    X1



    X2



    X3



    1



    5



    7



    10



    2



    7



    1



    5



    3



    3



    2



    14



    4



    6



    5



    2



    5



    6



    6



    9



    6



    7



    7



    7



    7



    8



    1



    4



    8



    20



    7



    9



    9



    19



    8



    12



    10



    7



    4



    4



    11



    4



    5



    13



    12



    6



    5



    7



    1、计算各类(个体间)的距离
    聚类1.jpg

    a2a7距离(2)最近,将其合并,并命名为G13。重新计算其他10类与G13之间的距离,它们与G13间的距离按最小距离法定义,因此

    D1,13=min{D1,2,D1,7}=min{13,15}=13

    D3,13=min{D3,2,D3,7}=min{14,16}=14

    聚类2.jpg

    ……以此类推,最终得到下表:

    聚类3.jpg

    根据上表,我们可以画谱系图:纵轴为各类别,横轴为距离,最终所有类别化为一类(距离为15)。
    下面提供了一些相关的资料,大家可按照需要下载
    判别分析与聚类分析.doc (990 KB)
    判别分析.doc (647 KB)
    spss使用教程_聚类分析与判别分析.ppt (2.87 MB)









    二维码

    扫码加我 拉你入群

    请注明:姓名-公司-职位

    以便审核进群资格,未注明则拒绝

    关键词:从零开始 人以群分 物以类聚 Fisher 统计分析方法 判别分析 聚类分析 SPSS操作步骤 统计学

  • 已有 2 人评分经验 学术水平 热心指数 信用等级 收起 理由
    日新少年 + 1 + 1 + 1 精彩帖子
    mzl79 + 100 精彩帖子

    总评分: 经验 + 100  学术水平 + 1  热心指数 + 1  信用等级 + 1   查看全部评分

    本帖被以下文库推荐

    楼主辛苦了。。。默默赞一个。。

    使用道具

    Kuniy_Guo 发表于 2014-6-5 22:23:11 |显示全部楼层 |坛友微信交流群
    学习了!
    百种弊病,皆从懒生,懒则弛缓,弛缓则治人不严,而趣功不敏,一

    使用道具

    wuxisjw 发表于 2014-6-6 18:42:58 |显示全部楼层 |坛友微信交流群
    好好学习。。。。。。。
    孙坚威

    使用道具

    yuerqieqie 发表于 2014-6-6 20:39:23 |显示全部楼层 |坛友微信交流群
    前来学习

    使用道具

    Luove 发表于 2014-6-12 19:31:03 |显示全部楼层 |坛友微信交流群
    不错的学习,谢谢

    使用道具

    余卓锴 发表于 2014-6-12 22:31:39 |显示全部楼层 |坛友微信交流群
    我喜欢

    使用道具

    tstone318 发表于 2014-8-19 17:58:59 |显示全部楼层 |坛友微信交流群

    使用道具

    lonestone 在职认证  发表于 2014-8-25 21:53:54 |显示全部楼层 |坛友微信交流群
    楼主辛苦了。。。默默赞一个。

    使用道具

    wuya100 发表于 2014-11-12 10:33:46 |显示全部楼层 |坛友微信交流群
    谢谢分享!!!!!!

    使用道具

    您需要登录后才可以回帖 登录 | 我要注册

    本版微信群
    加好友,备注jltj
    拉您入交流群

    京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

    GMT+8, 2024-3-29 09:44