楼主: 胖胖小龟宝
67216 24

[经验分享] 数据标准化的方法和意义 [推广有奖]

大师

21%

还不是VIP/贵宾

-

TA的文库  其他...

龟宝的档案室

威望
3
论坛币
793110 个
通用积分
21962.7815
学术水平
2211 点
热心指数
2133 点
信用等级
1424 点
经验
979220 点
帖子
10001
精华
25
在线时间
4757 小时
注册时间
2012-7-27
最后登录
2020-12-21

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
数据标准化的方法和意义


一、为何要将数据标准化?
由于不同变量常常具有不同的单位和不同的变异程度。   不同的单位常使系数的实践解释发生困难。例如:第1个变量的单位是kg,第2个变量的单位是cm,那么在计算绝对距离时将出现将两个事例中第1个变量观察值之差的绝对值(单位是kg)与第2个变量观察值之差的绝对值(单位是cm )相加的情况。使用者会说5kg的差异怎么可以与3cm的差异相加?   不同变量自身具有相差较大的变异时,会使在计算出的关系系数中,不同变量所占的比重大不相同。例如如果第1个变量(两水稻品种米粒中的脂肪含量)的数值在2%到4%之间,而第2个变量(两水稻品种的亩产量)的数值范围都在1000与5000之间。为了消除量纲影响和变量自身变异大小和数值大小的影响,故将数据标准化。
二、数据标准化的方法:
1、对变量的离差标准化
    离差标准化是将某变量中的观察值减去该变量的最小值,然后除以该变量的极差。即
       x’ik=[xik -Min (xk)]/Rk
    经过离差标准化后,各种变量的观察值的数值范围都将在〔0,1〕之间,并且经标准化的数据都是没有单位的纯数量。离差标准化是消除量纲(单位)影响和变异大小因素的影响的最简单的方法。   有一些关系系数(例如绝对值指数尺度)在定义时就已经要求对数据进行离差标准化,但有些关系系数的计算公式却没有这样要求,当选用这类关系系数前,不妨先对数据进行标准化,看看分析的结果是否为有意义的变化。
2,对变量的标准差标准化
    标准差标准化是将某变量中的观察值减去该变量的平均数,然后除以该变量的标准差。即
       x’ik = (xik - )/sk
    经过标准差标准化后,各变量将有约一半观察值的数值小于0,另一半观察值的数值大于0,变量的平均数为0,标准差为1。经标准化的数据都是没有单位的纯数量。对变量进行的标准差标准化可以消除量纲(单位)影响和变量自身变异的影响。但有人认为经过这种标准化后,原来数值较大的的观察值对分类结果的影响仍然占明显的优势,应该进一步消除大小因子的影响。尽管如此,它还是当前用得最多的数据标准化方法。
3,先对事例进行标准差标准化,再对变量进行标准差标准化
    第一步,先对事例进行标准差标准化,即将某事例中的观察值减去该事例的平均数,然后除以该事例的标准差。即
       x’ik = (xik - )/si
    第二步,再对变量进行标准差标准化,即将某变量中的观察值减去该变量的平均数,然后除以该变量的标准差。即
       x’’ik = (x’ik - ’k)/s’k
    使用这种标准化的目的也在于消除性状间的量纲(单位)影响和变异大小因子的影响,使性状间具有可比性。
4,先对变量、后对事例、再对变量的标准差标准化
    这种标准化的目的也在于消除性状间的量纲(单位)影响和变异大小因子的影响,使性状间具有可比性。具体做法是:
    第一步,先对变量进行标准差标准化,即将某变量中的观察值减去该变量的平均数,然后除以该变量的标准差。即
       x’ik = (xik - )/sk
    第二步,后对事例进行标准差标准化,即将某事例中的观察值减去该事例的平均数,然后除以该事例的标准差。即
       x’’ik = (x’ik - ’i)/s’i
    第三步,再对变量进行标准差标准化,即将某变量中的观察值减去该变量的平均数,然后除以该变量的标准差。即
       x’’’ik = (x’’ik - ’’k)/s’’k
    进行了前两步之后,还要进行第三步的原因,主要是为了计算的方便。


当两组或多组率之间比较时,当各组内部的构成比,诸如年龄、性别、工龄、病情轻重、病程长短等明显不同时,则不能直接比较两组或多组的总率,得出结论。只有消除混杂因素的干扰,才能正确地反映死亡率的真实情况。


采用标化法时,若比较的两组或多组率当内部构成不同时,需要按统一的“标准”进行调整,使之具备可比性,称之为标准化法。一般不同时间、不同地区、不同国家的各种率的指标的比较,均应先按某种标准进行标准化后,再进行适当比较,才有意义。例如各国之间各种疾病率的指标的标准化,均有通用的标准。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据标准化 数据标准 标准化 不同地区 计算公式 数据标准化 方法 意义

已有 3 人评分经验 论坛币 学术水平 热心指数 信用等级 收起 理由
后皇嘉树A + 1 + 1 + 1 精彩帖子
sfhsky + 60 + 2 + 1 + 1 精彩帖子
crystal8832 + 24 + 2 + 2 + 2 看你的帖子就是舒服,呵呵!~

总评分: 经验 + 60  论坛币 + 24  学术水平 + 5  热心指数 + 4  信用等级 + 4   查看全部评分

本帖被以下文库推荐

沙发
read 发表于 2014-9-30 11:17:56 |只看作者 |坛友微信交流群

使用道具

藤椅
TFBHG24865 发表于 2014-9-30 13:07:33 |只看作者 |坛友微信交流群
公式编辑的好像有点问题

使用道具

板凳
快跑啊 发表于 2014-9-30 22:40:50 |只看作者 |坛友微信交流群
相当好啊                                                                        
                                       
                                                     
                                                     
                                             
                                                                 
                                                                                 

使用道具

报纸
tmdxyz 发表于 2014-10-1 04:09:18 |只看作者 |坛友微信交流群
学习了,谢谢!

使用道具

地板
gssdzc 在职认证  发表于 2014-10-1 10:28:18 |只看作者 |坛友微信交流群
总结的挺好!

使用道具

7
gaojianwqjk 发表于 2014-10-5 23:51:01 |只看作者 |坛友微信交流群

使用道具

8
你你你111 学生认证  发表于 2015-6-17 11:22:49 |只看作者 |坛友微信交流群
楼主 我想知道 数据标准化之后 还有意义么??比如很多经济数据  标准化之后怎么定义他们呢??

使用道具

学习了 说的很好

使用道具

10
lajdlihcshtor 发表于 2015-8-10 20:46:40 |只看作者 |坛友微信交流群
你你你111 发表于 2015-6-17 11:22
楼主 我想知道 数据标准化之后 还有意义么??比如很多经济数据  标准化之后怎么定义他们呢??
没错,标准化之后变量的经济学含义到底是什么呢!

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-11 02:45