发帖

楼主: willow2009

1338 0

2010-10-13 09:31:20 [推广有奖]

1关注
0粉丝

讲师

20%

还不是VIP/贵宾

-

0%

威望: 0 级
论坛币: -3298967 个
通用积分: 0.1693
学术水平: 11 点
热心指数: 25 点
信用等级: 10 点
经验: 6528 点
帖子: 113
精华: 0
在线时间: 754 小时
注册时间: 2009-12-16
最后登录: 2018-4-13

楼主

willow2009 发表于 2010-10-13 09:32:04 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

读书笔记7：分类变量的编码
2007年10月29日星期一 11:49

1
分类变量可以采取多种方法进行编码转换，采取何种编码只是改变回归结果的解释形式，并不改变回归分析的实际结果。所以，到底采取哪种编码视具体情况而定。

一般而言，分类变量可以采用以下几种形式，

                     正交编码

事先比较
                     非正交编码
分类变量
                     虚拟编码

事后比较
                     效应编码

事先比较：根据可控制的试验研究取得的观测数据进行分析。
事后比较：根据来自抽样调查的观测数据进行分析。

2
因为社会科学研究多采用抽样调查数据进行分析，所以常用虚拟编码＆效应编码。两者比较如下：
虚拟编码――必须先定一个参照类，各虚拟变量回归系数表示各类与参照类在均值上的差。
效应编码――常数项表示样本整体均值，回归系数反映的是各类均值与样本总均值的差，代表不同类别的效应。

编码规则：一个原分类变量如果包括k类，需设置k-1个变量。对于前k-1类变量，当案例属于该类别时，变量赋值为1；当案例不属于该类别时，变量赋值为0。所不同的是，若案例属于最后一类，
虚拟编码：将所有虚拟变量赋值为0
效应编码：将所有效应变量赋值为－1

回归方程：y=b0+b1*x1+b2*x2+b3*x3+b4*x4
形式相同，但是各参数意义不同，
虚拟编码：各回归系数表示各类与参照类在均值上的差
效应编码：常数项表示样本整体均值，各回归系数表示类均值与整体均值之差

如果事先不知道是否存在特别类，更不知道哪类是特别类，希望回归方程给出一个整体情况的描述，那么采用效应编码更合适。

3
总之，使用虚拟编码＆效应编码是等价的。对于同一个样本，无论采用虚拟编码还是效应编码，对应模型的R2,F, F概率是完全相同的，并且各类估计值也是相同的。所不同的是由于参照类不同而产生的检验假设不同及其所导致的检验结果不同。

上文转自：http://hi.baidu.com/leizhuanying/blog/item/9123541629562a1b972b43df.html

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：社会科学研究 baidu 分类变量回归系数回归方程读书笔记回归分析

2010-10-13 09:31:20 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

2010-10-13 09:31:20 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

扫码加我拉你入群