楼主: jingju11
1486 1

[程序分享] 分类变量的参数化 [推广有奖]

院士

30%

还不是VIP/贵宾

-

威望
3
论坛币
10965 个
通用积分
5.0754
学术水平
452 点
热心指数
463 点
信用等级
347 点
经验
75599 点
帖子
1937
精华
1
在线时间
3428 小时
注册时间
2009-5-22
最后登录
2020-1-26

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
许多SAS统计过程在建立模型时要求所有模型变量为数字变量。当涉及众多的变量的水平数和交叉项的时候, 分类变量的参数化过程将变得非常繁琐。 在以下我针对在NLMIXED procedure modelling binomial distribution (非线性二项模型)的构建来展示其中的方法和技巧.
值得注意的是程序过程也许不是非常直观. 比如说,四个分类变量分别包含4, 2, 2, 和3个水平。那么所有的变量组合是179个。如果除掉参考水平,剩下47个。在这里运用参考水平方式(reference), 而不是GLM的形式,其原因为nlmixed过程并不像其他过程那样,可以准确地鉴别出那些多余的参考水平值。
我在程序的最后补充给出计算该组合数的程序。整个程序最终将给出这47个变量外加上截距的模型表达式。即为:y=b1*intercept + b2*x1 + ... + b48*x48.

Read sample here

京剧


http://blog.sina.com.cn/s/blog_a3a926360102vcy5.html


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:分类变量 distribution Reference Intercept Modelling procedure reference 程序 技巧 模型

沙发
jingju11 发表于 2015-2-12 01:35:11 |只看作者 |坛友微信交流群
more: the automatically generated formula for modelling in NLMIXED =

Y~
b1*col1+b2*col2+b3*col3+b5*col5+b7*col7+b9*col9+b13*col13+b15*col15+b17*col17+b21*col21+
b25*col25+b29*col29+b37*col37+b38*col38+b39*col39+b41*col41+b42*col42+b43*col43+b45*col45+
b46*col46+b47*col47+b53*col53+b54*col54+b55*col55+b61*col61+b62*col62+b63*col63+b69*col69+
b70*col70+b71*col71+b84*col84+b85*col85+b86*col86+b92*col92+b93*col93+b94*col94+b100*col100+
b101*col101+b102*col102+b116*col116+b117*col117+b118*col118+b132*col132+b133*col133+b134*col134+
b146*col146+b147*col147+b148*col148

JingJu

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-19 16:23