楼主: JMPer
3349 0

[学习分享] 玩转JMP变量类型(第一部分) [推广有奖]

  • 1关注
  • 31粉丝

合作版主

教授

86%

还不是VIP/贵宾

-

威望
0
论坛币
18143 个
通用积分
5.4451
学术水平
92 点
热心指数
91 点
信用等级
86 点
经验
40866 点
帖子
698
精华
4
在线时间
806 小时
注册时间
2014-7-24
最后登录
2023-7-14

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

本文重点带来JMP软件的基础知识与操作—变量的类型,以及变量标签的设置


可能有的朋友会觉得,变量类型有什么好讲的,我都知道。是的,变量类型本身不难,但是在JMP中,如果真的能够灵活运用变量类型的设置,你会发现一个丰富多彩的结果天地。所以,仔细看一下本文,你会恍然发现,原来JMP中的变量类型设置有隐藏着这么多的技巧和秘密!


我们以一个名为“Diabetes”的数据集为例,导入数据后呈现图1状态。

图1 new.png


图1 示例数据


01 先从变量名称说起

如果你想改变某个变量的名称,例如将“性别”改为“Gender”,有两种方式可以做到


  • 第一种,在想改变名称的变量名上点击鼠标右键,左键选择“列信息”,弹出窗口在框里填入想更改的变量名称点击确定即可,如图2。

图2.gif

图2 更改变量名方法1


  • 另一种方式,是在窗口左侧的变量列表中选中你想更改名称的变量,再单击一次变成可编辑模式(如图3),填入新的变量名,点击空白处或按回车即可。

    图3.gif 图3 更改变量名方法2


02  重头戏——变量类型

“列信息”窗口不仅能更改变量名称,还能还能更改变量类型。


在导入数据时,JMP为每个变量确定两种类型,如图4,分别是“数据类型”“建模类型”


图4 变量类型示意图.png

图4 变量类型示意图


  • “数据类型”决定了变量在JMP中的存储格式,其下拉菜单有四种类型,如图5,一般情况下,我们的数据只会涉及到数值型和字符型两种:数值型变量均为数字,可进行运算,而字符型变量可以包含字母、数字或是字母和数字的组合,且不能进行运算。
  • 这里我们可以更改“数据类型”,但有一点需要特别注意:如果你将字符型变量更改成数值型,那么变量中所有的字符值将变为缺失值,且不能复原。所以,如果没有必要,不要轻易尝试修改系统默认的设置。
    图5 数据类型示意图.png
    图5 数据类型示意图

  • “建模类型”决定了JMP在进行数据分析时如何处理该变量,其下拉菜单中包括多个选项,一般情况下,我们只会用到前三种:连续型、有序型以及名义型,见图7。

好,明确了变量类型后,下面我们看看变量类型的设置到底对JMP作图、制表和统计分析有什么影响,以及如何变换变量类型



03 变量类型决定了JMP将如何呈现你的表和图

话不多说,上图。图6和图8展示了当“年龄”作为“连续型”变量时,JMP呈现的表和图的状态;图7和图9展示了当“年龄”作为“名义型”变量时,JMP呈现的表和图的状态。


在制表时,将年龄拖入制表的横标目,“连续型”年龄的纵标目自动出现“总和”,你还可以自己添加均数、标准差等用来描述连续型变量的指标(图6);

图6 连续变量制表展示的统计量.png

图6 连续变量制表展示的统计量


“名义型”年龄的纵标目自动出现每一个年龄值的数目(因为年龄此时作为多分类变量),你还可以自己添加列百分比等用来描述分类变量的指标(图7)。

图7 分类变量制表展示的统计量.png

图7 分类变量制表展示的统计量


在作图时,当我们将年龄拖入图形生成器的X轴并点击上方的条形图按钮,“连续型”年龄即出现年龄分布的分布图,每个柱子代表在一定的年龄区间内的观测数(图8);

图8 连续变量展示的分布图.png

图8 连续变量展示的分布图


而“名义型”年龄的每一条柱子代表该年龄值(代表多分类变量中的一个类)的观测数(图9)。

图9 分类变量展示的频数图.png

图9 分类变量展示的频数图


可能大家对刚才举例中的图表做法还不是很清楚,别着急,我们会在后文章中有详尽的介绍。



04 JMP可根据变量类型自动选取适当模型

以广义回归模型为例,在顶部菜单栏选择分析→拟合模型,弹出对话框的右侧在特质框内选择广义线性。我们在示例数据里分别设置了连续型、有序型以及名义型的Y作为因变量。


当我们将连续型的Y放入Y(因变量)的框中后,JMP默认给出的分布为正态,下拉框可选择的分布显示如图10,注意此时logistic回归为灰色,无法选择。

图10 连续变量默认的方法.png



图10 连续变量默认的方法


当我们将名义型的Y放入Y(因变量)的框中后,JMP默认给出的分布为二项(图11),且下拉框其他的选项为灰色(不可选择)。

图11 分类变量默认的方法.png



图11 分类变量默认的方法


当我们将有序型的Y放入Y(因变量)的框中后,JMP默认给出的分布为有序型Logistic(图12),其下拉菜单中除了“多项式”,其他的选项均为灰色(不可选择)。

图12 有序变量默认的方法.png

图12 有序变量默认的方法


05 不同类型变量做自变量时参数估计结果不同

仍然以广义回归为例,我们将年龄(连续型)生成按照年龄段分组的新变量,分别设定其为名义型和有序型,以Y(连续型)为因变量,分别以年龄(连续型)、年龄(名义型)以及年龄(有序型)作为自变量,构建广义回归模型,结果见图13-图15。


当自变量为连续型变量时,变量的参数估计值只有一个(图13),其含义是年龄每增加1岁,因变量的平均改变情况。

图13 连续自变量的参数估计结果.png

图13 连续自变量的参数估计结果


当年龄作为多分类变量进入模型时,模型默认将排在最后一位的类别作为参照,其余每一类与参照的比较均产生一个参数估计值(图14)。比如这个例子中,我们将年龄分为3个年龄段:<50、50-59、>=60。以>=60作为参照,其余2个年龄段与该类进行比较。其含义分别显示了<50与>=60相比、50-59与>=60相比的结果。

图14 分类变量的参数估计结果.png

图14 分类变量的参数估计结果


当然,也可以设其它类作为参照组,具体可通过值顺序进行调整,详见后面介绍的“值顺序”操作。


当年龄作为有序变量进入模型时,其结果显示的是相邻两个类别的比较(图15)。其含义分别显示了50-59与<50、>=60与50-59相比的结果。


图15 有序变量的参数估计结果.png

图15 有序变量的参数估计结果

大家可以对比一下图14和图15,不难理解作为名义型(无序分类)和有序型的结果的区别在哪里。




二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:变量类型 JMP logistic回归 logistic Diabetes

图22.gif (126.43 KB)

图22.gif

图21.gif (455.61 KB)

图21.gif

图20.gif (398.14 KB)

图20.gif

图19.gif (541.98 KB)

图19.gif

图18.gif (502.27 KB)

图18.gif

图17.gif (34.43 KB)

图17.gif

图16.gif (374.95 KB)

图16.gif

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-11-5 07:53