楼主: 独行独行
3508 10

[问答] 一个定量变量中最大值为不确定值时怎么进行统计描述? [推广有奖]

  • 1关注
  • 0粉丝

已卖:91份资源

博士生

34%

还不是VIP/贵宾

-

威望
0
论坛币
7419 个
通用积分
145.8270
学术水平
8 点
热心指数
8 点
信用等级
9 点
经验
11512 点
帖子
227
精华
0
在线时间
216 小时
注册时间
2018-4-12
最后登录
2025-5-30

楼主
独行独行 发表于 2020-5-9 20:04:56 |AI写论文
50论坛币
请问比如有一个定量变量(体重):10,12,15,15,16,17,18,20,23,>90; 就是最大值是一个不确定的数值的时候,怎么在spss里录入(或者说什么描述平均水平、离异程度这些指)? 当样本量小的时候我们还可以手动排排序计算一下(比如P50=16.5),但当样本量大的时候,并且是在spss里的时候应该怎么操作?

关键词:统计描述 最大值 不确定 SPSS 怎么操作 SPSS数据修改 spss数据分析 spss求助

沙发
llb_321 在职认证  发表于 2020-5-10 12:15:23
您所述变量情况,其实隐含意义是,存在一个最大值,且该最大值超过某个临界值后不再具有实际的统计意义。比如说,体重超过90后,不管这个观测值是多少,都可以按90统计。另外一层含义是超过临界值的观测值,其离异程度过大,对变量描述具有不利的影响,一般这类观测值是应该排除的。
我建议直接按临界值设定最大值,并根据实际情况考虑是否排除该值。
操作上可以设定一个临界值,变量的样本观测值出来后,按临界值将最大值或者超过临界值的样本重新赋值。

藤椅
独行独行 发表于 2020-5-10 12:59:25
llb_321 发表于 2020-5-10 12:15
您所述变量情况,其实隐含意义是,存在一个最大值,且该最大值超过某个临界值后不再具有实际的统计意义。比 ...
你好,你的意思就是(在不排除不确定值的前提下)把不确定的值直接给设成一个确定值来代替是吗?(直接把>90改为90是吗,因为在spss里没不能录入>90这样的类型的数据【在该一列变量为数值型的前提下】)

板凳
独行独行 发表于 2020-5-10 13:04:17
spss里面是有定义缺失值的选项的,有定义(设定)临界值的操作吗? TIM截图20200510130335.png

报纸
llb_321 在职认证  发表于 2020-5-10 15:27:33
问题是如果变量的某个样本观测值不确定的话,统计方法能否实现。您给的视图是在定义变量的取值范围,之后观测值都是在定义的范围内的确定值。可以理解为变量是可变的,但变量的样本值是确定的。那个低和高,是变量范围,超出这个范围的样本值,系统判断输入错误吧。另外一个问题,如果需要大于90的样本按原值参与算法,如果是不确定的值,那么就可能需要引人随机过程,实际上可以理解为确定值构成一个变量,不确定的值构成一个随机变量,共同参与算法。
其实,我也是拍脑袋想的,类似以前用水晶球做风险分析时的做法。

地板
llb_321 在职认证  发表于 2020-5-10 15:32:58
另外,我们讨论而已,我也是学习。我论坛币足够多,不需要你的币,所以不要给我。要不然,我又得找你的帖子一个个评价还回去,麻烦。

7
独行独行 发表于 2020-5-10 16:32:05
llb_321 发表于 2020-5-10 15:32
另外,我们讨论而已,我也是学习。我论坛币足够多,不需要你的币,所以不要给我。要不然,我又得找你的帖子 ...
哈哈,好的,不给你了。其实说到底就是某样本观察值中有不确定值的时候应该怎么处理的问题? 毕竟有时确实会遇到这种情况,比如仪器检测血液中某指标时,由于仪器自身的限制,最大值和最小值都只能用(>和<某值来显示),而大部分值是具体数值的时候,应该怎么处理?(或者说spss里是否有相关的选项操作)

8
llb_321 在职认证  发表于 2020-5-10 18:36:24
独行独行 发表于 2020-5-10 16:32
哈哈,好的,不给你了。其实说到底就是某样本观察值中有不确定值的时候应该怎么处理的问题? 毕竟有时确实 ...
血检这个应用例子我理解了。谨慎地处理,超出仪器测量范围的指标,可以NA,因为我们确实不知道到底超出多少。上限90,而真实数值也许是91,也可能是130或180,那么采取前面说的用上限赋值的处理方法,会导致结果误判,而NA的话,至少我们知道这个观测值因为某种原因无法确定,所以分析的时候就可以不予考虑。

9
独行独行 发表于 2020-5-10 18:44:46
llb_321 发表于 2020-5-10 18:36
血检这个应用例子我理解了。谨慎地处理,超出仪器测量范围的指标,可以NA,因为我们确实不知道到底超出多 ...
是的,这是一种思路方法。比如某个样本观察值中有9%为不确定,91%为具体值。可以先说明情况,然后就分析考虑那91%的部分就行。但有一个问题,比如之前的10个观测值:10,12,15,15,16,17,18,20,23,>90;这10的中位数P50=16.5(这是可以确定的),但如果是去掉>90这个(这类)不确定值之后,那中位数P50这个值可就发生改变了呀?  所以才发个贴看看有没有别的处理方法——在考虑全部数据的前提下,在spss中(或者R中)来算一些参数,比如中位数之类的

10
llb_321 在职认证  发表于 2020-5-10 20:52:10
独行独行 发表于 2020-5-10 18:44
是的,这是一种思路方法。比如某个样本观察值中有9%为不确定,91%为具体值。可以先说明情况,然后就分析考 ...
如果应用中位数的话,就可以用一个上限值替代未知的最大观测值,这样不影响中位数。但如果计算均值的话,就可以考虑对未知的最大值做一个离散变量并进行概率分布估算。但我认为,在技术上的较真儿始终无法弥补这个不确定样本值的主观估计,除非我们能够对这种估计另外进行合理的参数检验。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-28 19:55