楼主: fanzhh5
4196 6

[实际应用] 含有大量0的左偏数据应该如何处理? [推广有奖]

  • 0关注
  • 0粉丝

初中生

38%

还不是VIP/贵宾

-

威望
0
论坛币
6 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
169 点
帖子
6
精华
0
在线时间
17 小时
注册时间
2017-5-22
最后登录
2019-6-3

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
要处理的数据是次品率的数据,范围在0~100之间。
这一列数据里有接近一半是0,非零的数据也是严重右偏的,分布密度曲线如图。 def_nozero.jpeg 本来是想取对数来做分类的箱线图的,因为数据中有大量的零所以没办法直接取对数处理。可以加1或者加一个很小的数再取对数吗?哪种方法比较合理(能更好地观测数据的分布情况)?

另外,数据中还有几个次品率为100的样本,作箱线图基本上会将他们全部当作离群点。有什么合适的统计图或者数据的预处理方式可以更好地帮助分析数据呢?谢谢大家了!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:取对数 箱线图 预处理 统计图 数据分析

沙发
fanzhh5 发表于 2018-1-4 15:23:19 |只看作者 |坛友微信交流群
dddddddd

使用道具

藤椅
慕目穆木 学生认证  发表于 2018-1-4 18:21:59 |只看作者 |坛友微信交流群
零膨胀泊松回归

使用道具

板凳
zhangok 发表于 2018-1-4 22:56:01 |只看作者 |坛友微信交流群
你先做一下最基本的描述性分析,看是否最小值小于等于0?如果是的话,可以加一个偏移值,使所有数据均为正数,然后使用box-cox转换得到新的数据X‘,一般来说,对于偏态分布数据用对数转换是比较好的。

使用道具

报纸
fanzhh5 发表于 2018-1-5 09:48:39 |只看作者 |坛友微信交流群
慕目穆木 发表于 2018-1-4 18:21
零膨胀泊松回归
十分感谢,我先学习学习

使用道具

地板
fanzhh5 发表于 2018-1-5 09:59:44 |只看作者 |坛友微信交流群
zhangok 发表于 2018-1-4 22:56
你先做一下最基本的描述性分析,看是否最小值小于等于0?如果是的话,可以加一个偏移值,使所有数据均为正数 ...
谢谢回复!
所有数据都是非负的。但是无论box-cox还是对数转换,都没办法根本解决有半数的数据是零的这个问题,箱线图中下四分位数和中位数都是0,感觉不能很好展现这组数据的信息,可能是数据本身的问题吧。

使用道具

7
zhangok 发表于 2018-1-6 23:13:00 |只看作者 |坛友微信交流群
fanzhh5 发表于 2018-1-5 09:59
谢谢回复!
所有数据都是非负的。但是无论box-cox还是对数转换,都没办法根本解决有半数的数据是零的这个 ...
既然是这样的情况,那确实是原数据0值过多,不适宜进一步分析了。

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-17 20:34