1965 15

[问题] 求助大神:用计算机模拟dirty数据 [推广有奖]

  • 0关注
  • 4粉丝

教授

12%

还不是VIP/贵宾

-

威望
0
论坛币
6752 个
通用积分
15.6910
学术水平
18 点
热心指数
24 点
信用等级
15 点
经验
407 点
帖子
1190
精华
0
在线时间
996 小时
注册时间
2013-1-20
最后登录
2024-4-1

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
在做分析中,收集上来的第一手数据一般都是要进行清理才能做统计分析的。我现在有一些变量的干净数据,我想用模拟的方法分析一下如果数据不干净的话对统计分析的影响。我首先从干净的数据中按比例抽取了一部分数据,把剩下的数据用模拟的方法做成dirty数据,求问各位大神,这应该怎么做呀?我知道可能有五六种污染源,也知道每种污染源大概在污染中所占的比例呀。大神们可以给一些建议么?

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:计算机模拟 dirty 求助大神 计算机 IRT 计算机 污染源 dirty 清理 统计

您的dirty没有准确的定义,比如是误差项不符合模型设定,又或是有一些异常值之类的,一般而言这类模拟不会太难。比如用样本均值的时候故意掺进去几个很大的数,就会使均值变得很大,而用中位数估计则较稳健

使用道具

我的dirty 要包括异常值,数据点缺失,等等,还有这些dirty data的在剩下数据中的比例是异常值大约占10%,数据点缺失占剩下数据的38%,这样可以模拟么?您能说的具体一点么?

使用道具

凸集分离定理 发表于 2014-1-3 09:08
您的dirty没有准确的定义,比如是误差项不符合模型设定,又或是有一些异常值之类的,一般而言这类模拟不会太 ...
我的dirty 要包括异常值,数据点缺失,等等,还有这些dirty data的在剩下数据中的比例是异常值大约占10%,数据点缺失占剩下数据的38%,这样可以模拟么?您能说的具体一点么?

使用道具

小宝爱波1314 发表于 2014-1-6 13:20
我的dirty 要包括异常值,数据点缺失,等等,还有这些dirty data的在剩下数据中的比例是异常值大约占10 ...
R 几行命令就可以写出来 如果不是很重要的话 您把数据发到论坛上 再付一个word说明,我帮您看一下

使用道具

凸集分离定理 发表于 2014-1-6 22:39
R 几行命令就可以写出来 如果不是很重要的话 您把数据发到论坛上 再付一个word说明,我帮您看一下
好的,过几天给您数据吧。现在数据还没分离出来。可以先告诉我您的理念么?

使用道具

小宝爱波1314 发表于 2014-1-7 08:35
好的,过几天给您数据吧。现在数据还没分离出来。可以先告诉我您的理念么?
这种模拟就是照着做就行了,不需要什么理念。比如异常值就加一些进去就行了。

使用道具

凸集分离定理 发表于 2014-1-7 16:09
这种模拟就是照着做就行了,不需要什么理念。比如异常值就加一些进去就行了。
hi,你好,我现在给您一些数据,麻烦您帮我模拟成dirty的数据,要随机80%是干净的,另外的20%按照数据缺失26.98%,异常值73.02%的比例来模拟。需要模拟10000次,一共得到10000个模拟错误的数据集。可以么?

使用道具

凸集分离定理 发表于 2014-1-7 16:09
这种模拟就是照着做就行了,不需要什么理念。比如异常值就加一些进去就行了。
hi,你好,我现在给您一些数据,麻烦您帮我模拟成dirty的数据。我的想法是这样的,随机抽取20%按照数据缺失26.98%,异常值73.02%的比例来模拟,模拟完成后与剩下的80%的数据合并成一个数据集。需要随机抽取10000次,也就是说要模拟10000次,一共得到10000个模拟错误的数据集。可以么?给您的数据集是SAS数据集,不知道您方便么? birth_weight.xlsx (42.69 KB)

使用道具

小宝爱波1314 发表于 2014-1-9 21:26
hi,你好,我现在给您一些数据,麻烦您帮我模拟成dirty的数据。我的想法是这样的,随机抽取20%按照数据缺 ...
easy 不过我只给您产生10个,您自己跑循环,由于您没有说明异常值的定义,我看到名称是birth_weight,
Min.   : 780  
1st Qu.:3000  
Median :3300  
Mean   :3284  
3rd Qu.:3600  
Max.   :7700
那么我产生两种异常值一种少写0,均值变成330,一种超重,均值变5000,
我用R写代码,随后付上

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-27 23:29