请选择 进入手机版 | 继续访问电脑版
楼主: jouney
4420 2

[问答] 如何剔除部分原始数据使其变为正态分布 [推广有奖]

  • 6关注
  • 1粉丝

本科生

11%

还不是VIP/贵宾

-

威望
0
论坛币
48 个
通用积分
0
学术水平
4 点
热心指数
6 点
信用等级
4 点
经验
1119 点
帖子
58
精华
0
在线时间
52 小时
注册时间
2010-6-23
最后登录
2019-3-4

jouney 发表于 2015-4-28 15:50:29 |显示全部楼层 |坛友微信交流群

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
有一堆乱七八糟的数据,是一种偏态分布,大小范围是-5到5,想从中挑选出一组样本量最大的符合正态分布(均值为0,标准差为1.2)的数据,该怎么实现呢? 比如有原来有2000个数据,我想找到一组数据(比如1000个)恰好满足正态分布。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:原始数据 正态分布 偏态分布 标准差 样本量 正态分布 标准差 最大的 如何

漫漫学统计
万人往LVR 在职认证  发表于 2015-4-29 16:52:25 |显示全部楼层 |坛友微信交流群
小学生提个想法。。。
首先按某一规律切割定义域,例如均匀切割、按sigma倍数切割。切割的分配方式及数量需要在结果出来后调整。不妨假设按sigma倍数切割,那么由于要求结果符合N(0,1.2),某一切割的区间(例如0.2*sigma~0.3*sigma)的样本(最后结果的样本)占总体结果样本数量的比例应该是一定的。用实际这个区间中含有的样本数除以这个比例,可以算出这个区间的样本能够支持的最大总样本数。每个区间能够支持的最大总样本数的最小值就是能够取到的正态分布的最大样本数。

开始对定义域分割的越细,结果的形状越接近正态分布,但是能够支持的最大样本数也就越少。反之亦然。需要自己协调分割粗细与结果形状的重要性。

使用道具

nuomin 发表于 2015-4-29 09:48:58 |显示全部楼层 |坛友微信交流群
离我的知道的好远。不过,可以采用穷举:先找容量为1999个数据测试一下,如果不符合正态分布,接着找1998个容量的继续试验。这个估计不会太慢。

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-17 05:49