6552 15

[问答] 均值比较的问题 [推广有奖]

  • 0关注
  • 0粉丝

初中生

19%

还不是VIP/贵宾

-

威望
0
论坛币
10 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
55 点
帖子
7
精华
0
在线时间
15 小时
注册时间
2012-10-30
最后登录
2013-7-26

楼主
落木萧萧下0921 发表于 2013-2-16 05:19:57 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
数据是地块面积,一共将近20万个,大小的取值非常广。老师让我分组对照分析,其中的一个是求均值和标准差,然后分组,分组点为(均值-3*标准差),(均值-3*标准差到均值-2*标准差  ),(均值-2*标准差到均值-标准差  ),(均值-标准差到均值+标准差),(均值+标准差到均值+2*标准差),(均值+2*标准差到均值+均值+3*标准差 ),(均值+3*标准差 ),最后做直方图或者条形图。现在问题来了,有些地块太小,比如小于10平方米,根据论文内容,这些值会影响均值,所以直接被剔除了。然后地块大小范围分布极广,有些甚至达到1400多ha,而求出来的平均值才3.4左右,标准差达到了13.2。我在网上看了大量资料,据说标准差远大于平均值时,求平均值的意义已不大。而且对于取值只有可能是正值的情况,样本是不符合正太分布的。作图后,也确实不符合正太分布。像这种情况,应该怎么处理啊?有没有其他分组方式?注:基本没学过统计学,希望各位说得详细点。小女子这厢有礼了。谢谢各位大神。



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:均值比较 怎么处理 标准差 平均值 统计学 论文 统计学

回帖推荐

IntheRed 发表于10楼  查看完整内容

从你贴的直方图看,很像指数分布啊,可以考虑指数或Gamma distribution(指数本来就是Gamma的特例)。 log normal也可以尝试。 这都是对于正值常用的分布。也可以对分布函数做test, 比如Kolmogorov-Smirnov test, 看看到底有多近似。

本帖被以下文库推荐

沙发
smile108 发表于 2013-2-16 08:07:47
你是要做分组对照分析哒,那就把这些数据全部按照要求分完组别然后看图像的差异咯。【你说:有些地块太小,比如小于10平方米,根据论文内容,这些值会影响均值,所以直接被剔除了。然后地块大小范围分布极广,有些甚至达到1400多ha,而求出来的平均值才3.4左右】为什么小于10的已经剔除,而平均值为3.4呢???不懂,呵呵。
   至于当数据全部为正数时,是否可能服从正态分布,个人认为是有可能的,只不过此时的均值肯定不是0而已,整体向右平移一下嘛
    说实话,鄙人理解能力有限,还未深刻明白楼主最终的目的是什么,呵呵

藤椅
pingguagain 发表于 2013-2-16 08:37:28
画出Histogram后, 找一本统计书看看你的图形形状和哪个分布相似。真心求教的话,最好自己写完了看看自己能不能看懂自己写的。
“比如小于10平方米,根据论文内容,这些值会影响均值,所以直接被剔除了。然后地块大小范围分布极广,有些甚至达到1400多ha,而求出来的平均值才3.4左右”。你自己看得懂吗?

板凳
wtxhpx1991 在职认证  发表于 2013-2-16 08:57:47
听你说的分布估计你的histogram是不是像gamma分布一样……其实如果数据严重右偏,用楼主你的那种分法确实不合理,我觉得可以考虑一下用分位点进行划分。如果再分析的话可以用非参的一些方法,比如friedman test,而且由于样本数量很大,非参的方法的power会不错的。分布的内容可以查一下统计学基础之类的书,非参的话楼主可以查一下比较基础的非参数统计。

报纸
IntheRed 发表于 2013-2-16 10:31:20
标准差远大于平均值, 且都是正值,normal distribution的确没太大意义。为什么剔除小于10平方米,我没看懂你的解释。试试对所有数据取log,然后看看是不是符合normal

地板
落木萧萧下0921 发表于 2013-2-16 18:59:40
smile108 发表于 2013-2-16 08:07
你是要做分组对照分析哒,那就把这些数据全部按照要求分完组别然后看图像的差异咯。【你说:有些地块太小, ...
1. 删除小于10平方米(0.001公顷)面积的原因:第一,数据是工商业用地面积大小,而从实际出发,对于小于10平方米的工商业园区几乎是不可能的。第二,用均值加减标准差来作为分组点,就得算均值,那些小于10平方米的数据也会影响到均值的计算。
2. 删除的数据是0.001公顷,平均值是3.4公顷,标准差是13公顷。90%的数据都分布在0.05公顷到10公顷之间。不好意思,我忘记说单位了。
3. 老师建议我用均值加减标准差的倍数来作为分割点,由于均值比标准差小很多,所以只要是减去,那么那个分割点肯定是负值,而地块的面积是不可能为负值的,在这些负值区域是不可能有地块分布的。所以我觉得这种分组方式不对,想寻求其他分组方式。
4.我也认为数据全部为整数时,也有可能是正态分布。只是我的数据,均数比标准差小很多,做出来的直方图如下,看上去明显不是正态分布。横坐标是面积大小(单位为公顷),纵坐标为频率,这个图是spss自动等距分的组,还有那些小于0.001公顷的值一共有2000多个,不在这个图里。
5.论文其中的一个目的是,利用统计学知识,如何对工商业区域按照面积大小进行分类或者分组。所以想问问大家,大家在处理数据时,还有些什么分组方式。
最后谢谢楼主关注

未命名.jpg (23.12 KB)

未命名.jpg

7
落木萧萧下0921 发表于 2013-2-16 19:12:06
pingguagain 发表于 2013-2-16 08:37
画出Histogram后, 找一本统计书看看你的图形形状和哪个分布相似。真心求教的话,最好自己写完了看看自己能 ...
不好意思,平均值我忘标单位了,单位是公顷,不是平方米。大部分的数据都在0.05公顷到10公顷之间,所以均值为3.4公顷。有些地块面积大小确实达到了几百甚至上千公顷的。

8
落木萧萧下0921 发表于 2013-2-16 19:22:52
wtxhpx1991 发表于 2013-2-16 08:57
听你说的分布估计你的histogram是不是像gamma分布一样……其实如果数据严重右偏,用楼主你的那种分法确实不 ...
呵呵,谢谢楼主的建议。我昨天看了不少资料,我也觉得用均值加减标准差这种方式不好。均值小于标准差,相减会有负数区间,而地块面积不可能有负数值,所以下周再去找老师讨论一下。面积的大小取值从0.000001公顷到1400多公顷都有,大部分都分布在0.05到10公顷之间。楼主提到的百分位点分组法挺不错,可以试试。再次谢谢。

9
落木萧萧下0921 发表于 2013-2-16 19:23:55
IntheRed 发表于 2013-2-16 10:31
标准差远大于平均值, 且都是正值,normal distribution的确没太大意义。为什么剔除小于10平方米,我没看懂 ...
好的,我先找找数据转换的书籍看看,谢谢楼主。

10
IntheRed 发表于 2013-2-17 03:22:20
从你贴的直方图看,很像指数分布啊,可以考虑指数或Gamma distribution(指数本来就是Gamma的特例)。 log normal也可以尝试。 这都是对于正值常用的分布。也可以对分布函数做test, 比如Kolmogorov-Smirnov test, 看看到底有多近似。
已有 1 人评分经验 论坛币 收起 理由
bakoll + 3 + 3 精彩帖子

总评分: 经验 + 3  论坛币 + 3   查看全部评分

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-22 16:15