楼主: qingfenghk2008
1461 2

[问答] 紧急求教!工作中遇到的一些问题 [推广有奖]

  • 0关注
  • 0粉丝

初中生

23%

还不是VIP/贵宾

-

威望
0
论坛币
13 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
204 点
帖子
10
精华
0
在线时间
4 小时
注册时间
2007-6-4
最后登录
2016-4-16

楼主
qingfenghk2008 发表于 2009-8-4 21:42:02 |AI写论文
1论坛币
大家好,本人现在在公司做数据分析工作。工作上遇到一些问题,想与大家探讨一下。
     1、分析两个变量(x,y)之间的关联。
        画出两个变量的散点图,发现变量不成线性关系。就是一个正方图上,都有数据分布点。当然数据分布密度不同。把x划分为一段段区间时,对x的每一区间,y值的直方图可以用Gamma分布拟合。同样,把y划分为一段段区间时,对y的每一区间,x的直方图可以用Gamma拟合。所以x越小,y越小,其密度值越大。问题是,这样的分析结果,告诉需要知道分析结果的同事,如何办呢?同事不太懂统计学,只想知道x,y之间的关系如何。我的想法是将数据分成两部分。一部分是将近90%的数据集中的区间范围,另外一部分当作异常点。然后告诉给同事,觉得有点矛盾,似乎太简单了,而且没有什么逻辑和有意义的结论。而且90%一定是好的吗?请问大家有什么想法??
     2、连续变量的区间划分。
      有一个连续变量的一万多条取值,且取值区间已知。如何划分其区间呢?多少个区间,每个区间的大小?根据其概率密度来划分吗?记得好像有个连续变量聚类的方法,不过忘记了。希望哪位仁兄知道具体过程,说一声。

关键词:紧急求教 gamma 连续变量 数据分布 概率密度 求教

沙发
yiyiustb 发表于 2009-8-5 20:27:20
拟合的时候为什么不试一下变量值的转换呢?可能会拟出更直观的方程啊

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-25 08:05