楼主: 胖胖小龟宝
5755 10

【统计课堂】数据分析一定要避免辛普森悖论 [推广有奖]

已卖:46份资源

大师

21%

还不是VIP/贵宾

-

TA的文库  其他...

龟宝的档案室

威望
3
论坛币
793115 个
通用积分
22228.9852
学术水平
2211 点
热心指数
2133 点
信用等级
1424 点
经验
987238 点
帖子
9996
精华
25
在线时间
4757 小时
注册时间
2012-7-27
最后登录
2020-12-21

楼主
胖胖小龟宝 发表于 2014-7-1 09:39:50 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

辛普森悖论是一种统计现象,实验群体由具有不同统计特性的子群体组成,观察到的现象是总体水平可能与单个子群体的水平不相关。换句话说,辛普森悖论是在一个数据集中的变量被分组之后,他们之间的相关性可能会发生改变。

辛普森悖论在数据集方面看上去广泛,而且没有被分解成有意义的片段。辛普森悖论是研究中被忽略的“混淆变量”结果。混淆变量本质上是一个与核心研究无关的变量,它随着自变量的改变而改变。


例如,一个移动应用程序的用户群,其中1万人使用Android设备,5千人使用iOS设备。用户的总体转化率是5%,iOS设备的转化率是4%,Android设备的转化率是5.5%:

假设相同的货币化(也就是Android用户和iOS用户在游戏中花的钱一样多),资源有限的产品经理可能根据这些数据会做出一些极端的决定,也许会优先考虑安卓功能的开发,甚至干脆取消iOS项目。

然而当数据按照设备再次细分,用户群的不同的情况如下:

现在发现iOS平板的转换率比Android平板高一点,iOS手机的转换率同样比Android手机高。如果看到了这一点,产品经理可能会对未来的产品做一系列不同的决策。

在这种情况下,设备类型是一个混淆变量:当数据按照设备类型细分,子群体具有完全无法相比的统计特性。

iOS能在设备转化方面打败Android,但是在整体水平上却输给Android的原因是,每个平台的设备类型不同:平板的转化率比手机的转化率高,在这个用户群中,iOS平板占iOS设备的比例(30%)低于Android平板所占的比例(80%),尽管Android平板上的转化率比IOS低。 把数据混合到一起就变成一个很大的问题,去比较两组与完全不同的属性的东西 —— 就像是去比较苹果和橙子的区别一样。

混淆变量经常用于分析免费增值产品,有以下几个原因:

1. 基数大小。免费增值产品因为固有的低转化率需要大量用户基数来产生收入。这些庞大的用户通常由来自世界各地,来自不同地区,并且使用设备广泛。这种多样性的呈现致使比较后的平均值几乎没有任何意义;

2. LTV曲线。免费增值产品受益于长尾货币化曲线。为了娱乐而消费的使用者,消费的指标可能很接近,因此可以作为分界的界限。

3. 大部分用户不会消费。先前提到的免费增值产品的固有低转化率 作为一个基本的区分两类用户而存在 :付费和非付费。基于这个原因,把非付费用户群作为一个整体的任何指标都是有缺陷的,因为它把所有指标都倾斜到了绝大多数永远不会付费的用户(这就是为什么最低可行的指标模型包括ARPU和ARPPU)

避免辛普森悖论的关键——关于用户基础的结论,不反映现实的不同类型的用户与产品的交互——是明智地应用维度分析。用户细分在数据分析中是非常重要的,特别是对免费增值产品,“普通用户”不仅不存在,而且他的特征作为一个警示,避免开发人员被误导。当一个用户群以广泛多元化的特征存在时,通用数据是无用的。

当考到产品开发路线图时,用户分类是至关重要的:如果数据分析表明哪些特性由于确定非常有价值而优先开发,那么它同时也决定了应该给哪些人做推销以增长用户群。也正因此,从聚类分析得出似是而非的结论,不仅会造成开发错误功能,也会把更多错误的用户加入到用户群中。

为了避免这种情况,用于优先功能开发的基本维度(“过滤器”,或用户特性),应该在用户分类方面建立粗糙集。对于移动产品,最基础的设置一般包括:

  • 位置(国家)
  • 设备(平台、外形,设备型号)
  • 采集源;
  • 早期行为线索( 如盈利/ 参与里程碑);
  • 加入日期(用于控制季节性)
  • 对于一些收购渠道(如Facebook),其他人口统计数据点,如年龄,性别等可能也是重点。

用这些维度进行分析比先前引用的“iOS和Android”的例子提供了更为可靠的见解。最终分析的目标是为真正使用它的人改善产品。如果这个分析在一个错误的前提下进行,那么用户的真正问题并不会得到解决。


via:36大数据



★答题送币时间:
这次的题目是:下面对辛普森悖论的描述正确的是(   )(此题为多选题)
A:该悖论在1951年的论文中被描述解释
B:辛普森悖论是一种统计现象。
C:辛普森悖论在某个条件下的两组数据,分别讨论时都会满足某种性质,可是一旦合并考虑,却可能导致相反的结论。
D:为了避免辛普森悖论的出现,就需要斟酌个分组的权重,并乘以一定的系数去消除以分组数据基数差异而造成的影响。



       帮助人大经济论坛推广,复制贴子内容(带人大经济论坛网址)并发到其他论坛和网站;或点击贴子标题后的“推广有奖”,把本贴推荐到QQ群或自己的微博(最好@人大经济论坛),然后跟贴贴出链接或截图,证明已作推广的,将获得如下论坛币的奖励!(大家一定要把群现有人数或微博粉丝人数截屏出来哦~不然只能奖励10个币哦)
      
活动奖励方式(同一个群或微博或网站分享多次算一次,所有截图均需显示分享人数,否则默认低档奖励):
1.凡分享的QQ群,人数在100人以下的,视情况奖励10-20论坛币;100-500人的,奖励20-50论坛币(每群限奖励一次);500人以上的奖励50-100论坛币。
2.凡分享到微博,您的粉丝在100人以下的,视情况奖励10-20论坛币;100-500人的,奖励20-50论坛币(每微博限奖励一次);500人以上的奖励50-100论坛币。
3.凡分享到其他网站(包括校内网等),帖子保留一天以上的(24小时后截图),奖励50论坛币

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:辛普森悖论 数据分析 辛普森 FACEBOOK Android 统计学 数据分析 辛普森悖论

已有 1 人评分经验 学术水平 热心指数 信用等级 收起 理由
crystal8832 + 10 + 1 + 1 + 1 精彩帖子

总评分: 经验 + 10  学术水平 + 1  热心指数 + 1  信用等级 + 1   查看全部评分

本帖被以下文库推荐

沙发
hocuser 发表于 2014-7-1 10:02:52
下面对辛普森悖论的描述正确的是
回答  A,B ,C,D
已有 1 人评分经验 论坛币 热心指数 收起 理由
胖胖小龟宝 + 20 + 10 + 2 鼓励积极发帖讨论

总评分: 经验 + 20  论坛币 + 10  热心指数 + 2   查看全部评分

藤椅
bkeview 发表于 2014-7-1 11:24:08
答案:A.B.C.D
已有 1 人评分论坛币 学术水平 热心指数 收起 理由
胖胖小龟宝 + 10 + 1 + 1 鼓励积极发帖讨论

总评分: 论坛币 + 10  学术水平 + 1  热心指数 + 1   查看全部评分

板凳
Padmeelena 发表于 2014-7-2 03:58:38
A, B, C, D
已有 1 人评分论坛币 学术水平 热心指数 收起 理由
胖胖小龟宝 + 10 + 1 + 1 精彩帖子

总评分: 论坛币 + 10  学术水平 + 1  热心指数 + 1   查看全部评分

报纸
yang於静默 发表于 2014-7-2 09:37:10
A,B,C,D
已有 1 人评分论坛币 学术水平 热心指数 收起 理由
胖胖小龟宝 + 10 + 1 + 1 精彩帖子

总评分: 论坛币 + 10  学术水平 + 1  热心指数 + 1   查看全部评分

地板
大火子 发表于 2014-7-2 11:07:18
以前在哪里见过。。

7
扬帆启航2014 发表于 2014-7-2 21:57:31 来自手机
胖胖小龟宝 发表于 2014-7-1 09:39
辛普森悖论是一种统计现象,实验群体由具有不同统计特性的子群体组成,观察到的现象是总体水平可能与单个子 ...
Abcd
已有 1 人评分论坛币 学术水平 热心指数 收起 理由
胖胖小龟宝 + 10 + 1 + 1 鼓励积极发帖讨论

总评分: 论坛币 + 10  学术水平 + 1  热心指数 + 1   查看全部评分

8
LeRoiLion 发表于 2014-7-4 03:25:38
lol...

9
wuya100 发表于 2014-8-23 08:58:02
谢谢分享!!!!!

10
58251218 发表于 2014-9-16 14:15:59
A,B,C,D。最近正好看到辛普森悖论,多谢楼主

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群
GMT+8, 2026-1-11 21:14