楼主: 时光永痕
295 0

[其他] 准 A/B 测试:公司赞助研究中被忽视的机会 [推广有奖]

  • 0关注
  • 14粉丝

svip3

学术权威

12%

(VIP/贵宾)四级

35%

威望
0
论坛币
26 个
通用积分
49.8622
学术水平
4 点
热心指数
4 点
信用等级
4 点
经验
34070 点
帖子
2731
精华
0
在线时间
317 小时
注册时间
2020-7-21
最后登录
2024-5-13

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
A/B 测试的目的通常是双重的:一方面,公司使用它通过基于真实数据的反馈来优化他们的业务,另一方面,AB 测试是公司可以使用它来了解什么的知识来源有效,什么无效以及在多大程度上。换句话说,A/B 测试是在业务计划和业务成果之间建立因果关系的宝贵工具。

众所周知,实时 A/B 测试的有效性基于随机试验:一部分用户被随机分配到对照组,另一部分用户被随机分配到目标条件。当然,随机化需要与尽可能多地控制我们知道可能起作用的其他因素(例如语言、地理、季节性、一天中的时间等)配对。

然而,我们希望提请注意公司赞助的用户和消费者行为研究中的一个显着盲点。事实证明,一些真正有用的计量经济学技术在现代数据科学中经常被忽视,尽管它们在得出因果推论方面很有价值。

本文认为,当基于随机分配的 A/B 测试不可行时,在行业环境中采用基于因果推理的准实验设计具有很大的价值。

我们在这里的论点首先是观察到,从行业的角度来看,A/B 测试存在非平凡的限制。

让我们举一个我们熟知的例子:电子商务。电子商务通常是 A/B 测试的沃土,因为电子商务网站为它提供了完美的环境。

这是因为网站的各种组件可以通过一个过程进行广泛的相互测试,在许多情况下,该过程包括打开和关闭网站的某个组件并将某部分流量分配给某个版本的启用此类组件的网站以及该组件已关闭的网站版本的一部分流量。  

我们可以通过搜索功能做到这一点。例如,我们可以通过将网站的一半访问者分配给搜索个性化处于活动状态的网站版本,同时将另一半分配给没有搜索个性化可用的版本来测试搜索个性化。

然而,也有一些事情是电子商务公司不能真正进行 A/B 测试的——或者至少应该非常小心地做。

例如,假设您想建立搜索归因(有多少搜索在您的网站上促成了转化),这是毫无疑问的,即搜索在您的网站上促成了多少转化。为大部分用户关闭整个搜索框可能会对业务收入产生不利影响。同样,没有人测试过黑色星期五交易来解决黑色星期五销售带来了多少增量收入。这真的不可能。

那么,如果我们不能进行实验,我们如何确定某些能力是否真的对某些业务成果负责?这是否意味着电子商务公司无法在 A/B 测试看起来不可行的情况下做出任何因果推断?

不必要。因果推理实际上最好被视为一个涵盖许多不同方法的总称,其中随机分配只是其中之一。

然而,令人遗憾的是,在过去几年中,当基于随机实验的 A/B 测试由于可行性限制而无法选择时,几乎没有关注到建立因果关系的替代方法的可用性。然而,计量经济学,可以说是数据科学的姐妹,提供了可以证明对建立因果关系特别有用的技术和程序。

我们这里引入准A/B测试的概念 来镜像使用

社会科学的准实验。在这些情况下,准实验一词是指未将单元随机分配给条件的实验。在我们公司赞助研究的背景下,我们将准 A/B 测试称为在随机分配和 A/B 测试不可行时得出因果推论的尝试。

准 A/B 测试本质上是模拟实验条件,其中一些受试者接受治疗,而另一些则不是随机的。他们通过应用一些用于因果推理和计量经济学的设计、方法和工具来做到这一点。这些可供数据科学家使用并从计量经济学家的工具箱中提取的其他方法包括诸如回归不连续性和差异差异之类的工具。

我们认为,在公司赞助的用户和消费者行为研究的背景下,基于因果推理的准 A/B 测试应该受到更多关注。这也是因为有证据表明,像传统 A/B 测试这样的随机实验不会产生与基于因果推理的其他计量经济学方法过于不同的结果。

别搞错了:我们并不是说基于因果推理的准 A/B 测试将是万灵药。毕竟,这些工具可能并不总是可用、合适或最好的工具来测试相关假设,但是当 A/B 测试并不真正可行时,公司应该考虑尽可能采用这些方法。

但我们希望您带回家的关键信息是,那些选择通过纳入计量经济学方法来扩展其数据科学工具箱的人将获得巨大的回报。

为了看到这一点,考虑在基于公司赞助的 A/B 测试的实验与在教育或健康等领域使用随机对照试验 (RCT) 之间的平行关系是有用的。

在这些情况下,RCT 有时会由于包括伦理考虑在内的多种因素不可行。例如,想象一个实验,旨在比较收到钱的地区的学生成绩与没有收到随机分配资金的类似地区的学生成绩。对照实验将提供对学生感兴趣的结果支出的最严格的因果估计。然而,考虑到它所需要的伦理考虑,这样的实验充其量仍然是一个思想实验。这有助于理解采用准实验研究设计的重要性。当 RCT 不可行或不道德时,研究人员会求助于因果推理。

无法掌握基于因果推理的准 A/B 测试设计将使研究人员无法在许多相关环境中探索因果关系,从而阻止他们获得有价值的、最有用的见解。  

医学和社会科学的研究人员很久以前就了解准实验设计和因果推理的价值。


编辑推荐
1、2022年300个以上最佳免费数据科学课程
2、大厂数据分析面试指南!来自亚马逊、谷歌、微软、头条、美团的面试问题!
3、机器学习模型方法总结
4、历史最全机器学习/深度学习/人工智能专业术语表中英对照表
5、机器学习如何应用于商业场景?三个真实的商业项目
6、数据工作者的自我修养 | 哪些技能是必不可少的?
7、《汗牛充栋:数据分析书籍分享》CDA网校新课上线
8、文本挖掘常用的107个语料库
9、一图读懂“东数西算”工程
10、零基础转行数据分析,看这篇文章就够了

DA内容精选

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:计量经济学方法 计量经济学 黑色星期五 消费者行为 经济学方法

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-29 01:12