楼主: abcdefgzyl
8060 9

[原创博文] 马尔可夫链、移除效应与多渠道营销归因分析(Spark+Python) [推广有奖]

  • 3关注
  • 0粉丝

博士生

90%

还不是VIP/贵宾

-

威望
0
论坛币
258 个
通用积分
2.0041
学术水平
2 点
热心指数
2 点
信用等级
2 点
经验
3735 点
帖子
133
精华
0
在线时间
624 小时
注册时间
2016-9-30
最后登录
2021-2-28

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
归因分析

按照Google Analytics对于归因分析模型的说法:

an Attribution Model is a rule, or set of rules, that determines how credit for sales and conversions is assigned to touchpoints in conversion paths

即归因分析模型是“将最终销售转化结果分配功劳或者贡献到用户转化路径各个触点上的一系列规则”,也就是分配贡献值给各个触点。转化指的是用户支付订单或者其它行为,触点可以指访问渠道来源:例如百度,搜狐,优酷,Bing,也可以指在线推广类型,例如横幅广告,邮件,文字链接,搜索关键词,视频广告等等。

常见的归因分析模型包括:
•最后一次点击:用户购买之前最后一个触点获取所有贡献值
•第一次点击:用户访问路径上的第一个触点获取所有贡献值
•线性模型:用户访问路径上的所有触点平分贡献值


attribtuionmodel.jpg
图1 常见归因模型[1]

转化率计算

归因分析最重要的应用就是计算各个推广渠道的转化率,在此基础之上计算推广渠道的输入产出比,并进一步进行预算的分配。假设有如下数据,start标识开始,null表示未转化,conversion表示转化成功:

user1访问路径:start->bing->baidu.com->conversion
user2访问路径:start->sougou.com->null
user3访问路径:start->bing->ipinyou.com->conversion
user4访问路径:start->baidu.com->so.com->conversion

根据最后一次点击模型和以上示例数据计算可得到:
•baidu.com    0.33
•ipinyou.com    0.33
•so.com    0.33

归因模型的选择很大程度上决定了转化率计算结果,而对于最后一次点击、第一次点击和线性模型而言,实际上都是需要人工确定分配规则的算法,最后一次点击是最广泛采用的归因分析模型,但已经证明在很多情况最后一次点击模型并不准确[2],而且推广渠道因为属性和目的的不同,并不能脱离用户整个的转化路径来单独进行计算[3], 因此需要一种以数据驱动的(Data-Driven)、更准确的归因算法。

马尔可夫链

如果将各推广渠道视为系统状态,推广渠道之间的转化视为系统状态之间的转化,可以用马尔科夫链表示用户转化路径[4]。

马尔可夫链表示系统在t+1时间的状态只与系统在t时间的状态有关系,与系统在t-1,t-2,...,t0时间的状态无关,平稳马尔可夫链的转化矩阵可以用最大似然估计,也就是统计各状态之间的转化概率计算得到。用马尔科夫链图定义渠道推广归因模型:

1、状态集合,定义为 banner,text,keyword,link,video,mobile,unknown 7种推广类型加上start,null,conversion 3种系统状态

2、稳定状态下的转化矩阵,通过某公司web网站20天的原始click数据计算(Spark+Python)得到如下状态转化矩阵

advertising_first_order_markov_transition.jpg
图2 转化矩阵

移除效应

渠道的移除效应定义为:移除该状态之后,在start状态开始到conversion状态之间所有路径上概率之和的变化值。通过计算各个渠道的移除效应系数,根据移除效应系数在总的系数之和之中的比例得到渠道贡献值。移除效应实际上反映的是移除该渠道之后系统整体转化率的下降程度[4]。

通过以下示例可以了解移除效应的计算过程[5]

removal_effect_1.png
图3 移除节点C1之前
removal_effect_2.png
图4 移除节点C1之后

在以上系统中,总体转化率是33.3% (0.667 * 0.5 * 1 * 0.5 + 0.333 * 1 * 0.5.) ,移除节点C1后整体转化率是 16.7% (0.333 * 1 * 0.5.) ,节点C1的移除效应系数是 0.5 (1 – 0.167 / 0.333.) ,同理计算节点C2和C3的移除效应系数是1,通过移除效应系数计算得到转化贡献值:
•C1:0.5 / (0.5 + 1 + 1) = 0.2 * 1 conversion = 0.2
•C2:1 / (0.5 + 1 + 1) = 0.4 * 1 conversion = 0.4
•C3:1 / (0.5 + 1 + 1) = 0.4 * 1 conversion = 0.4

在计算如图2所示的转化矩阵中各渠道的移除效果时,利用该矩阵构造有向图(Directed Graph),通过计算从节点start到节点conversion的所有非重复路径(Simple Path)的累乘权重系数之和来计算移除效应系数[6]。

按照最后一次点击模型、线性模型和一阶马尔科夫链模型计算得到的各渠道推广贡献值如下图所示:

advertising_attribution1.jpg
图5 贡献值比较

访问行为分析

如图2所示,53.7%的用户在第一次访问中是通过横幅广告链接访问web网站,说明横幅广告推广类型在引起用户注意、开启用户转化漏斗方面的重要性。12.6%的用户在通过文字链接访问web网站后,会通过搜索引擎关键词访问web网站。14%的用户在通过搜索首位结果访问web网站后,在下一次访问中通过搜索引擎关键词访问web网站。

如图5所示,在来源渠道为关键词搜索的贡献值上,一阶马尔可夫链模型下的贡献值最小,因为一部分用户第一次访问先通过文字链接或搜索左侧首位进行访问网站,最后再通过搜索关键词跳转到网站直接购买。而在无线投放渠道来源上,一阶马尔科夫链模型下的贡献值最大,反映的是用户通过移动广告知晓产品,最后通过web渠道访问网站并进行购买(准确地说是通过移动端访问web网页,这种行为有点奇怪,待进一步考证),因此在马尔可夫链模型下的贡献值相比最后一次点击模型下的贡献值要大。

发展方向

访问渠道预测

利用用户访问路径以及平稳状态转化矩阵,可以预测用户在下一阶段的渠道来源。

高阶马尔可夫链

高阶马尔可夫链表示系统在t+1时刻的状态不但依赖于t时刻也依赖与t-1,t-2...时刻的状态。有研究表明[7]用户访问行为并不能用一阶马尔科夫链表示,同时高阶马尔可夫链在访问预测上能够提供更高的准确度。

用户细分

分析购买不同产品用户群体的访问行为。

代码示例

https://github.com/zhouyonglong/Multi-Channel-Attribution/blob/master/advertising_attribution_spark.py

参考资料

[1]Marketing attribution comes of age Real-life insights from advertisers

[2]Measuring ROI Beyond the Last Advertisement

[3]Analyses of Online Advertising Performance Using Attribution Modeling

[4]Mapping the Customer Journey: A Graph-Based Framework for Online Attribution Modeling

[5]http://analyzecore.com/2016/08/03/attribution-model-r-part-1/

[6]http://networkx.readthedocs.io/en/latest/reference/generated/networkx.algorithms.simple_paths.all_simple_paths.html

[7]https://www.researchgate.net/publication/241624113_Are_web_users_really_Markovian

原文地址
https://zhouyonglong.wordpress.com/2017/02/20/%e9%a9%ac%e5%b0%94%e5%8f%af%e5%a4%ab%e9%93%be%e3%80%81%e7%a7%bb%e9%99%a4%e6%95%88%e5%ba%94%e4%b8%8e%e5%a4%9a%e6%b8%a0%e9%81%93%e8%90%a5%e9%94%80%e5%bd%92%e5%9b%a0%e5%88%86%e6%9e%90/
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:conversion 搜索关键词 assigned Google 百度

已有 2 人评分经验 论坛币 学术水平 热心指数 信用等级 收起 理由
cheetahfly + 100 + 2 + 2 + 2 精彩帖子
我的素质低 + 20 + 5 精彩帖子

总评分: 经验 + 120  论坛币 + 5  学术水平 + 2  热心指数 + 2  信用等级 + 2   查看全部评分

沙发
钱学森64 发表于 2017-3-11 10:42:39 |只看作者 |坛友微信交流群
谢谢分享

使用道具

藤椅
abcdefgzyl 发表于 2017-3-13 22:11:48 |只看作者 |坛友微信交流群
钱学森64 发表于 2017-3-11 10:42
谢谢分享
这位同志你在做这一块的研究?

使用道具

板凳
abcdefgzyl 发表于 2017-9-17 17:02:59 |只看作者 |坛友微信交流群
本文的最新地址 https://zhouyonglong.wordpress.com/2017/02/20/multi-channel_attribution/

使用道具

报纸
君君好运 发表于 2017-12-19 10:06:55 |只看作者 |坛友微信交流群
abcdefgzyl 发表于 2017-9-17 17:02
本文的最新地址 https://zhouyonglong.wordpress.com/2017/02/20/multi-channel_attribution/
  好文!

使用道具

地板
幸运符 发表于 2018-6-9 16:52:31 |只看作者 |坛友微信交流群
谢谢分享

使用道具

7
排队木偶 发表于 2019-10-18 15:28:58 |只看作者 |坛友微信交流群
感觉这篇文章不错啊,自动化归因

使用道具

8
wangyong8935 在职认证  发表于 2019-10-27 21:59:07 |只看作者 |坛友微信交流群
thank you for sharing

使用道具

9
westerly 在职认证  学生认证  发表于 2019-10-28 19:57:40 |只看作者 |坛友微信交流群
不错的感觉

使用道具

10
cometwx 发表于 2019-10-29 11:06:20 |只看作者 |坛友微信交流群
感谢分享

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-26 15:00