楼主: 水天一色DIY
2766 4

[数据挖掘理论与案例] 数据挖掘与商业智能实战(二)- 阿里巴巴大数据竞赛 [推广有奖]

  • 2关注
  • 28粉丝

VIP

已卖:254份资源

副教授

84%

还不是VIP/贵宾

-

威望
1
论坛币
50270 个
通用积分
1.1456
学术水平
66 点
热心指数
76 点
信用等级
48 点
经验
20133 点
帖子
589
精华
1
在线时间
708 小时
注册时间
2010-9-18
最后登录
2023-3-16

楼主
水天一色DIY 在职认证  发表于 2014-7-31 18:09:18 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
      BI不应该把自己的目光仅仅放在纸上谈兵,实战经验是非常宝贵!理解业务背景、梳理业务框架、建立业务目标、整理所需数据、建立合适模型、测试模型效果的每个环节都是非常重要。下面分享一下阿里巴巴大数据竞赛数据。

    在天猫,每天都会有数千万的用户通过品牌发现自己喜欢的商品,品牌是联接消费者与商品最重要的纽带。本届赛题的任务就是根据用户4个月在天猫的行为日志,建立用户的品牌偏好,并预测他们在将来一个月内对品牌下商品的购买行为。

我们会开放如下数据类型:

字 段

字段说明

提取说明

user_id

用户标记

抽样&字段加密

Time

行为时间

精度到天级别&隐藏年份

action_type

用户对品牌的行为类型

包括点击、购买、加入购物车、收藏4种行为
(点击:0 购买:1 收藏:2 购物车:3)

brand_id

品牌数字ID

抽样&字段加密

用户对任意商品的行为都会映射为一行数据。其中所有商品ID都已汇总为商品对应的品牌ID。用户和品牌都分别做了一定程度的数据抽样,且数字ID都做了加密。所有行为的时间都精确到天级别(隐藏年份)。

评估指标

我们希望参赛队的预测, 预测的品牌准确率越高越好,也希望覆盖的用户和品牌越多越好,所以用最常用的准确率与召回率作为排行榜的指标。

准确率:
注:
N 为参赛队预测的用户数
pBrandsi为对用户i 预测他(她)会购买的品牌列表个数
hitBrandsi对用户i预测的品牌列表与用户i真实购买的品牌交集的个数

召回率:
注:
M 为实际产生成交的用户数量
bBrandsi为用户i 真实购买的品牌个数
hitBrandsi预测的品牌列表与用户i真实购买的品牌交集的个数

最后我们用F1-Score 来拟合准确率与召回率,并且大赛最终的比赛成绩排名以F1得分为准。

1)  数据说明:
     提供的原始文件有大约4M左右,涉及1千左右天猫用户,几千个天猫品牌,总共10万多条的行为记录。用户4种行为类型(Type)对应代码分别为:
     点击:0;购买:1;收藏:2;购物车:3


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:阿里巴巴 商业智能 数据挖掘 大数据 Brands 阿里巴巴 排行榜 消费者 准确率 购物车

620939.zip
下载链接: https://bbs.pinggu.org/a-1600307.html

439.95 KB

本附件包括:

  • t_alibaba_data.csv

沙发
macan1002 在职认证  发表于 2014-7-31 20:26:58 来自手机
水天一色DIY 发表于 2014-7-31 18:09
BI不应该把自己的目光仅仅放在纸上谈兵,实战经验是非常宝贵!理解业务背景、梳理业务框架、建立业务 ...
报名条件是什么?如何报名参加?

藤椅
水天一色DIY 在职认证  发表于 2014-8-1 09:26:08
macan1002 发表于 2014-7-31 20:26
报名条件是什么?如何报名参加?
目前报名已经结束,第二阶段比赛已经结束,具体可以查看官网

板凳
odilefei 发表于 2014-12-1 20:32:19
淘宝为什么没有实际购买的数据,不然不能用于论文研究

报纸
水天一色DIY 在职认证  发表于 2014-12-2 17:31:03
odilefei 发表于 2014-12-1 20:32
淘宝为什么没有实际购买的数据,不然不能用于论文研究
这部分数据是保密的

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-30 04:58