使用阿里天池里面淘宝用户的一些数据进行用户行为分析,包含有箱型图、漏斗图、RFM模型的使用以及ARPU、ARPPU分析和一些常用数据分析的方法。
技术栈:清洗 hive + 分析 hive + 可视化 echarts处理方式:离线模式
- User_behavior_analysis .ipynb
- 淘宝用户购物行为数据集(900MB数据文件压缩包)的网盘链接.docx
其中包含的数据集:
记录了一百万名有行为的淘宝用户行为记录样本,包含1,0015,0806条数据,987994个不同用户,4162024个不同商品,3623个不同商品分类, 4种行为(点击、购买、加购、喜欢)数据。
UserBehavior是阿里巴巴提供的一个淘宝用户行为数据集,用于隐式反馈推荐问题的研究。
本数据集包含了2017年11月25日至2017年12月3日之间,有行为的约一百万随机用户的所有行为(行为包括点击、购买、加购、喜欢)。
数据集的组织形式和MovieLens-20M类似,即数据集的每一行表示一条用户行为,
由用户ID、商品ID、商品类目ID、行为类型和时间戳组成,并以逗号分隔。
关于数据集中每一列的详细描述如下:
列名称 说明用户ID 整数类型,序列化后的用户ID商品ID 整数类型,序列化后的商品ID商品类目ID 整数类型,序列化后的商品所属类目ID行为类型 字符串,枚举类型,包括('pv', 'buy', 'cart', 'fav')时间戳 行为发生的时间戳注意到,用户行为类型共有四种,它们分别是行为类型 说明pv 商品详情页pv,等价于点击buy 商品购买cart 将商品加入购物车fav 收藏商品
.1.概述UserBehavior是阿里巴巴提供的一个淘宝用户行为数据集,用于隐式反馈推荐问题的研究。
2.介绍[td]文件名称 | 说明 | 包含特征 |
UserBehavior.csv | 包含所有的用户行为数据 | 用户ID,商品ID,商品类目ID,行为类型,时间戳 |
UserBehavior.csv
本数据集包含了2017年11月25日至2017年12月3日之间,有行为的约一百万随机用户的所有行为(行为包括点击、购买、加购、喜欢)。数据集的组织形式和MovieLens-20M类似,即数据集的每一行表示一条用户行为,由用户ID、商品ID、商品类目ID、行为类型和时间戳组成,并以逗号分隔。关于数据集中每一列的详细描述如下:
列名称 | 说明 |
用户ID | 整数类型,序列化后的用户ID |
商品ID | 整数类型,序列化后的商品ID |
商品类目ID | 整数类型,序列化后的商品所属类目ID |
行为类型 | 字符串,枚举类型,包括('pv', 'buy', 'cart', 'fav') |
时间戳 | 行为发生的时间戳 |
注意到,用户行为类型共有四种,它们分别是
[td]行为类型 | 说明 |
pv | 商品详情页pv,等价于点击 |
buy | 商品购买 |
cart | 将商品加入购物车 |
fav | 收藏商品 |
关于数据集大小的一些说明如下
[td]
维度 | 数量 |
用户数量 | 987,994 |
商品数量 | 4,162,024 |
用户数量 | 987,994 |
商品类目数量 | 9,439 |
所有行为数量 | 100,150,807 |