请选择 进入手机版 | 继续访问电脑版
楼主: hyang1985
2954 0

[程序分享] 手把手教你分析电商评论数据——爬虫+NLP分析近3万条京东、天猫婴儿用品用户评论 [推广有奖]

  • 0关注
  • 0粉丝

初中生

76%

还不是VIP/贵宾

-

威望
0
论坛币
1002 个
通用积分
26.5934
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
96 点
帖子
6
精华
0
在线时间
22 小时
注册时间
2016-2-3
最后登录
2022-8-25

hyang1985 发表于 2022-5-27 11:01:58 |显示全部楼层 |坛友微信交流群
相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
一、数据获取
我们选取大多数人购物最常光顾的两个网站——京东、天猫,并选取一些品牌商品销量最大或关注度最高的店铺——一般就是官方自营店或旗舰店,采用request或selenium记录下京东、天猫用户的评论数据。不论京东还是天猫,用户评论数据都默认展示100页,每个店铺评论数据可以使用一个url携带cookie获得,返回的对象包含在一个json对象中。通过对json对象进行“拆包”便可获取用户评论的内容、时间、id等关键信息。
二、数据预处理
我们将京东、天猫数据合并,并增加一列用户的评分,由于天猫原始数据不展示用户对该商品的评分,所以我们使用第三方的开源平台——百度飞浆对评论进行情感分析,该分析返回一段文字为正面情感的概率,那么我们将该值乘以5,作为对此条用户评论的评分,这样做的好处是不需要训练数据并省去了模型训练的过程。
基于上述评论数据和用户评分,我们可以按照品牌、渠道(京东、天猫)等不同的维度查看用户评论数据,在此我们将数据可视化结果展示如下,有兴趣的读者可以查看原文:https://mp.weixin.qq.com/s?__biz ... 08269&lang=zh_CN#rd,并后台留言获取完整notebook
三、部分结果展示限于篇幅,我们只展示部分分析结果
3.1用品评论的时间分布

3.1婴儿用品用户评论时间分布.png

从图中我们可以看出,我们选取的28000余条婴儿用品用户评论数据的时间分布,在疫情最为严重的2020年一季度,评论数据最为稀少,此后的高峰出现在6月和11月,这恰好与两大电商的传统促销时间6.18,双11吻合。此外,2021年双11的用户评论明显多于2020年11月,2021年四季度用户评论数据也多于2020年四季度,考虑到国家全面放开3胎的时间为2021年5月,不排除2022年有可能会出现一波生育小高峰,当然具体数字还需要各位等待统计局的公布。


3.2各渠道(京东、天猫)按商品大类婴儿用品用户评论的时间分布 3.2各渠道(京东、天猫)按商品大类婴儿用品用户评论的时间分布.png

从图中我们可以看出,婴儿车、婴儿床等耐用品的用户评论数,天猫远远多于京东,而纸尿裤、1段奶粉两类快消品在2020年时,天猫的评论数据多于京东,2021年后出现了反转,更为奇特的是6月作为京东618传统促销季,11月作为天猫双11传统促销季,这两个月出现了天猫商品评论数和京东商品评论数倒挂的现象,这可能说明京东、天猫在对方促销季推出了更优惠的力度,从而促使用户购买量激增。


3.3各渠道(京东、天猫)一段奶粉评论的字数分布

3.3各渠道(京东、天猫)一段奶粉评论的字数分布.png

从图中我们可以看出,京东用户撰写评论显然更走心,字数均值都在100字左右,而天猫用户普遍不到50字。从品牌看,爱他美和A2的奶粉用户评论较多,而君乐宝的用户评论最少。上图使用的图表类型为箱线图,关注本频道的读者们对于这种类型的图表应该不陌生,它能直观反映一组数据的最小值、25%分位数、中位数、75%分位数和最大值,以及最大值上面无统计意义的偏离值。不过对于用户评论字数的统计,最大值上方的散点可以反映重度用户,也就是撰写评论字数特别多用户的数量以及他们所撰写的评论数。


3.4各一段奶粉品牌用户评分 3.4各一段奶粉品牌用户评分.png

从条数看,飞鹤的5星好评条数虽然最多,但这可能与其本身销量大,用户评价多有关系,如果从5星好评占比看,飞鹤则滑落至垫底,A2评价最高。上述按百分比形成的堆叠图,小编也放到了notebook中,并封装成了一个函数,有兴趣的读者可以直接查看并使用。



3.5各一段奶粉品牌用户评论形成的词云

3.5各一段奶粉品牌用户评论形成的词云.png


四、结语

用户评论作为电商平台重要的数据不仅可以为我们网购提供参考,我们认为除此之外还蕴含着巨大的价值,至少有以下一些功能和用户:

1、通过评论的时间分布,反向推算商品的销量以及618,双11的促销力度和用户购买量;

2、通过评论字数的比较可以看出用户对不同品牌商品的关注度;

3、如果某些电商平台——如天猫未提供逐条评论的用户评分值,那么我们可以基于第三方人工智能库,如本文使用的百度飞浆进行用户评论的情感分析,这样就能够基于用户的评论文字大致给出对本次购物的评分;

4、通过用户评论的词云,我们能够直观展示不同品牌商品的差异化优势,而对于一些正面评价的词语如“好”,“不错”,如果字体越大,那么用户的整体好评也越高。



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:婴儿用品 NLP 手把手 Dataframe Sentiment

3.1婴儿用品用户评论时间分布.png
您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-3-29 07:49