楼主: 时光永痕
804 0

[数据挖掘新闻] 分析商店访问者 [推广有奖]

  • 0关注
  • 14粉丝

svip3

学术权威

12%

(VIP/贵宾)八级

11%

威望
0
论坛币
26 个
通用积分
57.2238
学术水平
4 点
热心指数
4 点
信用等级
4 点
经验
34180 点
帖子
2732
精华
0
在线时间
321 小时
注册时间
2020-7-21
最后登录
2024-8-1

楼主
时光永痕 学生认证  发表于 2020-9-29 18:11:53 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
分析商店访问者
我们的电信客户正在开发一种大数据产品,该产品将描述商店访客的人口统计数据(年龄,性别,收入,种族,婚姻状况),这些访客从商店中放置的wi-fi路由器接收信息。客户端过去每天在其服务器中接收路由器数据的提要,然后将其上传到数据湖中的HDFS / Hive表中进行分析。
保持数据质量是一个严重的问题,没有这些报告,它们将是错误的。每天由自动R代码生成的电子邮件,用于对昨晚的数据负载进行完整性检查。过去曾对严重问题进行调查并报告以进行更正。
数据质量中的两个主要问题是过滤掉随身携带数据和员工数据。由于目标是分析商店访客数据,因此出于质量目的,我们需要排除这些噪音。
偷渡记录是由未进入商店但在经过的时候在wi-fi路由器中产生短暂会话的人们生成的wi-fi会话。在滤除持续时间少于90秒的会话之前,经过了很多分析,这些记录都是路过的记录。
上方直方图显示了来自5万条记录的Wi-Fi会话持续时间。有人解释说,在2小时的高峰时段是由商店中的员工每隔2小时休息一下而产生的。因此,任何持续时间约2小时的wi-fi会话都将被过滤掉,作为员工数据。
进行了许多此类数据科学分析,以验证客户为制定公司级和特许级市场决策而开发的商店访客分析器的功能。
1
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:访问者 持续时间 数据质量 数据科学 婚姻状况

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2026-2-5 17:14