763 0

[问题] 新手该如何入门数据挖掘这一领域? [推广有奖]

  • 0关注
  • 66粉丝

教授

55%

还不是VIP/贵宾

-

威望
1
论坛币
13016 个
通用积分
63.9349
学术水平
26 点
热心指数
25 点
信用等级
15 点
经验
8663 点
帖子
617
精华
0
在线时间
170 小时
注册时间
2016-12-6
最后登录
2017-4-8

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
新手该如何入门数据挖掘这一领域?

先要知道数据有哪些,什么结构,也就是把所知的东西统统摆在桌子上才好研究到底怎么开展分析挖掘。举个例子,如果问你,”请分析访问你网站的用户家里的平均温度是多少“,你怎么办?从表面呈现的数据来说,用户访问你网站,留下的有cookies、web log、user-agent、system version、IP、等等,但是没有一个标准的、且大部分用户都拥有的I/O设备(对用户家里的温度检测的设备,采样到数据并在用户访问你网站时提交这个数据),所以,甭想能直接拿到数据分析到底用户家里的平均温度是多少。或许,你第一反应就是回绝提出这个分析请求的任务。

然后你已经知道能搞到什么数据了,再是了解这些数据的意义。还是刚才的例子,虽然我们不知道气温,但我们知道IP,IP可以通过LBS、IP-geo等的方式变成地理信息,你会约莫知道,访问你网站的用户,约莫有40%的人在广东,30%的人在上海等等,然后加上时间的参数,查阅当时的天气历史数据,你就能算出40%的人大概平均温度30度,30%的人平均温度25度,似乎,你就能算出访问你网站的用户家里的平均温度了。


跟着你可能发现这里出问题了,访问你网站的用户家里的平均温度有个屁意义啊,平均下来个28度,干嘛?好吧,其实一开始就是一个傻问题。其实,你是一个卖床上用品的电商网站,市场人员突然想起最近要促销一堆短袖T恤和长袖T恤,路过运营中心时,刚好想到用温度来问问题,试图单纯用平均温度来决定促销长袖好还是短袖好。你接到这个任务,分析至此应该把这提出问题的人抓来讨论一下”平均温度是没意义的挖掘结果,但40%的人在广东,30%的人在上海这个数据却又用了“。


最后,叫来技术和产品人员,定下了一个规则:如果发现用户是广州来的,页面首推的是短袖T恤,如果用户是上海来的,则推长袖T恤。3天后这个效果实现了。


哈哈,数据挖掘的你似乎完美的完成了任务,网站的销售量节节攀升。。。

其实很多时候并不是如设想般,实际上当你改了这个规则后,反而发现广州和上海都在买短袖而没人买长袖,之后你再挖掘才发现,原来广州和上海都不喜欢长袖的设计,因为上面印了红歌的style,结果很多重庆的人在买,虽然哪儿气温快40度了。

明白没?就是反反复复的折腾:
1、搞清楚数据、数据结构是什么
2、手上的这些数据和结构能直接推论什么结果,和背后能演算什么结论
3、一开始的问题可能是伪命题,在挖掘的过程中搞清楚真命题,修正挖掘方向
4、挖掘的结果实用化,再后续发现”没道理“的现象,再修正


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据挖掘 Version cookies System Cookie 数据挖掘入门 数据挖掘难不难 零基础学数据挖掘 数据挖掘结果

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-19 21:02