在网络游戏里,同时在线人数我知道是5分钟采集一次;一些光伏企业的监控元件也是几分
钟采集一次;这里大家的假设都是在这样一个时间区间里可能并不大足够满足特定的研究
需求、或者高频率直接来自大规模用户的操作,再或者高频的数据直接来自迅速变化的不
稳定系统,比如布朗运动。
频率越密越表示需要时时关注,是监控需要,因为对于正在进行的可持续活动,异常导致
中断直接意味着损失,网络游戏里面的充值、消费。光伏企业里面的发电量、收益。更直
接地,电子商务、投资领域里的实时交易。
最简单的,这样的高频的数据,源自大量的一条条完整信息的记录。
--------------------------------------------------------------------------------------------------------------
那么,出现一个问题,对于已经产生的实实在在的交易、行为数据,如何进行知识发现?
现在,我们用概率的统计的朴素概念,去看从这个角度出发的问题。
可以从两个方向去思考:
(1)先定义样本点,再定义事件,再获取样本空间估计,建设性的假设检验,结论、报告!
样本点就是用户的一次行为:交易、收藏、页面停留(5~7秒)等,用户的行为可能来自很多张表,
很多个库;定义如果发生了A、B、C三个点,就当做事件a发生。
比如,更改了页面框架布局从A到B,事件a发生的几率将提升多少。
(2)先定义事件、再定义样本点,再获样本空间估计,建设性的假设检验,结论、报告!
定义事件“商品A与商品B的协同购买”(出现在同一个订单中),“商品A与商品B不是协同购买”
诸多数据挖掘的技术将用在建设性的假设检验里面,同类别性,差异性,选择关系,决策方式,
趋势,关联规则,这些假设检验的判断来自你对业务的理解、判断。
----------------------------------------------------------------------------------------------------------------------------------------------
数据量N,也不过就是可数个而已,技术也不过就是技术而已,不是实在贡献者都无资格傲慢。
----------------------------------------------------------------------------------------------------------------------------------------------
数据库是如何采集数据的?
我想了一下数据采集的方式应该会随着应用场景的不同十分不同。
我自己用过的就是一个页面展示、点击的计数工具。
大家知道比较多的是GA,网站内各种用户行为的数据都会记录下来。
在日志分析领域,比较专业的是Webtrends。
我对如何它们如何采集、记录数据比较感兴趣。
(1)在一项服务在上线之前,要考虑做哪些数据采集工作,以及出于什么样的目的,你要开发哪些数据,你打算用
这些数据来干什么?这将和前面的第一个思考方向对接。
(2)对于一项已经上线的服务,已经采集了哪些数据,出于什么目的这些数据被采集,别人拿这些数据做了什么,
他们怎么用这些数据的?你能拿这些数据来干什么?这将和第二中思考方向进行对接。
(1)和(2)可以循环进行,不断扩展样本点群的范围,不断锁定目标样本空间。
该部分(1)和服务怎么对接?其实,也就是怎么开发数据库?
肯定的顺序依然是:业务分析—>数据库建模—>后台开发—>测试—>交付
可以将它循环拓展:业务分析—>数据库建模—>后台开发—>测试—>交付 —>业务分析
【优化建模[Product,Marketing]—>知识发现[Data Mining] —>优化验证—>报告】
我比较赞成的分析称谓是BA,根据侧重关注点的不同【】内包含内容十分丰富,可以垂直地划分一下,独立的进行,
彼此可以交流,但是以中间切断的方式只能划分,十分非人,最主要的是有弊利不大,这仅是我个人判断。我觉得
Ebay的分析职能框架就建的比较好。如何垂直的划分亦是十分有价值的问题。很厉害的MBA能做好这个事情。
关于为什么垂直划分,依然假设每种BA目标都是“我们想要什么”那个问题列表里面的若干,他们的不同的主要缘故在
他们要处理的问题不同,一方面优化出来结果可能是不同层面的,另一方面,从不同问题出发得到的优化结果可能是
相互冲突的,(即便他们的研究都有很高的可信度),所以,BA们的出发点只有一个“专业的角度”给出“专业的解答”
所以,需要确定的两点是Basic Skill和认同怎样的角度。
-----------------------------------------------------------------------------------------------------------------------------------------------