楼主: EchoEstelle
1356 0

[统计软件] 数据采集频率&数据量&Data Mining&BA [推广有奖]

  • 0关注
  • 31粉丝

教授

56%

还不是VIP/贵宾

-

威望
0
论坛币
6772 个
通用积分
1.2139
学术水平
220 点
热心指数
149 点
信用等级
90 点
经验
22842 点
帖子
498
精华
7
在线时间
839 小时
注册时间
2010-3-10
最后登录
2016-7-20

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
在网络游戏里,同时在线人数我知道是5分钟采集一次;一些光伏企业的监控元件也是几分
钟采集一次;这里大家的假设都是在这样一个时间区间里可能并不大足够满足特定的研究
需求、或者高频率直接来自大规模用户的操作,再或者高频的数据直接来自迅速变化的不
稳定系统,比如布朗运动。

频率越密越表示需要时时关注,是监控需要,因为对于正在进行的可持续活动,异常导致
中断直接意味着损失,网络游戏里面的充值、消费。光伏企业里面的发电量、收益。更直
接地,电子商务、投资领域里的实时交易。

最简单的,这样的高频的数据,源自大量的一条条完整信息的记录。
--------------------------------------------------------------------------------------------------------------
那么,出现一个问题,对于已经产生的实实在在的交易、行为数据,如何进行知识发现?
现在,我们用概率的统计的朴素概念,去看从这个角度出发的问题。

可以从两个方向去思考:

(1)先定义样本点,再定义事件,再获取样本空间估计,建设性的假设检验,结论、报告!
样本点就是用户的一次行为:交易、收藏、页面停留(5~7秒)等,用户的行为可能来自很多张表,
很多个库;定义如果发生了A、B、C三个点,就当做事件a发生。
比如,更改了页面框架布局从A到B,事件a发生的几率将提升多少。

(2)先定义事件、再定义样本点,再获样本空间估计,建设性的假设检验,结论、报告!
定义事件“商品A与商品B的协同购买”(出现在同一个订单中),“商品A与商品B不是协同购买”

诸多数据挖掘的技术将用在建设性的假设检验里面,同类别性,差异性,选择关系,决策方式,
趋势,关联规则,这些假设检验的判断来自你对业务的理解、判断。
----------------------------------------------------------------------------------------------------------------------------------------------
数据量N,也不过就是可数个而已,技术也不过就是技术而已,不是实在贡献者都无资格傲慢。
----------------------------------------------------------------------------------------------------------------------------------------------
数据库是如何采集数据的?
我想了一下数据采集的方式应该会随着应用场景的不同十分不同。
我自己用过的就是一个页面展示、点击的计数工具。
大家知道比较多的是GA,网站内各种用户行为的数据都会记录下来。
在日志分析领域,比较专业的是Webtrends。
我对如何它们如何采集、记录数据比较感兴趣。
(1)在一项服务在上线之前,要考虑做哪些数据采集工作,以及出于什么样的目的,你要开发哪些数据,你打算用
这些数据来干什么?这将和前面的第一个思考方向对接。
(2)对于一项已经上线的服务,已经采集了哪些数据,出于什么目的这些数据被采集,别人拿这些数据做了什么,
他们怎么用这些数据的?你能拿这些数据来干什么?这将和第二中思考方向进行对接。
(1)和(2)可以循环进行,不断扩展样本点群的范围,不断锁定目标样本空间。

该部分(1)和服务怎么对接?其实,也就是怎么开发数据库?
肯定的顺序依然是:业务分析—>数据库建模—>后台开发—>测试—>交付
可以将它循环拓展:业务分析—>数据库建模—>后台开发—>测试—>交付 —>业务分析
                              【优化建模[Product,Marketing]—>知识发现[Data Mining] —>优化验证—>报告】

我比较赞成的分析称谓是BA,根据侧重关注点的不同【】内包含内容十分丰富,可以垂直地划分一下,独立的进行,
彼此可以交流,但是以中间切断的方式只能划分,十分非人,最主要的是有弊利不大,这仅是我个人判断。我觉得
Ebay的分析职能框架就建的比较好。如何垂直的划分亦是十分有价值的问题。很厉害的MBA能做好这个事情。

关于为什么垂直划分,依然假设每种BA目标都是“我们想要什么”那个问题列表里面的若干,他们的不同的主要缘故在
他们要处理的问题不同,一方面优化出来结果可能是不同层面的,另一方面,从不同问题出发得到的优化结果可能是
相互冲突的,(即便他们的研究都有很高的可信度),所以,BA们的出发点只有一个“专业的角度”给出“专业的解答”

所以,需要确定的两点是Basic Skill和认同怎样的角度。
-----------------------------------------------------------------------------------------------------------------------------------------------








二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Data Mining ning Mini Data 数据采集 气象站 监控 电子商务 光伏企业 数据采集

已有 1 人评分经验 学术水平 热心指数 收起 理由
yangyuzhou + 60 + 1 + 1 鼓励积极发帖讨论

总评分: 经验 + 60  学术水平 + 1  热心指数 + 1   查看全部评分

我非我见我释我是我非我
您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-4 23:04