5612 8

[基础理论] 数据分析:预测模型到底要大数据还是小数据? [推广有奖]

企业贵宾

已卖:160份资源

巨擘

0%

还不是VIP/贵宾

-

威望
4
论坛币
624047 个
通用积分
180.5582
学术水平
918 点
热心指数
987 点
信用等级
841 点
经验
399203 点
帖子
9786
精华
48
在线时间
17322 小时
注册时间
2014-8-19
最后登录
2022-11-2

楼主
widen我的世界 学生认证  发表于 2016-3-14 16:01:49 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

数据分析:

    预测模型到底要大数据还是小数据?


很多数据分析专家都对大数据抱有很大的希望。但是在预测分析世界大会上,演讲者讲到预测分析模型,对大数据并不是很乐观。


StatSoft的高级数据分析师兼数据挖掘顾问Gary Miner表示:“大数据对我来说只是一个炒得很热的概念,并没有什么新鲜的。”


Miner认为,对于大数据究竟是什么,仍存在争议。广为流传的是IBM提出的三个V,即规模大、速度快和种类多。但是,要想用一个精确地量来定义“大”数据,这本身就是不精确的。有人说几TB,有人说几百TB。


(124).jpg



样本代替总量


Miner的感受是,对大数据,人们言过其实了。相反,分析小规模数据集倒来的更实际。他举了一些医学实验如何通过不足100的病例取得研究成果的例子。因为更小、更精良的数据集更容易过滤“噪声”,获得“信号”。


存储空间的成本正在降低,这让分析界倾向于分析全部数据集。不过Miner 认为通过随机样本,你会更快速地获得更好的结果。


“如果你想从数据中挖掘因果关系,你最好分析小数据集。”


旅游社区TripAdvisor商业部门的分析总监Michael Berry表示,在大数据时代,人们希望通过部署一个技术,就可以解决多种问题。供应商们正在积极迎合这种需求,声称自己的大数据软件可以极大地简化业务分析项目。但Berry认为,这种简单便捷的解决方案基本上只是一种幻想。


“这只是一种营销策略,从来没有实现过。”


Berry建议,与其坐等大数据软件来解决一切问题,不如去提升自己的预测模型。定义预测模型的变量要比放入模型中的大规模数据有用的多。


Berry认为,在模型中加入更多的数据反而会增加分析的时间。在分析数据集的时候,样本足以揭示总量的规律,而且更快捷。如果分析了100个数据节点之后,样本已经显而易见了,就不需要继续分析剩下的十万个数据节点了。这样只会延长项目,降低收益。


(116).jpg



数据质量


并不是每一个人都这样看衰大数据。广告代理商Carmichael Lynch的数据分析战略家Peter Amstutz认为,在创建预测模型的时候,尽可能多的收集数据变量是很重要的。有时,可以通过一个标准记录的数据源积累信息变量,但很多时候,组织会得到大量的非结构化数据。这时,大数据就派上用场了。


Amstutz最近帮助Subaru部署了一个提升建模项目,汽车制造商可以通过它更精确地锁定目标客户。Amstutz表示,他一直在寻找包含客户信息的新的数据源,以便于建立目标客户的个人档案。参照这些变量,广告商就可以更精确地找到目标客户。


数据分析供应商ForeSee移动、媒体和娱乐的高级总监Eric Feinberg认为,最重要的是数据的质量,而不是规模。大数据只有在标准和精确的条件下才有用。


他强调,不同行业应用大数据分析有所不同。在研究销售趋势的时候,明显的峰值只会增加噪点,让人难以判断真实的趋势。而在欺诈检测中,峰值正是分析人员要分析的。所以使用少量样本的时候,销售预测效果较好,但要进行欺诈检测,就得依靠大数据了。


另一方面,更传统的方法或许效果更佳。Feinberg举了医疗器械公司想要完善心脏病客户个人档案的例子。医疗器械公司可以通过收集大数据找到相似客户的共同点,或者花钱找几个心脏病患者过来。


“两者是一样的。甚至后者更难,因为它要花费更多的时间,但结果是一个成熟的数据集。”


(111).jpg


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:预测模型 数据分析 大数据 小数据 Carmichael 数据分析 预测模型到底要大数据还是小数据? 大数据 小数据


https://www.cda.cn/?seo-luntan
高薪就业·数据科学人才·16年教育品牌

沙发
我有我的love 在职认证  发表于 2016-3-14 16:02:36
对于大数据究竟是什么,仍存在争议。广为流传的是IBM提出的三个V,即规模大、速度快和种类多。但是,要想用一个精确地量来定义“大”数据,这本身就是不精确的。有人说几TB,有人说几百TB。

藤椅
Aloha遇见你 在职认证  发表于 2016-3-14 16:03:09
在创建预测模型的时候,尽可能多的收集数据变量是很重要的。有时,可以通过一个标准记录的数据源积累信息变量,但很多时候,组织会得到大量的非结构化数据。这时,大数据就派上用场了。

板凳
热爱你的热爱 在职认证  发表于 2016-3-14 16:03:47
不同行业应用大数据分析有所不同。在研究销售趋势的时候,明显的峰值只会增加噪点,让人难以判断真实的趋势。而在欺诈检测中,峰值正是分析人员要分析的。所以使用少量样本的时候,销售预测效果较好,但要进行欺诈检测,就得依靠大数据了。

报纸
离婚律师 在职认证  发表于 2016-3-29 18:33:59
大数据营销是基于多平台的大量数据,依托大数据技术的基础上,应用于互联网广告行业的营销方式。大数据营销衍生于互联网行业,又作用于互联网行业。依托多平台的大数据采集,以及大数据技术的分析与预测能力,能够使广告更加精准有效,给品牌企业带来更高的投资回报率。

地板
点滴记录life 在职认证  学生认证  发表于 2016-3-29 18:42:53
大数据营销是基于多平台的大量数据,依托大数据技术的基础上,应用于互联网广告行业的营销方式。大数据营销衍生于互联网行业,又作用于互联网行业。依托多平台的大数据采集,以及大数据技术的分析与预测能力,能够使广告更加精准有效,给品牌企业带来更高的投资回报率。

7
我心孤独 在职认证  发表于 2016-3-29 18:50:39
大数据迷思和对线下操作的批评反映的是一种片面技术倾向,过重的技术视角只会抹杀互联网金融在交易主体、交易渠道、用户体验、普惠思维方面的巨大优势与革新价值。当前的互联网金融企业向别人忽悠下大数据未尝不可——只是,千万不要把自己也忽悠进去了。

8
心从未停止呼吸 在职认证  发表于 2016-3-29 19:02:07
不要为了大数据而作大数据,初以为略有道理,现在发现,仍有很多人埋在这个坑里,为了大数据而做大数据,不仅是现在一些创业者和投资者的误区,甚至很有可能在未来的一小股泡沫中,越吹越大,这股泡沫什么时候来谁也不知,或许半年,或许两年。

9
临时同居 在职认证  发表于 2016-3-29 19:11:24
大数据的鼓吹者希望人们相信,在一行行的代码和庞大数据库的背后存在着有关人类行为模式的客观、普遍的洞察,不管是消费者的支出规律、犯罪或恐怖主义行动、健康习惯,还是雇员的生产效率。但是许多大数据的传道者不愿正视其不足。数字无法自己说话,而数据集——不管它们具有什么样的规模——仍然是人类设计的产物。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2026-1-2 21:46