楼主: 自由人NO.1
809 0

[中国统计年鉴] 忘记数据集大小,选型记住看周期 [推广有奖]

  • 0关注
  • 0粉丝

博士生

11%

还不是VIP/贵宾

-

威望
0
论坛币
65 个
通用积分
0
学术水平
5 点
热心指数
5 点
信用等级
5 点
经验
1712 点
帖子
150
精华
0
在线时间
37 小时
注册时间
2015-3-11
最后登录
2015-7-13

楼主
自由人NO.1 发表于 2015-5-26 10:02:30 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
你不想在大数据时代过多的表达自己的观点,但是大多数数据会完美的融入你的主内存。你的方法可能不会在跑数据上花费很长时间,但是你会花很多时间从原始数据中提取出特征,进行交叉验证。为你的学习方法比较不同特征提取管道和参数。大数据魔镜是一款免费的大数据可视化分析工具,可以让用户在数据中轻松表达自己的分析能力,并支持团队协作。

对于模型的选择,你可以通过大量的参数组合,评估一个相同的数据副本的性能。现在的问题就是所有的组合爆炸,比方说你有两个参数,它需要大约一分钟来训练你的模型,并获得一个结果来评估数据集的性能。如果每一个参数有5个候选数值,并且执行5倍交叉验证(把数据分割成5部分,测试5次,在每次迭代中使用不同的数据来测试),这意味着你需要运行25次来找出哪种方法的效果更好,这可能需要花费两个小时的时间。

好消息是这是很容易并行化的,因为不同的运行是完全相互独立的。这同样适用于特征提取,您通常使用相同的操作(解析,提取,转换等),以每个数据独立设置,导致一些“ 密集并行”(是的,这是一个技术术语)。

坏消息是这对做数据分析的人来说是很多的,因为所有的这些意味着对复杂办法实现拓展实现是没有什么需求的,但是对于储存的并行数据运用一些相同的算法在大多数情况下都非常有帮助。

当然是存在着类似于从TB级的广告数据学习全球的模型,或者对过亿用户的建议,但是有很多数据并不意味着你需要所有的数据,问题是有关于潜在学习问题的复杂性。如果这个问题可以用一个简单的模型解决,你就不需要用那么多的数据来推断模型的参数。这种情况下,采用数据的随机子集可能会有很大的帮助。正如我上面所说的,有时候正确的共您可以帮助他们减少所需要的数据点的数量。

总之知道如何正确的评价可以帮助你减少一个方法不能应用与未来数据的风险。获取正确的特征提取可能是最有效的方法来获得最好的结果。最后。并不总是大数据,分布式计算也可以帮助你。

大数据魔镜 首款免费的大数据可视化分析工具 www.moojnn.com

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据集 大数据可视化 大数据魔镜 可视化分析 数据可视化 团队协作 学习方法 管道 技术 模型

已有 1 人评分论坛币 收起 理由
ivannj + 10 精彩帖子

总评分: 论坛币 + 10   查看全部评分

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-27 04:24