楼主: 爱萌
29060 17

[问题] 详细讲讲,training, test,validation之间区别,在预测中如何运用参数 [推广有奖]

贵宾

已卖:262份资源

学术权威

54%

还不是VIP/贵宾

-

威望
8
论坛币
96603 个
通用积分
12.3686
学术水平
231 点
热心指数
299 点
信用等级
157 点
经验
102555 点
帖子
6174
精华
1
在线时间
2024 小时
注册时间
2007-3-2
最后登录
2025-12-1

楼主
爱萌 发表于 2012-7-4 12:57:11 |AI写论文
1000论坛币
training, test, validation之间的关系?预测的时候,其参数是怎么处理?怎么评估,分定性数据和连续性数据?

这是经验之谈,而不是理论

谢谢!

最佳答案

smyume 查看完整内容

坐等抽红包
关键词:Validation Training Valid Train ATION training 如何

本帖被以下文库推荐

最恨对我说谎或欺骗我的人

沙发
smyume 发表于 2012-7-4 12:57:12
坐等抽红包

藤椅
yangponingsui 发表于 2012-7-4 19:43:34
training是训练数据,拿来拟合模型,就是用这部分数据来建立模型,这个相信大家都明白。
validation是验证数据,刚才说training建了一个模型,但是模型的效果仅体现了训练数据,但不一定适合同类的其他数据,所以我们会在建模前会将数据分成两部分,一部分为训练数据,一部分为验证数据(两部分数据的比例大致为7:3,这取决于你验证的方法,详细说明我从网上摘了下放在本次说明的最下边,但愿你能看懂);另外,你也可能训练多个模型,但不知哪个模型性能更佳,这时可以将验证数据输入不同模型进行比较。
test是测试数据,它跟前两者的最大区别在于:training和validation数据均是同一时期的数据,如都是5-7月数据,但既然是测试,我们就需要用跨期的数据来验证模型的稳定性,此时,可采用8月单月数据或9月单月数据对建好的模型进行测试,看性能有没有下降或偏移。

==================
Holdout 验证常识来说,Holdout 验证并非一种交叉验证,因为数据并没有交叉使用。 随机从最初的样本中选出部分,形成交叉验证数据,而剩余的就当做训练数据。 一般来说,少于原本样本三分之一的数据被选做验证数据。

K-fold cross-validation{{K次交叉验证,初始采样分割成K个子样本,一个单独的子样本被保留作为验证模型的数据,其他K-1个样本用来训练。交叉验证重复K次,每个子样本验证一次,平均K次的结果或者使用其它结合方式,最终得到一个单一估测。这个方法的优势在于,同时重复运用随机产生的子样本进行训练和验证,每次的结果验证一次,10次交叉验证是最常用的。

已有 2 人评分经验 论坛币 收起 理由
胖胖小龟宝 + 40 + 5 精彩帖子
爱萌 + 40 这是知道

总评分: 经验 + 80  论坛币 + 5   查看全部评分

板凳
yangponingsui 发表于 2012-7-5 21:18:24
yangponingsui 发表于 2012-7-4 19:43
training是训练数据,拿来拟合模型,就是用这部分数据来建立模型,这个相信大家都明白。
validation是验证 ...
你知道当前美国实战界,在最后输出的模型中,用的是这3中数据集的什么数据吗?如果知道,你就是实战派高手了,呵呵。加油!

报纸
爱萌 发表于 2012-8-5 23:11:28
training test validation 各有其用,实践中有了体会
最恨对我说谎或欺骗我的人

地板
wodemac 发表于 2012-8-6 14:10:32
yangponingsui 发表于 2012-7-5 21:18
你知道当前美国实战界,在最后输出的模型中,用的是这3中数据集的什么数据吗?如果知道,你就是实战派高手 ...
请问大神所说的最后输出模型中,用的是这三个钟数据集的什么数据吗?指的是什么,谢谢!

7
wodemac 发表于 2012-8-6 14:11:05
yangponingsui 发表于 2012-7-4 19:43
training是训练数据,拿来拟合模型,就是用这部分数据来建立模型,这个相信大家都明白。
validation是验证 ...
同意ls观点

8
wodemac 发表于 2012-8-6 14:16:11
training和validation都是我们建模时用的数据集,区别就是把建模数据集一开始要分成train和validation数据集。test数据集是新的数据集,跟之前没有关系,为了测试我们建立的模型稳定性如何。定性变量如果分类较多,就要进行定性变量压缩,把它压缩成几个虚拟变量。连续变量也涉及到变量的压缩,主要是自变量跟因变量不是线性关系,我们要进行变量变换,这样才能满足模型的要求。

9
爱萌 发表于 2012-8-6 19:34:58
wodemac 发表于 2012-8-6 14:16
training和validation都是我们建模时用的数据集,区别就是把建模数据集一开始要分成train和validation数据集 ...
是否可以在详细一些
最恨对我说谎或欺骗我的人

10
yangponingsui 发表于 2012-9-4 12:54:44
建模的关键不在如何划分和理解这些数据集(相信很多人都清楚这3类数据集),之前提到的最后建模用什么数据,就是指这三种数据集中的哪部分(答案就是所有数据,并不区分3类数据集,并用其中一类数据去建模)

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2026-1-31 11:46