[问题] 详细讲讲，training, test,validation之间区别，在预测中如何运用参数 [推广有奖]

11楼

pengyizhen 发表于 2012-9-5 17:45:46 |只看作者 |坛友微信交流群

我看到书上是这样说的：训练集training主要是用于模型的选择，testing集用于模型参数的选择，例如，已经选择了神经网络模型，那么还需要确定其具体参数，如隐含层应设为多少比较合适等，validation集用于计算模型误差，和效果

有你的参与与支持我们成长更快

使用道具举报

12楼

pengyizhen 发表于 2012-9-5 17:54:52 |只看作者 |坛友微信交流群

我也是对这个问题想了好久，也是不知道其中的原因的

有你的参与与支持我们成长更快

使用道具举报

13楼

--墨子-- 发表于 2012-10-28 01:07:26 |只看作者 |坛友微信交流群

如果只有一个模型，比如用Logistic + Enter，那把样本分为Training + Test就行；Training Sample用于训练模型，Test Sample用于检测效果；

如果要比较不同的模型，比如Logistic+Enter/Logistic+Forward/Logistic+backward/Logistic+stepwise/Neural Network/ClassificationTree，这样子用Training samle训练模型，然后用Validation sample去比较各个模型的performance，选出performance最好的模型，最后用这个模型去score test sample并给出最终的performance

关注我的微博: http://weibo.com/weizhangmozi

使用道具举报

14楼

cricke 发表于 2012-11-20 00:37:54 |只看作者 |坛友微信交流群

我来说几句：
train和validation一般来自同一个总体，具体比例依据实际情况而定，有5:5/6:4/7:3==。很多时候预测模型都是rare event，足够sample样本都很难得（如违约、欺诈），因此实际有些时候还是全部用于train，模型验证（test vs control）通过上线实施来确定。

理想情况下：
1、train用来拟合模型，可能对同一种算法有多种复杂度（涉及过拟合情况。甚至一次迭代认为是不同的模型或者不同复杂度的模型）的模型；
2、validation用来在上面多种复杂度的模型中选择出某一特定统计指标评估最优的模型，如decision tree的pruning；
多种模型（包括不同算法）的选择也是基于validation数据的某一特定统计指标（该指标可以同上面，如误分类率/ASE/ROC/GINI/KS==，不同类型目标用不同指标评估）最优；
3、test一般独立于train和validation，是模型上线后用roll out数据做验证（control vs test）；

使用道具举报

15楼

pengyizhen 发表于 2012-11-20 10:47:40 |只看作者 |坛友微信交流群

smyume
的具体内容在哪里呢？怎么没有看到

有你的参与与支持我们成长更快

使用道具举报

16楼

pengyizhen 发表于 2012-11-20 10:49:17 |只看作者 |坛友微信交流群

smyume 发表于 2012-7-4 12:57
坐等抽红包

smyume 的具体回复内容木有看到@

有你的参与与支持我们成长更快

使用道具举报

17楼

melody507 发表于 2012-11-21 22:31:28 |只看作者 |坛友微信交流群

。。。。。。。。。。。。。。。

使用道具举报

18楼

rockingzone 发表于 2020-1-1 10:16:21 |只看作者 |坛友微信交流群

training sample used to train the model; validation sample for validating and tuning the models; test sample for testing the model's ability to predit well on new data

使用道具举报