楼主: casey_c
1512 0

Scikit-learn应用指南:训练数据与测试数据丨数析学院 [推广有奖]

  • 0关注
  • 10粉丝

博士生

92%

还不是VIP/贵宾

-

威望
0
论坛币
96 个
通用积分
2.0091
学术水平
2 点
热心指数
15 点
信用等级
2 点
经验
11502 点
帖子
278
精华
0
在线时间
94 小时
注册时间
2016-11-22
最后登录
2022-5-2

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

课程简介


模型的泛化能力怎样,直接影响到模型在实际生产中的工作效果。我们对于算法学习中所用到的数据集的处理方法更是起着决定因素。为了提升模型的泛化能力,我们需要对数据集进行划分处理,即分成训练集和测试集。本节将介绍划分数据集的重要意义,以及怎样划分数据集,如何划分更好等等问题。


学习目标


  • 了解训练集与测试集

  • 了解如何划分训练集与测试集

  • 了解如何更好地划分训练集与测试集


  1. %matplotlib inline
  2. import matplotlib.pyplot as plt
  3. import numpy as np
复制代码

一、划分训练集与测试集

为了评估我们的监督模型的泛化能力怎样,我们可以将数据划分成一个训练集和一个测试集: 屏幕快照 2018-03-26 下午1.36.14.png

  1. from sklearn.datasets import load_iris
  2. from sklearn.neighbors import KNeighborsClassifier

  3. iris = load_iris()
  4. X, y = iris.data, iris.target

  5. classifier = KNeighborsClassifier()
复制代码

思考机器学习的工作原理,有助于理解训练/测试数据划分想法的意义。真实世界的系统训练他们所拥有的数据,而对于其他数据来源(来自客户,传感器,或其他的来源),已经训练过的分类器必须在全新的数据集上进行预测。我们可以在训练期间使用训练/测试划分来模拟该过程 - 测试数据是在生产期间将进入系统的"未来数据"的模拟。


特别对于鸢尾花,鸢尾花中的150个标签是按类别进行排序的,这意味着如果我们使用某个比例来划分数据,这将导致从根本上改变类别分布。例如,如果我们采用普遍的2/3的训练数据和1/3的测试数据进行划分,我们的训练数据集将只包括类别为0和1(Setosa和Versicolor)的鸢尾花,我们的测试集将只包含类别标签为2(维吉尼亚鸢尾花)的样本。


假设所有样本都是相互独立的(对比时间序列数据),我们希望在划分数据集之前随机排列数据集。

  1. y
复制代码

屏幕快照 2018-03-26 下午1.38.19.png

现在我们需要把数据划分成训练集和测试集。幸运的是,这是机器学习中的一种常见模式,scikit-learn 具有将数据集划分成训练集和测试集的预处理功能。在这里,我们使用50%的数据作为训练集,50%作为测试集。80%和20%是另一个普遍的划分比例,没有硬性规定。最重要的是要确保使用没有用到过的数据来评估你的系统!

  1. from sklearn.model_selection import train_test_split

  2. train_X, test_X, train_y, test_y = train_test_split(X, y,
  3.                                                     train_size=0.5,
  4.                                                     test_size=0.5,
  5.                                                     random_state=123)
  6. print("Labels for training and testing data")
  7. print(train_y)
  8. print(test_y)
复制代码

以上内容转自 数析学院,只节选了部分,有需要的同学可以直接查看原文


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:scikit-learn Learn 应用指南 训练数据 测试数据

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-1 04:28