楼主: casey_c
790 0

[程序分享] Scikit-learn应用指南:数据的表示与可视化丨数析学院 [推广有奖]

  • 0关注
  • 10粉丝

博士生

92%

还不是VIP/贵宾

-

威望
0
论坛币
96 个
通用积分
2.0091
学术水平
2 点
热心指数
15 点
信用等级
2 点
经验
11502 点
帖子
278
精华
0
在线时间
94 小时
注册时间
2016-11-22
最后登录
2022-5-2

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

以下内容转自 数析学院,只节选了部分,有需要的同学可以直接查看原文

课程简介


机器学习算法是一种在数据上进行分析,进而得出规律,并利用规律来对未知数据进行预测的算法。但是现实生活中的大多数数据并不能直接用于训练机器学习算法,我们需要将数据重新表示成机器学习系统能够理解的形式。本节将主要介绍如何将数据表示成可用于算法学习的形式,同时,也将介绍如何可视化数据集,以便我们了解数据集的情况。


学习目标


  • 了解如何表示数据集

  • 了解如何可视化数据集

  • 了解 scikit-learn 中的数据集

  • 了解鸢尾花数据集

  • 了解其它数据集的获取

  • 了解数字数据集



1. scikit-learn 中的数据


除了极少数特例,scikit-learn 中的数据都被假设为一个形状如 [n_samples, n_features] 的二维数组。许多算法也可传入相同形状的 scipy.sparse 矩阵。


  • n_samples: 样本的数量: 每个样本都是一个要处理(例如:分类)的对象。样本可以是文件,图片,声音,视频,天文物体,数据库或 CSV 文件中的 一行,也可以是其它任何你能用一组确定的数量特征集合来描述的对象。

  • n_features: 特征或特质的数量,特征或特质可以用来以定量的方式描述每个对象。特征通常是实值的,但是在某些情况下也可能是布尔值或离散值。


特征的数量必须预先确定。然而,对于给定的样本其维度可能非常高(例如:数百万个特征),且其中大部分是 "0" ,这时 scipy.sparse 稀疏矩阵就变得十分有用,因为它比 NumPy 数组存储效率更高。


正如我们上一节所回顾的,我们将样本(数据点或实例)表示为数组中的行,并将对应的特征(也就是 "维度" )表示为列。


一个简单的例子:鸢尾花数据集


我们先了解一下 scikit-learn 中存储的鸢尾花数据集。该数据集由三种不同鸢尾花种类的测量结果组成,三种不同的鸢尾花如下图所示:

山鸢尾花(Iris Setosa)

1.jpeg

变色鸢尾花(Iris Versicolor)

2.jpeg

维吉尼亚鸢尾花(Iris Virginica)

3.jpeg

一个小提问:


假设我们对于新观测数据的分类更感兴趣; 想要预测未知的花种是山鸢尾花、变色鸢尾花还是维吉尼亚鸢尾花。在上部分讨论的内容的基础上,我们要如何构建这样的一个数据集呢?


记住: 我们需要一个 [n_samples x n_features] 维度的二维数组。


  • n_samples 表示什么呢?

  • n_features 表示什么呢?


请记住,每个样本都必须有一个确定值的特征数,并且特征数 j 对每个样本来说必须是相同的数值。


使用 Scikit-learn 加载鸢尾花数据集


为了接下来用机器学习算法进行实验,建议您将 http://archive.ics.uci.edu/ml/index.php 添加为书签,这个库容纳了许多常用的数据集,这些数据集可用于机器学习算法的基准测试 -- 对机器学习实践者和研究人员来说是非常欢迎的资源。为了方便使用,这些数据集中的一部分已经包含在 scikit-learn 中,这样我们就可以跳过下载,阅读,解析和清理文本/CSV文件这几个单调乏味的步骤。您可以在 scikit-learn 官网中找到可用的数据集列表:http://scikit-learn.org/stable/datasets/#toy-datasets


例如:scikit-learn 在鸢尾花种类上有一组非常简单的数据集。数据集包含以下内容:


  • 鸢尾花数据集中的特征:


  • 萼片长度(cm)

  • 萼片宽度(cm)

  • 花瓣长度(cm)

  • 花瓣宽度(cm)



  • 需要预测的目标分类:


  • 山鸢尾花

  • 变色鸢尾花

  • 维吉尼亚鸢尾花


4.jpeg

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝


您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-26 13:31