楼主: casey_c
1501 1

[程序分享] 使用决策树分类器进行花朵分类 [推广有奖]

  • 0关注
  • 10粉丝

博士生

92%

还不是VIP/贵宾

-

威望
0
论坛币
96 个
通用积分
2.1003
学术水平
2 点
热心指数
15 点
信用等级
2 点
经验
11502 点
帖子
278
精华
0
在线时间
94 小时
注册时间
2016-11-22
最后登录
2022-5-2

楼主
casey_c 发表于 2017-7-25 10:34:29 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币



以下内容转自 数析学院,只节选了部分,有需要的同学可以直接查看原文

创建一个 demo 机器学习模型,模型从花朵(萼片长度,萼片宽度,花瓣长度和花瓣宽度)进行四次测量,并根据这些测量值来识别物种。

开始将数据读入 pandas DataFrame。

  1. import pandas as pd

  2. iris_data = pd.read_csv('iris-data.csv')
  3. iris_data.head()
复制代码
1.jpg

数据文件中的第一行定义了列名,描述足以让我们了解每列所代表的内容,甚至给了记录测量的单位。
第一行后面的每一行代表一个花的观测值:四个测量值和一个类,告诉我们花的种类。
首先,我们要找缺失数据。 值得庆幸的是,研究人员告诉我们,当他们缺少测量值时,会将“NA”填入电子表格中。
如果 pandas 知道缺失值标记,我们可以告诉 pandas 自动识别缺失值。


  1. iris_data = pd.read_csv('iris-data.csv', na_values=['NA'])
复制代码


接下来,观察数据的分布 - 特别是离群值。

我们首先打印一些关于数据集的汇总数据。

  1. iris_data.describe()
复制代码

2.jpg


我们可以从这个表中看到几个有用的值。

不过,像这样的表很少有用,除非我们知道我们的数据应该在一个特定的范围内。通常以某种方式可视化更好。可视化使得异常值和错误立即脱颖而出,否则它们可能在一大张数字表格中被忽视。

进行 notebook 绘图设置

  1. %matplotlib inline

  2. import matplotlib.pyplot as plt
  3. import seaborn as sb
复制代码

接下来,我们来创建一个 scatterplot matrix。scatterplot matrix 沿着对角线绘制每列的分布,然后绘制每个变量的组合的散点图矩阵。它们为查找数据中的错误提供了一种有效的工具。

  1. # 我们不得不暂时删除有 “NA” 值的行,因为Seaborn绘图函数不知道怎么处理它们
  2. sb.pairplot(iris_data.dropna(), hue='class')
复制代码

3.jpg


从 scatterplot matrix,我们可以看到数据集的一些问题:

出现五个类,本应该只有三个,意味着有一些编码错误。

在测量中有一些明显的异常值可能是错误的: Iris-setosa 的 sepal_width_cm 条目在正常范围之外,几个 Iris-versicolor 的  sepal_length_cm 条目接近零。

我们不得不删除那些含有缺少值的行。

在这些情况下,我们需要弄清楚如何处理错误的数据。下面进入下一步整理数据


以上内容节选自 数析学院,原文内容较多,先搬运到这,后续有时间再补充,有需要的同学可以先直接到 数析学院 最新课程查看原文


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:决策树 分类器 scatterplot Matplotlib Dataframe

沙发
casey_c 发表于 2017-7-28 10:13:05

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-31 08:15