向大家介绍在 Python 中利用 Scikit-Learn 工具库进行决策树分类器与随机森林模型建模的相关方法。
首先导入相关的的可视化工具:
- %matplotlib inline
- import numpy as np
- import matplotlib.pyplot as plt
- import seaborn as sns; sns.set()
运用 make_blobs 生成本节示例数据,300 个随机样本分为四个类型,如下图所示:
- from sklearn.datasets import make_blobs
- X, y = make_blobs(n_samples=300, centers=4,
- random_state=0, cluster_std=1.0)
- plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='rainbow');
接下来,我们导入 Scikit-Learn 中的 DecisionTreeClassifier 工具,构建并训练一个决策树分类器:
- from sklearn.tree import DecisionTreeClassifier
- tree = DecisionTreeClassifier().fit(X, y)
- def visualize_classifier(model, X, y, ax=None, cmap='rainbow'):
- ax = ax or plt.gca()
-
- # 绘制用于训练的样本点
- ax.scatter(X[:, 0], X[:, 1], c=y, s=30, cmap=cmap,
- clim=(y.min(), y.max()), zorder=3)
- ax.axis('tight')
- ax.axis('off')
- xlim = ax.get_xlim()
- ylim = ax.get_ylim()
-
- # 拟合估计值
- model.fit(X, y)
- xx, yy = np.meshgrid(np.linspace(*xlim, num=200),
- np.linspace(*ylim, num=200))
- Z = model.predict(np.c_[xx.ravel(), yy.ravel()]).reshape(xx.shape)
- # 根据估计结果绘制彩色区块
- n_classes = len(np.unique(y))
- contours = ax.contourf(xx, yy, Z, alpha=0.3,
- levels=np.arange(n_classes + 1) - 0.5,
- cmap=cmap, clim=(y.min(), y.max()),
- zorder=1)
- ax.set(xlim=xlim, ylim=ylim)
可以看到,我们训练的分类器模型以图中的色块区域将样本点划分为了不同的类型:
- visualize_classifier(DecisionTreeClassifier(), X, y)
以上内容节选自 数析学院,后文还有介绍 其他分类工具以及数字识别实例等,内容较多,先搬运到这,有需要的同学可以先直接到 数析学院 查看原文