1.从scikit-learn上的datasets中直接下载的少量数据集:load_<name>()
例:(以红酒为例)
from sklearn.datasets import load_wine
Wine =load_wine()
Wine.data
2.直接从网上在线抓取的数据集:fetch_<name>()
例:(以california_housing 为例 )
fromsklearn.datasets import fetch_california_housing
california_housing =fetch_california_housing()
california_housing.data
3.计算机生成的数据集:make_<name>()
make_blobs:多类单标签数据集,为每个类分配一个或多个正太分布的点集
make_classification:多类单标签数据集,为每个类分配一个或多个正太分布的点集,提供了为数据添加噪声的方式,包括维度相关性,无效特征以及冗余特征等
make_gaussian-quantiles:将一个单高斯分布的点集划分为两个数量均等的点集,作为两类
make_hastie-10-2:产生一个相似的二元分类数据集,有10个维度
make_circle和make_moom产生二维二元分类数据集来测试某些算法的性能,可以为数据集添加噪声,可以为二元分类器产生一些球形判决界面的数据
datasets.get_data_home()方法:显示存放数据集存放的本地目录