- 使用sklearn转换器处理数据
- 构建并评价聚类模型
- 构建并评价分类模型
- 构建并评价回归模型
说明一下:这篇文章先介绍第一点使用sklearn转换器处理数据。(ps:由于发帖的字节限制,可能得分成两个帖子发出去了,这个是上篇)接下来,看情况,有时间的话会继续补充后面的内容。
☀datasets模块常用数据集加载函数及其解释:
⭐sklearn库的datasets模块集成了部分数据分析的经典数据集,可以使用这些数据集进行数据预处理,建模等操作,熟悉sklearn的数据处理流程和建模流程。
⭐datasets模块常用数据集的加载函数与解释如下表所示。
⭐使用sklearn进行数据预处理会用到sklearn提供的统一接口——转换器(Transformer)。
⭐加载后的数据集可以视为一个字典,几乎所有的sklearn数据集均可以使用data,target,feature_names,DESCR分别获取数据集的数据,标签,特征名称和描述信息。


代码如下:
from sklearn.datasets import load_boston
data = load_boston()
data.keys() #查看键名称,如下所示分别对应:
data['data'] #返回多维数组,提取data,波士顿房价所有属性的数据
将数据集划分为训练集和测试集
常用划分方式:⭐在数据分析过程中,为了保证模型在实际系统中能够起到预期作用,一般需要将样本分成独立的三部分: •训练集(train set):用于估计模型。
•验证集(validation set):用于确定网络结构或者控制模型复杂程度的参数。
•测试集(test set):用于检验最优的模型的性能。
⭐典型的划分方式是训练集占总样本的50%,而验证集和测试集各占25%。
K折交叉验证法:
⭐当数据总量较少的时候,使用上面的方法将数据划分为三部分就不合适了。⭐常用的方法是留少部分做测试集,然后对其余N个样本采用K折交叉验证法,基本步骤如下:
•将样本打乱,均匀分成K份。
•轮流选择其中K-1份做训练,剩余的一份做验证。
•计算预测误差平方和,把K次的预测误差平方和的均值作为选择最优模型结构的依据。
train_test_split函数:
⭐sklearn的model_selection模块提供了train_test_split函数,能够对数据集进行拆分,其使用格式如下。
sklearn.model_selection.train_test_split(*arrays, **options)[table=98%]
[tr][td=155]
参数名称
[/td][td=756]说明
[/td][/tr][tr][td=155]
*arrays
[/td][td=756]接收一个或多个数据集。代表需要划分的数据集,若为分类回归则分别传入数据和标签,若为聚类则传入数据。无默认。
[/td][/tr][tr][td=155]
test_size
[/td][td=756]接收float,int,None类型的数据。代表测试集的大小。如果传入的为float类型的数据则需要限定在0-1之间,代表测试集在总数中的占比;如果传入为int类型的数据,则表示测试集记录的绝对数目。该参数与train_size可以只传入一个。在0.21版本前,若test_size和train_size均为默认则testsize为25%。
[/td][/tr][tr][td=155]
train_size
[/td][td=756]接收float,int,None类型的数据。代表训练集的大小。该参数与test_size可以只传入一个。
[/td][/tr][tr][td=155]
random_state
[/td][td=756]接收int。代表


雷达卡







京公网安备 11010802022788号







