Scikit-Learn简称sklearn,是一个开源的Python机器学习库,它建立在NumPy、SciPy和Matplotlib之上。自2007年发布以来,已经成为Python重要的机器学习库。其包括分类、回归、降维和聚类四大机器学习算法,还包括了特征提取、数据处理和模型评估三大模块。
Scikit-Learn的设计目标之一是提供简单一致的API,使得机器学习任务变得更加容易。学会了一个模式就可以快速地学会其他类型的学习模式。

Scikit-learn六大模块
Scikit-learn六大模块
- 分类:识别某个对象属于哪个类别
- 算法: KNN
- 算法: KNN
- 应用: 垃圾邮件检测,图像识别
- 算法: 线性回归 Lasso回归 决策树回归 随机森林回归 XGboost回归
- 应用: 房价预测,时间序列预测
- 算法: k-Means
- , spectral clustering, mean-shift,基于层次聚类 基于密度聚类
- 应用: 客户细分;将数据分成相似的组。
- 算法: 因子分析 PCA
- ICA LDA, 属性降维
- 应用: 可视化;减少数据的特征维度,以简化问题并提高计算效率
- 模型选择:比较,验证,选择参数和模型
- 模型: Metrics Scoring模型得分 Grid search 网格搜索 Cross Validation 交叉验证 Hyper-Parameters 超参数选择 Validation curves 模型验证曲线
- 目标: 通过参数调整提高精度
- 数据预处理:特征选择,特征提取和归一化
- 算法: Standardization标准化 Scaling Features归一化 Non-linear transformation非线性转化Gaussian distribution高斯分布转化 Normalization正则化 Encoding categorical features类别性编码处理
- 应用: 把输入数据转换为机器学习算法可用的数据
快速了解scikit-learn库中的模块、类、函数
- 先观其大略,把模块的文档过一遍,遇到问题,有个印象去哪里查找。
- 究其细节:对常见的模块认真阅读。
- 常见模块:数据模块,数据处理模块,回归模块,分类模块,聚类模块,降维模块,模型评估模块,模型保存模块。
代码实现:了解方法
import sklearn# 查看库的模块dir(sklearn) # 查看模块中的方法和类# dir(sklearn.datasets) # 模块中包含的类和方法的详细信息:参数、返回值和功能描述# help(sklearn.datasets.load_iris)1数据模块(Data Modules):
- sklearn.datasets:包含示例数据集,如Iris、Digits等。
- sklearn.datasets.fetch_openml:用于从OpenML获取数据集。
- sklearn.datasets.fetch_lfw_people:用于获取LFW人脸数据集。
2数据处理模块(Data Preprocessing):
- sklearn.preprocessing:提供特征缩放、标准化、编码、缺失值处理等功能。
- sklearn.impute:用于填充缺失数据的模块。
- sklearn.feature_selection:包括特征选择方法,帮助选择最重要的特征。
- sklearn.decomposition:包含降维方法,如主成分分析(PCA)和因子分析。
- sklearn.model_selection.train_test_split:用于将数据集分割为训练集和测试集。
3回归模块(Regression):
- sklearn.linear_model:包含线性回归、岭回归、Lasso回归等线性模型。
- sklearn.svm:支持向量机(SVM)用于回归任务。
- sklearn.neighbors:k-近邻(KNN)回归方法。
4分类模块(Classification):
- sklearn.linear_model:逻辑回归、线性判别分析等用于分类的线性模型。
- sklearn.svm:支持向量机(SVM)用于分类任务。
- sklearn.neighbors:k-近邻(KNN)分类方法。
- sklearn.tree:决策树分类器。
- sklearn.ensemble:随机森林、AdaBoost、梯度提升等集成学习方法。
5聚类模块(Clustering):
- sklearn.cluster:包括K均值、DBSCAN、层次聚类等聚类算法。
- sklearn.cluster.KMeans:K均值聚类
- sklearn.cluster.AgglomerativeClustering:层次聚类
- sklearn.cluster.DBSCAN:基于密度的聚类方法,可以识别具有相似密度的数据点
- sklearn.cluster.SpectralClustering:谱聚类,数据之间的相似度矩阵
6降维模块(Dimensionality Reduction):
- sklearn.decomposition:主成分分析(PCA)、独立成分分析(ICA)等降维方法。
- sklearn.decomposition.PCA:主成分分析是一种线性降维方法
- sklearn.decomposition.FastICA:独立成分,从混合信号中分离出原始信号。
7模型评估模块(Model Evaluation):
- sklearn.metrics:包括各种模型评估指标,如准确率、F1分数、ROC曲线等。
- sklearn.model_selection:提供交叉验证、参数搜索和数据集分割的工具。
8模型保存模块(Model Saving):
- sklearn.externals.joblib:用于模型保存和加载的工具。
其他,集成学习模块
- sklearn.ensemble: 这个模块包括集成学习方法,如随机森林、梯度提升、AdaBoost等。
常见方法:
- fit(): 用于训练机器学习模型。
- predict(): 用于进行预测。
- transform(): 对数据进行变换,如特征工程。
- score(): 评估模型性能。
- GridSearchCV


雷达卡





京公网安备 11010802022788号







