楼主: shadowaver
294 2

[学科前沿] Scikit-learn一个开源的Python机器学习库 [推广有奖]

随心所欲不逾矩

已卖:1243份资源

教授

56%

还不是VIP/贵宾

-

威望
0
论坛币
8309 个
通用积分
689.8825
学术水平
18 点
热心指数
22 点
信用等级
13 点
经验
29709 点
帖子
890
精华
0
在线时间
1379 小时
注册时间
2007-9-27
最后登录
2026-1-30

楼主
shadowaver 在职认证  发表于 2025-7-30 13:56:52 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
Scikit-learn

Scikit-Learn简称sklearn,是一个开源的Python机器学习库,它建立在NumPy、SciPy和Matplotlib之上。自2007年发布以来,已经成为Python重要的机器学习库。其包括分类、回归、降维和聚类四大机器学习算法,还包括了特征提取、数据处理和模型评估三大模块

Scikit-Learn的设计目标之一是提供简单一致的API,使得机器学习任务变得更加容易。学会了一个模式就可以快速地学会其他类型的学习模式。


Scikit-learn六大模块

Scikit-learn六大模块

  • 分类:识别某个对象属于哪个类别
, 随机森林 逻辑回归 朴素贝叶斯 GBDT XGboost LightGBM
  • 应用: 垃圾邮件检测,图像识别
回归:预测与对象相关联的连续值属性
  • 算法: 线性回归 Lasso回归 决策树回归 随机森林回归 XGboost回归
  • 应用: 房价预测,时间序列预测
聚类:将相似对象自动分组
  • , spectral clustering, mean-shift,基于层次聚类 基于密度聚类
  • 应用: 客户细分;将数据分成相似的组。
降维:减少要考虑的随机变量的数量,
  • 算法:  因子分析 PCA

    • ICA LDA,  属性降维
    • 应用: 可视化;减少数据的特征维度,以简化问题并提高计算效率
  • 模型选择:比较,验证,选择参数和模型
    • 模型: Metrics Scoring模型得分 Grid search 网格搜索 Cross Validation 交叉验证 Hyper-Parameters 超参数选择 Validation curves 模型验证曲线
    • 目标: 通过参数调整提高精度
  • 数据预处理:特征选择,特征提取和归一化
    • 算法: Standardization标准化 Scaling Features归一化 Non-linear transformation非线性转化Gaussian distribution高斯分布转化 Normalization正则化 Encoding categorical features类别性编码处理
    • 应用: 把输入数据转换为机器学习算法可用的数据

快速了解scikit-learn库中的模块、类、函数

  • 先观其大略,把模块的文档过一遍,遇到问题,有个印象去哪里查找。
  • 究其细节:对常见的模块认真阅读。
  • 常见模块:数据模块,数据处理模块,回归模块,分类模块,聚类模块,降维模块,模型评估模块,模型保存模块。

代码实现:了解方法

import sklearn# 查看库的模块dir(sklearn) # 查看模块中的方法和类# dir(sklearn.datasets) # 模块中包含的类和方法的详细信息:参数、返回值和功能描述# help(sklearn.datasets.load_iris)

1数据模块(Data Modules):

  • sklearn.datasets:包含示例数据集,如Iris、Digits等。
  • sklearn.datasets.fetch_openml:用于从OpenML获取数据集。
  • sklearn.datasets.fetch_lfw_people:用于获取LFW人脸数据集

2数据处理模块(Data Preprocessing):

  • sklearn.preprocessing:提供特征缩放、标准化、编码、缺失值处理等功能。
  • sklearn.impute:用于填充缺失数据的模块。
  • sklearn.feature_selection:包括特征选择方法,帮助选择最重要的特征。
  • sklearn.decomposition:包含降维方法,如主成分分析(PCA)和因子分析。
  • sklearn.model_selection.train_test_split:用于将数据集分割为训练集和测试集。

3回归模块(Regression):

  • sklearn.linear_model:包含线性回归、岭回归、Lasso回归等线性模型。
  • sklearn.svm:支持向量机(SVM)用于回归任务。
  • sklearn.neighbors:k-近邻(KNN)回归方法。

4分类模块(Classification):

  • sklearn.linear_model:逻辑回归、线性判别分析等用于分类的线性模型。
  • sklearn.svm:支持向量机(SVM)用于分类任务。
  • sklearn.neighbors:k-近邻(KNN)分类方法。
  • sklearn.tree:决策树分类器。
  • sklearn.ensemble:随机森林、AdaBoost、梯度提升等集成学习方法。

5聚类模块(Clustering):

  • sklearn.cluster:包括K均值、DBSCAN、层次聚类等聚类算法。
  • sklearn.cluster.KMeans:K均值聚类
  • sklearn.cluster.AgglomerativeClustering:层次聚类
  • sklearn.cluster.DBSCAN:基于密度的聚类方法,可以识别具有相似密度的数据点
  • sklearn.cluster.SpectralClustering:谱聚类,数据之间的相似度矩阵

6降维模块(Dimensionality Reduction):

  • sklearn.decomposition:主成分分析(PCA)、独立成分分析(ICA)等降维方法。
  • sklearn.decomposition.PCA:主成分分析是一种线性降维方法
  • sklearn.decomposition.FastICA:独立成分,从混合信号中分离出原始信号

7模型评估模块(Model Evaluation):

  • sklearn.metrics:包括各种模型评估指标,如准确率、F1分数、ROC曲线等。
  • sklearn.model_selection:提供交叉验证、参数搜索和数据集分割的工具。

8模型保存模块(Model Saving):

  • sklearn.externals.joblib:用于模型保存和加载的工具。

其他,集成学习模块

  • sklearn.ensemble: 这个模块包括集成学习方法,如随机森林、梯度提升、AdaBoost等。

常见方法:

  • fit(): 用于训练机器学习模型。
  • predict(): 用于进行预测。
  • transform(): 对数据进行变换,如特征工程。
  • score(): 评估模型性能。
  • GridSearchCV
(): 用于网格搜索交叉验证以调优模型参数。cross_val_score(): 执行交叉验证并返回评分。train_test_split(): 将数据集分割为训练集和测试集。confusion_matrix(): 计算混淆矩阵,用于分类问题的性能评估。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:scikit-learn python Learn Earn 机器学习 Scikit-learn一个开源的Python机器学习库

shadowaver@163.com
QQ 540722048

沙发
HappyAndy_Lo 发表于 2025-8-1 16:49:47
收藏呀。。。。
感谢分享呀。。。。

藤椅
kele1529 发表于 2025-8-1 22:10:27
收藏学习了

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2026-1-31 06:01