楼主: 夏目君兮
55 0

[教育经济学基本知识] 人工智能之数据分析 numpy:第一章 学习链路 [推广有奖]

  • 0关注
  • 0粉丝

学前班

40%

还不是VIP/贵宾

-

威望
0
论坛币
4 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
20 点
帖子
1
精华
0
在线时间
0 小时
注册时间
2018-9-2
最后登录
2018-9-2

楼主
夏目君兮 发表于 2025-11-15 19:22:55 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

人工智能之数据分析 numpy

第一章 学习链路

文章目录

  • 前言
  • 一、顶层设计:理解人工智能全景图
    • 1.1 什么是人工智能?
    • 1.2 AI 技术栈分层模型(自上而下)
  • 二、第一阶段:编程与数据基础(0 → 能处理真实数据)
    • 2.1 Python 编程基础
    • 2.2 核心数据科学库
  • 三、第二阶段:机器学习入门(建立建模范式)
    • 3.1 机器学习核心概念
    • 3.2 Scikit-learn 实战
    • 3.3 补充:Scipy 重点模块
  • 四、第三阶段:深度学习基础(进入神经网络世界)
    • 4.1 选择框架:PyTorch or TensorFlow?
    • 4.2 核心概念
    • 4.3 实践项目(由简入繁)
  • 五、第四阶段:分方向深耕(CV / NLP)
    • 5.1 计算机视觉(CV)
    • 5.2 自然语言处理(NLP)
  • 六、第五阶段:大模型时代(Agent + Workflow + MCP)
    • 6.1 大模型认知升级
    • 6.2 智能体(Agent)架构
    • 6.3 工作流与 MCP(Model Control Plane)
  • 七、第六阶段:部署与工程化(走向生产)
    • 7.1 模型优化
    • 7.2 部署方案
  • 八、学习原则与避坑指南
    • 正确路径
    • 常见误区
  • 九、总结: AI 成长路线图
  • 后续
    • 资料关注

前言

本文主要探讨人工智能的整体学习路径,相当于数据分析模块的起点。理解整体思维框架有助于更清晰地规划后续的学习内容及目标程度,对单一 AI 绘制短剧小说等热门方向也有重要参考价值。掌握基础知识有助于更加灵活地创造和应用解决问题的能力。

一、顶层设计:理解人工智能全景图

1.1 什么是人工智能?

狭义 AI(ANI):在特定任务上表现出色(如图像识别、语音转文字)。
通用 AI(AGI):尚未实现,具有人类水平的泛化推理能力。
当前主流 AI = 数据 + 算法 + 计算资源 + 工程应用

1.2 AI 技术栈分层模型(自上而下)

┌───────────────────────────────┐
│         应用层(智能体 / Agent)        │ ← 用户交互、业务场景(如客服机器人、文生图)
├───────────────────────────────┤
│      编排层(LangChain / MCP / Workflow) │ ← 串联模型、工具、记忆、决策逻辑
├───────────────────────────────┤
│       大模型层(LLM / Multimodal)       │ ← GPT、LLaMA、Stable Diffusion、CLIP、ViT
├───────────────────────────────┤
│     深度学习框架(PyTorch / TensorFlow)   │ ← 构建神经网络、训练/推理
├───────────────────────────────┤
│    机器学习库(scikit-learn)            │ ← 经典 ML 算法快速验证
├───────────────────────────────┤
│   数据处理与可视化(pandas / numpy / matplotlib)│ ← 数据清洗、探索、转换
├───────────────────────────────┤
│        Python 编程基础                   │ ← 语法、函数、面向对象、调试
└───────────────────────────────┘

核心理念:先会使用,再理解原理;先运行通顺,再进行优化——从应用逆向推导底层逻辑,形成闭环反馈式学习。

二、第一阶段:编程与数据基础(0 → 能处理真实数据)

目标:掌握 Python 及数据处理基本技能,为后续建模打下坚实基础。

2.1 Python 编程基础

  • 变量、条件、循环、函数
  • 列表、字典、集合、元组
  • 文件读写(CSV/JSON/TXT)
  • 异常处理、模块导入

推荐资源:《Automate the Boring Stuff with Python》

2.2 核心数据科学库

工具 作用 关键技能
NumPy 高效数值计算
ndarray
、广播机制、矩阵运算、索引切片
Pandas 结构化数据处理
DataFrame
、缺失值处理、
groupby
、合并、时间序列
Matplotlib / Seaborn 数据可视化 散点图、直方图、箱线图、热力图、子图布局

实践项目:

  • 分析某城市空气质量数据(CSV)
  • 可视化电影评分分布与票房关系
  • 爬虫类企业级项目等

三、第二阶段:机器学习入门(建立建模范式)

目标:理解“特征 → 模型 → 评估 → 优化”的完整 ML 流程。

3.1 机器学习核心概念

  • 监督 vs 无监督 vs 强化学习
  • 过拟合 / 欠拟合 & 正则化
  • 交叉验证、偏差-方差权衡
  • 特征工程:标准化、编码、选择

3.2 Scikit-learn 实战

任务类型 算法示例 应用场景
分类 Logistic Regression, Random Forest, SVM 垃圾邮件识别、客户流失预测
回归 Linear Regression, XGBoost 房价预测、销量预测
聚类 K-Means, DBSCAN 用户分群、异常检测

关键 API 模式:


from sklearn.ensemble import RandomForestClassifier
model = RandomForestClassifier()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
    

实践项目:

  • 波士顿房价回归(回归)
  • 鸢尾花分类(分类)
  • 客户消费行为聚类(无监督)

3.3 补充:Scipy 重点模块

scipy.stats

假设检验、概率分布

scipy.optimize
:理解优化器原理(为深度学习铺垫)

四、第三阶段:深度学习基础(进入神经网络世界)

目标:掌握张量操作、自动求导、网络构建与训练流程。

4.1 选择框架:PyTorch or TensorFlow?

维度 PyTorch TensorFlow
学习曲线 更 Pythonic,易于调试 静态图复杂,但部署生态系统强大
科研使用 主流(>80% 论文) 较少
工业部署 TorchServe, ONNX TF Serving, TFLite, TF.js

建议:初学者首选 PyTorch

4.2 核心概念

Tensor

多维数组,支持 GPU 加速

Autograd

自动微分(反向传播)

nn.Module

网络定义标准方式

DataLoader

高效批量加载数据

Loss + Optimizer

MSE、CrossEntropy + Adam/SGD

4.3 实践项目(由简入繁)

  • MNIST 手写数字识别(全连接网络)
  • CIFAR-10 图像分类(CNN + 数据增强)
  • IMDB 情感分析(RNN/LSTM)
  • 猫狗分类(迁移学习 + ResNet 微调)

关键能力

能独立完成“数据加载 → 模型定义 → 训练循环 → 评估保存”全流程。

五、第四阶段:分方向深耕(CV / NLP)

5.1 计算机视觉(CV)

核心技术栈:

  • OpenCV:图像读取、裁剪、滤波、几何变换
  • TorchVision:预训练模型(ResNet, ViT)、数据增强
  • Albumentations:高性能图像增强库

典型任务与模型:

任务 模型 工具
图像分类 ResNet, ViT torchvision.models
目标检测 YOLOv8, Faster R-CNN Ultralytics, MMDetection
图像分割 U-Net, SAM segmentation_models_pytorch

项目建议:

  • 使用 YOLOv8 实现交通标志检测
  • 基于 U-Net 的医学细胞分割

5.2 自然语言处理(NLP)

核心技术栈:

  • Hugging Face Transformers:BERT、GPT、T5 等模型集成
  • Tokenizers:分词器(WordPiece, BPE)
  • Datasets:统一数据加载接口

关键演进路径:

One-Hot → Word2Vec/GloVe → RNN/LSTM → Transformer → BERT/GPT

典型任务:

任务 模型 方法
文本分类 BERT 微调分类头
命名实体识别 BERT+CRF 序列标注
问答系统 RoBERTa SQuAD 微调

项目建议:

  • 微调做新闻分类
  • 构建基于 LLaMA 的本地知识问答系统
bert-base-chinese

六、第五阶段:大模型时代(Agent + Workflow + MCP)

核心转变:

  • 从“训练模型”转向“编排智能”——模型即服务(MaaS)。

6.1 大模型认知升级

预训练 + 微调 + 提示工程(Prompt Engineering)

  • 参数高效微调(PEFT):LoRA、Adapter、QLoRA
  • 多模态融合:CLIP(图文对齐)、Flamingo(视频 + 文本)

6.2 智能体(Agent)架构

[用户输入] 
   ↓
[规划器 Planner] → 决定是否调用工具
   ↓
[工具调用] → 搜索、代码执行、数据库查询
   ↓
[记忆 Memory] → 向量数据库(Chroma, FAISS)
   ↓
[大模型推理] → LLM 生成最终回答

典型框架:

  • LangChain、LlamaIndex、AutoGen

6.3 工作流与 MCP(Model Control Plane)

  • LangChain:构建可组合的 AI 应用(Chain → Agent → Tool)
  • MCP(模型控制平面)
    • 统一管理多个模型版本
    • 控制路由策略(A/B 测试、灰度发布)
    • 监控延迟、吞吐、错误率
  • Workflow 引擎:Prefect、Airflow、Dagster(用于生产级 pipeline 编排)

实践项目:

  • 用 LangChain + LLaMA + Chroma 构建企业知识库问答机器人
  • 使用 LoRA 微调 LLaMA-7B 用于产品客服对话
  • 将 Stable Diffusion 集成到 Web UI,支持文生图

七、第六阶段:部署与工程化(走向生产)

7.1 模型优化

  • 量化:FP32 → INT8(体积减少50%,速度提升)
  • 剪枝:移除冗余权重
  • 蒸馏:大模型 → 小模型(Teacher-Student)

7.2 部署方案

场景 工具
Web API FastAPI + Uvicorn
GPU 推理加速 TensorRT, ONNX Runtime
边缘设备 TensorFlow Lite, TorchScript
云原生 KServe, Triton Inference Server

端到端项目:

  • 将微调后的 ViT 模型 → 转为 ONNX → 部署到工业相机边缘设备 → 实时缺陷检测

八、学习原则与避坑指南

正确路径:

  • 先数据,后模型:80% 时间花在数据上。
  • 先跑通,再优化:最小可行项目(MVP)优先。
  • 一个方向深挖:先精通 NLP 或 CV,再横向扩展。
  • 工具服务于问题:不要为学 API 而学,要为解决问题而学。

常见误区:

  • 跳过 pandas/numpy 直接学 PyTorch → 卡在数据预处理
  • 同时学 PyTorch 和 TensorFlow → 精力分散
  • 迷恋“从零训练大模型” → 忽略微调与应用价值
  • 只看教程不动手 → 无法形成肌肉记忆

九、总结: AI 成长路线图

阶段 能力目标
1. 编程与数据 能独立清洗、分析、可视化数据
2. 机器学习 能完成端到端 ML 项目
3. 深度学习 待补充

能够训练 CNN/RNN 并调优参数
4. 专长于 CV/NLP
能够复现论文级别的项目
5. 大规模模型应用
能够构建 Agent + 微调 + 部署
6. 工程化能力
能够交付生产级的 AI 系统

后续内容
部分代码已经上传至 Gitee,未来会逐步更新,主要受限于时间原因。当然,你也可以克隆到本地进行学习和扩展。
祝你编程愉快,早日成为 Python 高手!?????

资料关注
公众号:咚咚王
Gitee:https://gitee.com/wy18585051844/ai_learning

  • 《Python编程:从入门到实践》
  • 《利用Python进行数据分析》
  • 《算法导论中文第三版》
  • 《概率论与数理统计(第四版) (盛骤) 》
  • 《程序员的数学》
  • 《线性代数应该这样学第3版》
  • 《微积分和数学分析引论》
  • 《(西瓜书)周志华-机器学习》
  • 《TensorFlow机器学习实战指南》
  • 《Sklearn与TensorFlow机器学习实用指南》
  • 《模式识别(第四版)》
  • 《深度学习 deep learning》伊恩·古德费洛著 花书
  • 《Python深度学习第二版(中文版)【纯文本】 (登封大数据 (Francois Choliet)) (Z-Library)》
  • 《深入浅出神经网络与深度学习+(迈克尔·尼尔森(Michael+Nielsen)》
  • 《自然语言处理综论 第2版》
  • 《Natural-Language-Processing-with-PyTorch》
  • 《计算机视觉-算法与应用(中文版)》
  • 《Learning OpenCV 4》
  • 《AIGC:智能创作时代》杜雨+&+张孜铭
  • 《AIGC原理与实践:零基础学大语言模型、扩散模型和多模态模型》
  • 《从零构建大语言模型(中文版)》
  • 《实战AI大模型》
  • 《AI 3.0》
┌───────────────────────────────┐
│         应用层(智能体 / Agent)        │ ← 用户交互、业务场景(如客服机器人、文生图)
├───────────────────────────────┤
│      编排层(LangChain / MCP / Workflow) │ ← 串联模型、工具、记忆、决策逻辑
├───────────────────────────────┤
│       大模型层(LLM / Multimodal)       │ ← GPT、LLaMA、Stable Diffusion、CLIP、ViT
├───────────────────────────────┤
│     深度学习框架(PyTorch / TensorFlow)   │ ← 构建神经网络、训练/推理
├───────────────────────────────┤
│    机器学习库(scikit-learn)            │ ← 经典 ML 算法快速验证
├───────────────────────────────┤
│   数据处理与可视化(pandas / numpy / matplotlib)│ ← 数据清洗、探索、转换
├───────────────────────────────┤
│        Python 编程基础                   │ ← 语法、函数、面向对象、调试
└───────────────────────────────┘
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Numpy 数据分析 人工智能 NUM 第一章

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-2-4 11:10