楼主: 资料狂人
7520 35

[学科前沿] 25年国庆北京约丨当Python爬虫文本遇见DeepSeek [推广有奖]

回帖奖励 75 个论坛币 回复本帖可获得 3 个论坛币奖励! 每人限 1 次

运营管理员

已卖:77份资源

巨擘

0%

还不是VIP/贵宾

-

威望
9
论坛币
970790007 个
通用积分
46012.8223
学术水平
4678 点
热心指数
3465 点
信用等级
3681 点
经验
747661 点
帖子
10329
精华
142
在线时间
19542 小时
注册时间
2010-5-11
最后登录
2026-1-22

初级热心勋章 初级学术勋章 中级学术勋章 中级热心勋章 初级信用勋章 中级信用勋章 高级学术勋章 高级热心勋章 高级信用勋章 特级信用勋章 特级学术勋章

楼主
资料狂人 在职认证  发表于 2025-3-4 09:55:02 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

Python师资培训2020年以来有600+老师和同学参加,

为学术量身打造的Python系列课程包括

编程基础与数据清洗,爬虫,文本分析,机器学习,深度学习

陈远祥老师精彩细致的授课和课后耐心的答疑得到了所有学员的一致好评~

2025年Python师资培训课程上新

-基于AI辅助的爬虫与文本分析

604  爬虫文本.jpg

培训时间:

爬虫遇见DeepSeek:10月1-2日 (两天)

文本分析遇见DeepSeek:10月3-4日 (两天)

授课安排:9:00-12:0014:00-17:00;答疑

培训方式:北京现场班,同步远程直播;提供录播回放


授课及答疑讲师:

陈远祥,北京邮电大学博导。博士毕业于北京大学,2015年-2017年在北京大学做博士后研究。主要研究方向包括人工智能,智能信号处理,以及基于人工智能的信号处理技术。发表学术论文100余篇,其中第一或通讯作者论文40余篇,发明专利4项。主持国家自然科学基金面上项目,国家重点研发计划子课题,国家自然科学基金青年项目及博士后基金等多个国家级和省部级项目。IEEE、OSA会员,OpticsExpress, IEEE Photonics Technology Letters,PhotonicsJournal,Applied Optics等多个SCI期刊审稿人。


课程目标:

1. 爬虫

  • 爬虫基础 :了解网络爬虫的基本概念、原理和基本流程,掌握网页基础知识,学会简单网页制作。
  • 页面解析和数据存储 :掌握正则表达式的用法,学会利用正则表达式进行文本信息提取,掌握常见文本信息存储方法。
  • urllib 和     requests :掌握两种基本的请求发送方法,通过案例展示,实现单页和多页数据爬取,掌握动态页面爬取方法,掌握模拟登录、IP 代理常用方法,实现高效率、大规模的网络爬取。
  • Beautiful Soup 和     Xpath :通过案例,掌握两种高效的网页信息解析和提取方法,实现网络数据的高效提取。
  • Selenium 和     Playwright :通过案例,掌握动态渲染页面的两种自动化的爬虫方法。
  • 验证码的处理 :针对验证码反爬虫机制,掌握几种常用验证码识别方法。
  • Scrapy 和分布式爬虫 :掌握 scrapy 爬虫框架和常用方法,理解分布式爬虫原理。

2. 文本分析技术

  • 文本分析概述 :掌握文本分析的基本概念、发展历程、流程和挑战。
  • 文本单元的提取与标注 :掌握文本常用清洗方法,分词原理和方法,词性标注方法。
  • 文本特征的选取与表示 :掌握文本的常用结构化表示方法,利用多种方法实现文本特征提取,理解每种特征提取的优缺点。
  • 关键词提取 :掌握三种关键词提取方法。
  • 文本分析的应用 :掌握文本分析的常见应用,和传统的机器学习方法结合,实现文本的分类、聚类、摘要提取、情感分析等功能。
  • 基于深度学习的文本分析技术 :掌握最新的深度学习在文本分析中的应用,包括 RNN、LSTM、CNN、注意力、Transformer 等模型和机制的引入。

3. DeepSeek 如何辅助

  • 基于 DeepSeek 辅助的网络爬虫 :利用     DeepSeek 辅助爬虫,提高爬虫效率,自动提取信息、适应动态网页、突破反爬机制。
  • 基于 DeepSeek 辅助的文本分析 :DeepSeek     辅助文本分析,高效提取文本价值,实现文本摘要、文本翻译、文本分类、文本聚类、情感分析等功能。


课程大纲:

1. 爬虫与文本分析概述

目标:了解爬虫和文本分析常见应用场景,如何高效挖掘文本价值

1) 爬虫常见应用场景,结构化数据/文本数据的获取方法概述

2) 高效的编程语言实现结构化数据处理与文本分析的价值


2. 爬虫基础

目标:掌握爬虫基本概念,爬虫基本流程,掌握网页基础知识,学会简单网页制作

1) 什么是网络爬虫

2) 爬虫的基本原理

3) web网页基础

4) 爬虫基本流程


3. 页面解析和数据存储

目标:掌握正则表达式的用法,学会利用正则表达式进行文本信息提取,掌握常见文本信息存储方法

1) 基于正则表达式的文本信息提取

2) 文本文件存储

3) JSON文件存储


4. urllib和requests

目标:掌握两种基本的请求发送方法,通过案例展示,实现单页和多页数据爬取,掌握动态页面爬取方法,掌握模拟登录,IP代理常用方法,实现高效率、大规模的网络爬取

1) 请求头的构造

2) get请求与post请求

3) 单页和多页数据的爬取

4) 动态页面的数据爬取

5) 模拟登录

6) 代理的基本使用

7) 高效代理池的维护


5. Beautiful Soup和Xpath

目标:通过案例,掌握两种高效的网页信息解析和提取方法,实现网络数据的高效提取

1) Beautiful Soup简介

2) Beautiful Soup的页面解析

3) Beautiful Soup节点选择方法

4) 什么是Xpath

5) Xpath常用匹配规则

6) Xpath的节点选择


6. Selenium和Playwright

目标:通过案例,掌握动态渲染页面的两种自动化的爬虫方法

1) Selenium的安装与配置

2) Selenium的基本使用

3) 页面的访问与节点定位

4) 节点信息的获取

5) Playwright的安装

6) Playwright的编写模式

7) Playwright代码生成

8) Playwright的常用操作方法


7. 验证码的处理

目标:针对验证码反爬虫机制,掌握几种常用验证码识别方法

1) OCR识别验证码

2) 图像匹配识别滑动验证码

3) 深度学习识别滑动验证码


8. Scrapy和分布式爬虫

目标:掌握scrapy爬虫框架和常用方法,理解分布式爬虫原理

1) scrapy框架介绍

2) scrapy入门

3) scrapy的节点选择

4) Spider的用法

5) 分布式爬虫原理

6) 分布式爬虫部署


9. 基于DeepSeek辅助的网络爬虫

目标:利用DeepSeek辅助爬虫,提高爬虫效率

1) 自动提取信息

2) 适应动态网页

3) 突破反爬机制


10. 文本分析概述

目标:掌握文本分析的基本概念,文本分析的发展历程,文本分析流程和挑战

1) 文本数据与文本分析

2) 自然语言处理的流派

3) 文本分析的常见应用

4) 文本分析的层次

5) 文本分析的流程

6) 文本分析的挑战


11. 文本单元的提取与标注

目标:掌握文本常用清洗方法,分词原理和方法,词性标注方法

1) 文本清洗

2) 分词

3) 词性标注


12. 文本特征的选取与表示

目标:掌握文本的常用结构化表示方法,利用多种方法实现文本特征提取,理解每种特征提取的优缺点

1) 文本向量化

2) 词袋模型

3) TF-IDF

4) Word2Vec

5) GloVe

6) Doc2vec


13. 关键词提取

目标:掌握三种关键词提取方法

1) TF-IDF

2) Text Rank

3) LDA


14. 文本分析的应用

目标:掌握文本分析的常见应用,和传统的机器学习方法结合,实现文本的分类,聚类,摘要提取,情感分析等功能

1) 文字云

2) 文本分类

3) 文本聚类

4) 文本摘要

5) 情感分析


15. 基于深度学习的文本分析技术

目标:掌握最新的深度学习在文本分析中的应用,包括RNNLSTM,CNN,注意力,Transformer等模型和机制的引入

1) RNN

2) Bi-LSTM

3) text CNN

4) GRU

5) 注意力机制

6) BERT和Transformer


16. 基于DeepSeek辅助的文本分析

目标:DeepSeek辅助文本分析,高效提取文本价值

1) 文本摘要

2) 文本翻译

3) 文本分类

4) 文本聚类

5) 情感分析


Python师资培训系列课程试听及咨询:

尹老师

电话:13321178792

QQ:42884447

WeChat:JGxueshu

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:python爬虫 python seek deep PSE

已有 1 人评分经验 收起 理由
wwqqer + 100 精彩帖子

总评分: 经验 + 100   查看全部评分



沙发
资料狂人 在职认证  发表于 2025-3-4 10:01:46
739f2cca95d1aeb49c2960f63dce398.jpg
已有 1 人评分经验 收起 理由
wwqqer + 100 精彩帖子

总评分: 经验 + 100   查看全部评分



藤椅
lisa11yang 发表于 2025-3-4 13:51:05

回帖奖励 +3 个论坛币

板凳
jinjian522 发表于 2025-3-4 13:55:59

回帖奖励 +3 个论坛币

谢谢分享

报纸
lisa11yang 发表于 2025-3-4 14:56:48

地板
军旗飞扬 在职认证  发表于 2025-3-4 15:04:51

回帖奖励 +3 个论坛币

7
yiyijiayuan 在职认证  发表于 2025-3-4 16:06:47

回帖奖励 +3 个论坛币

楼主的币真是多到天际了。

8
512661101 发表于 2025-3-4 19:55:55

回帖奖励 +3 个论坛币

谢谢分享!

9
marytwj 在职认证  发表于 2025-3-4 22:04:05 来自手机

回帖奖励 +3 个论坛币

谢谢分享呀

10
ahc123 发表于 2025-3-4 22:08:06
有了deepseek,还需要Python吗

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群
GMT+8, 2026-1-28 16:18