| 所在主题: | |
| 文件名: Python师资培训-爬虫与文本分析遇见AI JG学术培训.pdf | |
| 资料下载链接地址: https://bbs.pinggu.org/a-4128591.html | |
| 附件大小: | |
|
Python师资培训2020年以来有300+老师和同学参加, 为学术量身打造的Python系列课程包括: 编程基础与数据清洗,爬虫,文本分析,机器学习,深度学习, 陈远祥老师精彩细致的授课和课后耐心的答疑得到了所有学员的一致好评~ 2024年Python师资培训课程上新 基于AI辅助的爬虫与文本分析 培训时间: 爬虫遇见AI:2024年4月13-14日 (两天) 文本分析遇见AI:2024年4月20-21日 (两天) 培训方式:远程直播,提供录播回放 授课安排:9:00-12:00;14:00-17:00;答疑
授课及答疑讲师: 陈远祥,北京邮电大学副教授,博导。博士毕业于北京大学,2015年-2017年在北京大学做博士后研究。主要研究方向包括光无线融合技术,智能信号处理,以及基于人工智能的信号处理技术。发表SCI/EI学术论文80余篇,其中第一或通讯作者论文40余篇,申请发明专利4项。主持国家自然科学基金面上项目,国家重点研发计划子课题,国家自然科学基金青年项目及博士后基金等多个国家级和省部级项目。IEEE、OSA会员,OpticsExpress, IEEE Photonics Technology Letters,PhotonicsJournal,Applied Optics等多个SCI期刊审稿人。
课程大纲: 1. 爬虫与文本分析概述 目标:了解爬虫和文本分析常见应用场景,如何高效挖掘文本价值 1) 爬虫常见应用场景,结构化数据/文本数据的获取方法概述 2) 高效的编程语言实现结构化数据处理与文本分析的价值
2. 爬虫基础 目标:掌握爬虫基本概念,爬虫基本流程,掌握网页基础知识,学会简单网页制作 1) 什么是网络爬虫 2) 爬虫的基本原理 3) web网页基础 4) 爬虫基本流程
3. 页面解析和数据存储 目标:掌握正则表达式的用法,学会利用正则表达式进行文本信息提取,掌握常见文本信息存储方法 1) 基于正则表达式的文本信息提取 2) 文本文件存储 3) JSON文件存储
4. urllib和requests 目标:掌握两种基本的请求发送方法,通过案例展示,实现单页和多页数据爬取,掌握动态页面爬取方法,掌握模拟登录,IP代理常用方法,实现高效率、大规模的网络爬取 1) 请求头的构造 2) get请求与post请求 3) 单页和多页数据的爬取 4) 动态页面的数据爬取 5) 模拟登录 6) 代理的基本使用 7) 高效代理池的维护
5. Beautiful Soup和Xpath 目标:通过案例,掌握两种高效的网页信息解析和提取方法,实现网络数据的高效提取 1) Beautiful Soup简介 2) Beautiful Soup的页面解析 3) Beautiful Soup节点选择方法 4) 什么是Xpath 5) Xpath常用匹配规则 6) Xpath的节点选择
6. Selenium和Playwright 目标:通过案例,掌握动态渲染页面的两种自动化的爬虫方法 1) Selenium的安装与配置 2) Selenium的基本使用 3) 页面的访问与节点定位 4) 节点信息的获取 5) Playwright的安装 6) Playwright的编写模式 7) Playwright代码生成 8) Playwright的常用操作方法
7. 验证码的处理 目标:针对验证码反爬虫机制,掌握几种常用验证码识别方法 1) OCR识别验证码 2) 图像匹配识别滑动验证码 3) 深度学习识别滑动验证码
8. Scrapy和分布式爬虫 目标:掌握scrapy爬虫框架和常用方法,理解分布式爬虫原理 1) scrapy框架介绍 2) scrapy入门 3) scrapy的节点选择 4) Spider的用法 5) 分布式爬虫原理 6) 分布式爬虫部署
9. 基于AI辅助的网络爬虫 目标:利用AI辅助爬虫,提高爬虫效率 1) 自动提取信息 2) 适应动态网页 3) 突破反爬机制
10. 文本分析概述 目标:掌握文本分析的基本概念,文本分析的发展历程,文本分析流程和挑战 1) 文本数据与文本分析 2) 自然语言处理的流派 3) 文本分析的常见应用 4) 文本分析的层次 5) 文本分析的流程 6) 文本分析的挑战
11. 文本单元的提取与标注 目标:掌握文本常用清洗方法,分词原理和方法,词性标注方法 1) 文本清洗 2) 分词 3) 词性标注
12. 文本特征的选取与表示 目标:掌握文本的常用结构化表示方法,利用多种方法实现文本特征提取,理解每种特征提取的优缺点 1) 文本向量化 2) 词袋模型 3) TF-IDF 4) Word2Vec 5) GloVe 6) Doc2vec
13. 关键词提取 目标:掌握三种关键词提取方法 1) TF-IDF 2) Text Rank 3) LDA
14. 文本分析的应用 目标:掌握文本分析的常见应用,和传统的机器学习方法结合,实现文本的分类,聚类,摘要提取,情感分析等功能 1) 文字云 2) 文本分类 3) 文本聚类 4) 文本摘要 5) 情感分析
15. 基于深度学习的文本分析技术 目标:掌握最新的深度学习在文本分析中的应用,包括RNN,LSTM,CNN,注意力,Transformer等模型和机制的引入 1) RNN 2) Bi-LSTM 3) text CNN 4) GRU 5) 注意力机制 6) BERT和Transformer
16. 基于AI辅助的文本分析 目标:AI辅助文本分析,高效提取文本价值 1) 文本摘要 2) 文本翻译 3) 文本分类 4) 文本聚类 5) 情感分析
报名流程: 1. 点击对应课程报名链接,在线提交报名信息: 爬虫遇见AI:https://www.peixun.net/main.php?mod=buy&cid=1937 文本分析遇见AI:https://www.peixun.net/main.php?mod=buy&cid=1938 爬虫文本遇见AI:https://www.peixun.net/main.php?mod=buy&cid=1939 2. 经管之家论坛账号登录,提单支付,支持支付宝/微信/银联在线; 3. 确认发票信息,2个工作日发送至邮箱; 4. 开课前一周入交流群,获取课程资料; 5. 开课前一天远程测试,说明上课事宜。
Python师资培训系列课程试听及咨询: 尹老师 电话:13321178792 QQ:42884447 WeChat:JGxueshu
|
|
熟悉论坛请点击新手指南
|
|
| 下载说明 | |
|
1、论坛支持迅雷和网际快车等p2p多线程软件下载,请在上面选择下载通道单击右健下载即可。 2、论坛会定期自动批量更新下载地址,所以请不要浪费时间盗链论坛资源,盗链地址会很快失效。 3、本站为非盈利性质的学术交流网站,鼓励和保护原创作品,拒绝未经版权人许可的上传行为。本站如接到版权人发出的合格侵权通知,将积极的采取必要措施;同时,本站也将在技术手段和能力范围内,履行版权保护的注意义务。 (如有侵权,欢迎举报) |
|
京ICP备16021002号-2 京B2-20170662号
京公网安备 11010802022788号
论坛法律顾问:王进律师
知识产权保护声明
免责及隐私声明