对于科学研究:人类动力学研究,计量社会学,复杂网络,数据挖掘,理论计量学、应用计量学、或是各个论文中对数据整理都异常重要。
而网络爬虫是收集相关数据的利器,它可以抓取某个网站或者某个应用的内容,提取有用的价值以及各种数据。也可以模拟用户在浏览器或者App应用上的操作,实现自动化的程序。
而因为Python的脚本特性,以及其不仅易于配置,而且对字符的处理也非常灵活,加上Python有丰富的网络抓取模块,所以网络爬虫经常与Python联系在一起。
“工欲善其事,必先利其器”,当您的实证分析中有了一手的准确数据,就好像伐木人有了一把锋利的斧子,那么您的实证效率会呈现几何级的增长!这把利器就是Python爬虫及文本分析:
【课程介绍】
本课程致力于讲授完整的结构化数据、文本数据的获取、存储、读取、处理和分析过程,我们期望课程可以帮助到广大的学员,包括所有想要使用python编程语言实现数据获取和文本分析的在校师生、以及致力于将数据分析与挖掘的价值广泛运用到实际场景的商业人士。
该课程包括20小时以上的线上辅助教学视频内容,通过该课程的学习,我们的学员将不再单一依靠开源公开数据网站的数据,适当摆脱对国家统计年鉴、wind数据库、知网数据的依赖,能够从更多元的渠道获取数据,使用Python更高效的处理数据,并用更前沿的技术分析和挖掘数据信息,为我们的科研工作减轻中间工作负担。
【培训费用】
Python初级:1000元,报名:http://www.peixun.net/main.php?mod=buy&cid=1595
Python爬虫:2000元,报名:http://www.peixun.net/main.php?mod=buy&cid=1596
Python文本:3000元,报名:http://www.peixun.net/main.php?mod=buy&cid=1597
含在线视频,资料及答疑;提供发票及开课通知及结业证书。
现场班老学员九折优惠;同时报名2-3个专题九折优惠;折扣优惠不叠加。
【授课老师】
陈远祥,北京邮电大学副教授,博士生导师。2014年毕业于北京大学,获通信与信息系统专业博士学位,2015年-2017年在北京大学做博士后研究。主要研究方向包括光无线融合技术,智能信号处理,以及基于人工智能的信号处理技术。发表SCI/EI学术论文80余篇,其中第一或通讯作者论文40余篇,申请发明专利4项。主持国家自然科学基金面上项目,国家重点研发计划子课题,国家自然科学基金青年项目及博士后基金等多个国家级和省部级项目。IEEE、OSA会员,OpticsExpress, IEEE Photonics Technology Letters,PhotonicsJournal,Applied Optics等多个SCI期刊审稿人。
【课程大纲】
Python编程基础:
1 Python爬虫与文本分析概述
1.1 文本数据的重要性
1.1.1 结构化数据
1.1.2 非结构化数据
1.1.3 文本数据
1.2 文本分析
1.2.1 文本分析基本概念
1.2.2 文本分析与自然语言处理的关系
1.2.3 爬虫与文本分析
2 Python基础
2.1 Python语言概述
2.1.1 起源
2.1.2 语言特色
2.1.3 开发环境配置
2.2 标准数据类型
2.2.1 bool(布尔)
2.2.2 number(数字)
2.2.3 string(字符串)
2.2.4 list(列表)
2.2.5 tuple(元组)
2.2.6 dictionary(字典)
2.2.7 set(集合)
2.3 控制流
2.3.1 顺序
2.3.2 选择
2.3.3 循环
2.3.4 异常处理
2.4 函数
2.4.1 定义函数
2.4.2 调用函数
2.4.3 匿名函数
2.5 os文件处理模块
2.5.1 文件目录操作
2.5.2 文件读写
3 Python重要数据科学计算库
3.1 numpy
3.1.1 数组的创建
3.1.2 数组常用内置方法
3.1.3 数据类型的转换
3.1.4 数组的索引
3.1.5 变换数组的形态
3.1.6 数组的运算
3.1.7 常用统计函数
3.2 pandas
3.2.1 数据帧的创建
3.2.2 索引与过滤
3.2.3 增加和删除
3.2.4 缺失值处理
3.2.5 数据整理
3.2.6 统计和描述
3.2.7 数据的合并和分组运算
3.2.8 数据的读写和查看
3.3 matplotlib
3.3.1 快速绘图
3.3.2 绘制子图
3.3.3 添加文字说明和注释
3.3.4 散点图
3.3.5 对数坐标图
3.3.6 极坐标图
3.3.7 饼图
3.3.8 柱状图
3.3.9 直方图
3.3.10 箱线图
3.4 pyecharts
3.4.1 柱状图/条形图
3.4.2 箱型图
3.4.3 热力图
3.4.4 折线图
3.4.5 散点图
3.4.6 漏斗图
3.4.7 饼图
3.4.8 词云图
3.4.9 3D图表
Python爬虫学术应用
4 爬虫
4.1 爬虫基础
4.1.1 爬虫基本概念
4.1.2 通用爬虫和聚焦爬虫
4.1.3 http的请求与响应
4.1.4 网页基础知识
4.2 简单爬虫实现
4.2.1 爬虫基本原理
4.2.2 爬虫与反爬虫
4.2.3 正则表达式
4.2.4 requests库实现http请求
4.2.4.1 实战1:豆瓣电影分类排行榜(JSON数据格式)
4.2.4.2 实战2:猫眼电影排行榜数据提取
4.2.4.3 实战3:基于cookies爬取豆瓣短评分析
4.2.5 Beautiful Soup
4.2.5.1 网页的解析
4.2.5.2 网页元素的选取
4.2.5.3 实战:从中国天气网获得天气数据;爬取豆瓣电视剧评分
4.3 爬虫高级技术进阶
4.3.1 多页面的爬取
4.3.2 动态渲染页面的爬取
4.3.3 基于selenium的自动化爬取技术
4.3.4 实战:多页面爬取京东商品数据
Python文本分析学术应用
5 文本分析
5.1 文本分析概述
5.1.1 自然语言处理的层次
5.1.2 自然语言处理的难点
5.1.3 自然语言处理的流派
5.2 文本分析关键技术
5.2.1 常用文本整理和清洗方法
5.2.1.1 句子拆分
5.2.1.2 词拆分
5.2.1.3 过滤重复的单词
5.2.1.4 删除停用词
5.2.1.5 拼写检查
5.2.1.6 大小写变换
5.2.1.7 文本翻译
5.2.1.8 词干提取
5.2.1.9 提取电子邮件或URL
5.2.2 中文分词技术
5.2.2.1 规则分词
5.2.2.2 统计分词
5.2.2.3 混合分词
5.2.2.4 实战:结巴分词,对爬取的豆瓣数据分析,统计词频,绘制词云图
5.2.3 词性标注与命名实体识别
5.2.3.1 词性标注
5.2.3.2 命名实体识别
5.2.3.3 实战:基于jiebaku 的词性标注和基于HanLP的命名实体识别
5.2.4 文本向量化
5.2.4.1 离散化表示
5.2.4.2 分布式表示
5.2.4.3 实战:利用word2vec计算西游记中人物相似性
5.2.5 关键词提取
5.2.5.1 TF-IDF算法
5.2.5.2 TextRank算法
5.2.5.3 LDA算法
5.2.5.4 实战:基于LDA主题模型进行新闻关键词提取
5.2.5.5 实战:网页相似性分析
5.2.6 文本分类
5.2.6.1 分类算法介绍
5.2.6.2 实战:贝叶斯新闻分类
5.2.6.3 实战:虚假评论分类
5.2.7 文本聚类
5.2.7.1 kmeans算法介绍
5.2.7.2 实战:百度百科数据聚类
5.2.7.3 实战:豆瓣书籍数据聚类
5.2.8 文本情感分析
5.2.8.1 基于规则的情感分析
5.2.8.2 基于机器学习模型的情感分析
5.2.8.3 实战:基于豆瓣电影的情感分析
5.2.8.4 实战:在线情感分析系统
【报名方式】
1,点击对应课程报名链接,网上提交报名信息;
2,经管之家论坛账号登录后进入结算中心提交订单;
3,订单微信/支付宝/银联支付,如需对公转账请与我们联系。
【联系方式】
尹老师
电话:13321178792
QQ:42884447
WeChat:JGxueshu