楼主: 资料狂人
13084 74

[学科前沿] “Python爬虫与文本实例技术与应用”远程+视频课程   [推广有奖]

运营管理员

巨擘

0%

还不是VIP/贵宾

-

威望
9
论坛币
974857528 个
通用积分
41224.1133
学术水平
4617 点
热心指数
3402 点
信用等级
3620 点
经验
636840 点
帖子
9622
精华
140
在线时间
18209 小时
注册时间
2010-5-1
最后登录
2024-4-26

初级热心勋章 初级学术勋章 中级学术勋章 中级热心勋章 初级信用勋章 中级信用勋章 高级学术勋章 高级热心勋章 高级信用勋章 特级信用勋章 特级学术勋章

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

随着互联网的发展,网络信息呈现指数式增长,要在短时间内获取大量信息,网络爬虫无疑是一种最适合的方法。通过爬虫获取的海量信息,我们可以对其进行进一步的分析:市场预测、文本分析、机器学习方法等。


Python作为一门脚本语言,它灵活、易用、易学、适用场景多,实现程序快捷便利,早已经成为程序员们的一门编程利器。Python这门编程语言包罗万象,可以说掌握了python,除了一些特殊环境和高度的性能要求,你可以用它做任何事。


此外,我们的世界还充斥着大量形形色色的文字以及图片,一款能够有效处理文字信息的分析软件就显得至关重要。好在,这个世界上还有一个叫做Python的东西,它包含的用于字符串匹配的正则表达式模块,可以帮助我们非常完美地解决文本分析方面遇到的许多问题。


为提升相关科技工作者的技术水平,经管之家学术培训特举办2020年开年“Python爬虫与文本挖掘实例技术与应用培训班,本次培训从爬虫的基本知识入手,使用Python作为实现工具,一步步讲述网络爬虫及文本分析的实现,具体内容如下:     

   

【课程介绍】

本课程致力于讲授完整的结构化数据、文本数据的获取、存储、读取、处理和分析过程,我们期望课程可以帮助到广大的学员,包括所有想要使用python编程语言实现数据获取和文本分析的在校师生、以及致力于将数据分析与挖掘的价值广泛运用到实际场景的商业人士。

该课程包括5天的远程教学+20小时以上的线上辅助教学视频内容,通过该课程的学习,我们的学员将不再单一依靠开源公开数据网站的数据,适当摆脱对国家统计年鉴、wind数据库、知网数据的依赖,能够从更多元的渠道获取数据,使用Python更高效的处理数据,并用更前沿的技术分析和挖掘数据信息,为我们的科研工作减轻中间工作负担。  


【培训费用】

Python初级:1000元,报名:http://www.peixun.net/main.php?mod=buy&cid=1595

Python爬虫:2000元,报名:http://www.peixun.net/main.php?mod=buy&cid=1596

Python文本:3000元,报名:http://www.peixun.net/main.php?mod=buy&cid=1597

含在线视频,资料及答疑;提供发票及开课通知及结业证书。

现场班老学员九折优惠;同时报名2-3个专题九折优惠;折扣优惠不叠加。


【授课老师】

陈远祥,北京邮电大学副教授。2014年毕业于北京大学,获通信与信息系统专业博士学位,2015年-2017年在北京大学做博士后研究。主要研究方向包括光无线融合技术,智能信号处理,以及基于人工智能的信号处理技术。发表SCI/EI学术论文80余篇,其中第一或通讯作者论文40余篇,申请发明专利4项。主持国家自然科学基金面上项目,国家重点研发计划子课题,国家自然科学基金青年项目及博士后基金等多个国家级和省部级项目。IEEE、OSA会员,OpticsExpress, IEEE Photonics Technology Letters,PhotonicsJournal,Applied Optics等多个SCI期刊审稿人。


【课程大纲】

Python编程基础:

1 Python爬虫与文本分析概述

1.1 文本数据的重要性

1.1.1 结构化数据

1.1.2 非结构化数据

1.1.3 文本数据


1.2 文本分析

1.2.1 文本分析基本概念

1.2.2 文本分析与自然语言处理的关系

1.2.3 爬虫与文本分析


2 Python基础

2.1 Python语言概述

2.1.1 起源

2.1.2 语言特色

2.1.3 开发环境配置


2.2 标准数据类型

2.2.1 bool(布尔)

2.2.2 number(数字)

2.2.3 string(字符串)

2.2.4 list(列表)

2.2.5 tuple(元组)

2.2.6 dictionary(字典)

2.2.7 set(集合)


2.3 控制流

2.3.1 顺序

2.3.2 选择

2.3.3 循环

2.3.4 异常处理


2.4 函数

2.4.1 定义函数

2.4.2 调用函数

2.4.3 匿名函数


2.5 os文件处理模块

2.5.1 文件目录操作

2.5.2 文件读写


3 Python重要数据科学计算库

3.1 numpy

3.1.1 数组的创建

3.1.2 数组常用内置方法

3.1.3 数据类型的转换

3.1.4 数组的索引

3.1.5 变换数组的形态

3.1.6 数组的运算

3.1.7 常用统计函数


3.2 pandas

3.2.1 数据帧的创建

3.2.2 索引与过滤

3.2.3 增加和删除

3.2.4 缺失值处理

3.2.5 数据整理

3.2.6 统计和描述

3.2.7 数据的合并和分组运算

3.2.8 数据的读写和查看


3.3 matplotlib

3.3.1 快速绘图

3.3.2 绘制子图

3.3.3 添加文字说明和注释

3.3.4 散点图

3.3.5 对数坐标图

3.3.6 极坐标图

3.3.7 饼图

3.3.8 柱状图

3.3.9 直方图

3.3.10 箱线图


3.4 pyecharts

3.4.1 柱状图/条形图

3.4.2 箱型图

3.4.3 热力图

3.4.4 折线图

3.4.5 散点图

3.4.6 漏斗图

3.4.7 饼图

3.4.8 词云图

3.4.9 3D图表


Python爬虫学术应用

4 爬虫

4.1 爬虫基础

4.1.1 爬虫基本概念

4.1.2 通用爬虫和聚焦爬虫

4.1.3 http的请求与响应

4.1.4 网页基础知识


4.2 简单爬虫实现

4.2.1 爬虫基本原理

4.2.2 爬虫与反爬虫

4.2.3 正则表达式

4.2.4 requests库实现http请求

4.2.4.1 实战1:豆瓣电影分类排行榜(JSON数据格式)

4.2.4.2 实战2:猫眼电影排行榜数据提取

4.2.4.3 实战3:基于cookies爬取豆瓣短评分析

4.2.5 Beautiful Soup

4.2.5.1 网页的解析

4.2.5.2 网页元素的选取

4.2.5.3 实战:从中国天气网获得天气数据;爬取豆瓣电视剧评分


4.3 爬虫高级技术进阶

4.3.1 多页面的爬取

4.3.2 动态渲染页面的爬取

4.3.3 基于selenium的自动化爬取技术

4.3.4 实战:多页面爬取京东商品数据


Python文本分析学术应用

5 文本分析

5.1 文本分析概述

5.1.1 自然语言处理的层次

5.1.2 自然语言处理的难点

5.1.3 自然语言处理的流派


5.2 文本分析关键技术

5.2.1 常用文本整理和清洗方法

5.2.1.1 句子拆分

5.2.1.2 词拆分

5.2.1.3 过滤重复的单词

5.2.1.4 删除停用词

5.2.1.5 拼写检查

5.2.1.6 大小写变换

5.2.1.7 文本翻译

5.2.1.8 词干提取

5.2.1.9 提取电子邮件或URL

5.2.2 中文分词技术

5.2.2.1 规则分词

5.2.2.2 统计分词

5.2.2.3 混合分词

5.2.2.4 实战:结巴分词,对爬取的豆瓣数据分析,统计词频,绘制词云图

5.2.3 词性标注与命名实体识别

5.2.3.1 词性标注

5.2.3.2 命名实体识别

5.2.3.3 实战:基于jiebaku 的词性标注和基于HanLP的命名实体识别

5.2.4 文本向量化

5.2.4.1 离散化表示

5.2.4.2 分布式表示

5.2.4.3 实战:利用word2vec计算西游记中人物相似性

5.2.5 关键词提取

5.2.5.1 TF-IDF算法

5.2.5.2 TextRank算法

5.2.5.3 LDA算法

5.2.5.4 实战:基于LDA主题模型进行新闻关键词提取

5.2.5.5 实战:网页相似性分析

5.2.6 文本分类

5.2.6.1 分类算法介绍

5.2.6.2 实战:贝叶斯新闻分类

5.2.6.3 实战:虚假评论分类

5.2.7 文本聚类

5.2.7.1 kmeans算法介绍

5.2.7.2 实战:百度百科数据聚类

5.2.7.3 实战:豆瓣书籍数据聚类

5.2.8 文本情感分析

5.2.8.1 基于规则的情感分析

5.2.8.2 基于机器学习模型的情感分析

5.2.8.3 实战:基于豆瓣电影的情感分析

5.2.8.4 实战:在线情感分析系统


【报名方式】                                                                       

1,点击对应专题报名链接,网上提交报名信息;

2,经管之家论坛账号登录后进入结算中心提交订单;

3,订单微信/支付宝/银联支付,如需对公转账请与我们联系;

4,缴费后拉入交流答疑群,发送资料,快递发票,开课通知。


【联系方式】

魏老师

QQ:1143703950 点击这里给我发消息

Tel:010-68478566

Mail:vip@pinggu.org

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝


回帖推荐

资料狂人 发表于6楼  查看完整内容

全天助教答疑! 每天课后指导练习40分钟,讲解20分钟,以掌握当天授课内容!!


沙发
资料狂人 在职认证  发表于 2020-2-4 09:16:22 |只看作者 |坛友微信交流群
如果说2018年以前R是数据学术界的主流,那么2018年以后Python正在慢慢取代R在学术界的地位。

使用道具

藤椅
资料狂人 在职认证  发表于 2020-2-4 09:16:38 |只看作者 |坛友微信交流群
Python与R相比速度要快。Python可以直接处理上G的数据;R不行,R分析数据时需要先通过数据库把大数据转化为小数据才能交给R做分析,因此R不可能直接分析行为详单,只能分析统计结果。所以有人说:Python=R+SQL/Hive,并不是没有道理的。

使用道具

板凳
资料狂人 在职认证  发表于 2020-2-4 09:16:53 |只看作者 |坛友微信交流群
Python的一个最明显的优势在于其胶水语言的特性,很多书里也都会提到这一点,一些底层用C写的算法封装在Python包里后性能非常高效(Python的数据挖掘包Orange Canvas 中的决策树分析50万用户10秒出结果,用R几个小时也出不来,8G内存全部占满)。

使用道具

报纸
资料狂人 在职认证  发表于 2020-2-4 09:17:08 |只看作者 |坛友微信交流群
Python已经成为越来越多美国顶级大学的计算机编程入门语言了。美国计算机排名顶尖的麻省理工学院和加州大学伯克利分校已经将他们的计算机编程入门教学语言改为了 Python。

使用道具

地板
资料狂人 在职认证  发表于 2020-2-4 09:17:45 |只看作者 |坛友微信交流群
全天助教答疑!
每天课后指导练习40分钟,讲解20分钟,以掌握当天授课内容!!

使用道具

7
huhuhuhu 发表于 2020-2-4 09:20:21 |只看作者 |坛友微信交流群

回帖奖励 +5

使用道具

8
军旗飞扬 发表于 2020-2-4 09:54:40 |只看作者 |坛友微信交流群

回帖奖励 +5

使用道具

9
jinjian522 发表于 2020-2-4 10:52:46 |只看作者 |坛友微信交流群

回帖奖励 +5

看看,了解了解

使用道具

10
tianwk 发表于 2020-2-4 11:08:23 |只看作者 |坛友微信交流群

回帖奖励 +5

thanks for sharing

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-26 11:17