楼主: 资料狂人
14039 83

[学科前沿] Python爬虫是什么?如何从零基础掌握Python爬虫在学术中的应用?   [推广有奖]

VIP管理员

泰斗

66%

还不是VIP/贵宾

-

威望
9
论坛币
986635475 个
通用积分
25914.3905
学术水平
4484 点
热心指数
3254 点
信用等级
3495 点
经验
560323 点
帖子
7545
精华
142
在线时间
13327 小时
注册时间
2010-3-18
最后登录
2019-6-17

初级热心勋章 初级学术勋章 中级学术勋章 中级热心勋章 初级信用勋章 中级信用勋章 高级学术勋章 高级热心勋章 高级信用勋章 特级信用勋章 特级学术勋章

资料狂人 在职认证  发表于 2019-2-21 09:32:43 |显示全部楼层

Python爬虫是什么?

爬虫,即网络爬虫,大家可以理解为在网络上爬行的一只蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛,如果它遇到自己的猎物(所需要的资源),那么它就会将其抓取下来。比如它在抓取一个网页,在这个网中他发现了一条道路,其实就是指向网页的超链接,那么它就可以爬到另一张网上来获取数据。

因为Python的脚本特性,Python易于配置,对字符的处理也非常灵活,加上Python有丰富的网络抓取模块,所以两者经常联系在一起。Python爬虫就是从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。


为什么选择Python做爬虫?

作为一门编程语言而言,Python是纯粹的自由软件,以简洁清晰的语法和强制使用空白符进行语句缩进的特点从而深受程序员的喜爱。举一个例子:完成一个任务的话,C语言一共要写1000行代码,Java要写100行,而Python则只需要写20行的代码。使用Python来完成编程任务的话编写的代码量更少,代码简洁简短可读性更强,一个团队进行开发的时候读别人的代码会更快,开发效率会更高,使工作变得更加高效。

Python是一门非常适合开发网络爬虫的编程语言,而且相比于其他静态编程语言,Python抓取网页文档的接口更简洁;相比于其他动态脚本语言,Python的urllib2包提供了较为完整的访问网页文档的API。此外,Python中有优秀的第三方包可以高效实现网页抓取,并可用极短的代码完成网页的标签过滤功能,所以Python是网络爬虫首选编程语言!


在了解爬虫的过程中,由于对这项技术缺乏系统了解,“小白”们难免会被纷繁生僻的知识点折腾地眼花缭乱、晕头转向。

有的人打算先搞懂基本原理和工作流程,

有的人计划从软件的基本语法入门,

也有人打算弄懂了网页文档再来……

在学习抓取网络信息的道路上,许多人因为中途掉进陷阱最终无功而返。因此,掌握正确的方法的确非常重要。

Python爬虫学术应用现场班_爬取一手数据,提高实证效率,零基础起步

通过通俗易懂的讲解,令没有编程基础的您能够学会爬取主流网站的内容并整理成可为后续分析提供依据的数据资料。在这门课结束之后,能够爬取豆瓣的评论内容、淘宝的销售数据、房价的变化趋势,还能对股票市场进行分析和预测。

培训时间:2019年9月13-16日 (四天)

培训地点:北京市海淀区丹龙大厦附近

培训费用:3600元 /3000元(学生价仅限全日制本科生及硕士在读)

授课安排:上午9:00-12:00,下午1:30-4:30,答疑4:30-5:00


课程大纲:

Python爬虫学术应用201909课纲.png


优惠:

现场班老学员9折优惠;
同一单位三人以上同时报名9折优惠;

以上优惠不叠加。


报名流程:

1,点击“http://www.peixun.net/main.php?mod=buy&cid=1271”,在线提交报名信息;

2,进入结算中心,通过订单支付;

3,开课前一周发送交通住宿指南及资料,上课事宜;

4,现场领取发票。


联系方式:

魏老师

QQ:28819897142881989714

Tel:010-68478566

Mail:vip@pinggu.org


已有 1 人评分经验 收起 理由
np84 + 100 精彩帖子

总评分: 经验 + 100   查看全部评分




stata SPSS
资料狂人 在职认证  发表于 2019-2-21 09:35:27 |显示全部楼层
阎老师有多年的Python授课经验,同时也有丰富地学术论文数据方面的经验,Python爬虫学术应用-为你的论文助一臂之力!

讲师介绍:

阎老师,长期从事数据分析的理论研究、教学和实践工作。长期关注各类统计软件的发展和国内外各行业的应用情况,一直保持着与统计应用前沿的密切接触,在数据挖掘应用、市场研究应用等领域经验丰富。
擅长企业数据分析和企业诊断,参与多项国家级、省级课题的科研工作,曾任多家电商企业的运营顾问和培训师,积累了大量实战经验。


回复

使用道具 举报

资料狂人 在职认证  发表于 2019-2-21 09:36:24 |显示全部楼层

为了能够完整地呈现Python数据采集的方法和过程,这门课将分为四大部分——

一、Python快速入门

在写爬虫之前,我们需要了解一些有关工具的基础知识。所以,第一天的授课内容是关于Python基础的,是后续课程中读懂并编写爬虫程序的铺垫。其中包括了Python的数据结构、变量类型、循环和控制语句、Numpy和Pandas包的基本功能。有基础的老师可以跳过这一部分直接进入第二部分。


第1章 认识Python

1. Python的数据结构与函数

2. Python的循环与控制流

3. Python的基本扩展库


二、初识爬虫

在这一部分中,我们将正式接触爬虫,我们也将感受到每天都在使用的浏览器究竟藏着哪些细节。为了能够得到清洁的数据,我们不得不忽略网页精致的外观和编排,刻意绕开浏览器的帮助来分离和理解数据。页源里除了我们认识的文字,那些标签都有着怎样的含义?如何把网页内容“请”到我们的分析工具中来?爬取数据有怎样的规律可循?这些都是第二部分将要呈现的内容。


第2章 重新认识网络

1. 什么是Web前端

2. HTML的结构


第3章 创建爬虫

1. 什么是爬虫

2. Python爬虫的环境搭建

3. 爬虫三部曲——获取、解析、保持

小例子:创建第一个爬虫


三、页面解析

在之前的课程中,我们已经知道了要怎样繁复的工程才堆砌出绚丽的网页,但这其中大部分的内容是我们并不需要的。如何穿越层层与我们无关的标签和HTML属性抽取到清洁的数据内容?如何使用更简洁高效的方式达到目的?大名鼎鼎的“正则”究竟是什么?这些是4-6章要重点讲授的内容。


第4章 复杂HTML解析

1. 正则表达式

2. 一个名叫“心灵鸡汤”的扩展库

3. 导航树

4. 突破反爬虫的限制

案例1:静态页面爬虫


第5章 动态渲染页面的爬取

1. Ajax和动态HTML

2. 无界面浏览器PhantomJS

3. 自动化测试库Selenium

案例2:动态爬虫


第6章 Scrapy爬虫架构

1. Scrapy爬虫结构

2. 创建爬虫模块

3. 选择器

4. 构建Item Pipeline

5. 请求与相应

案例3:Scrapy爬虫


四、爬取结果的处理

到目前为止,我们处理的还都是规范数据,但现实是,我们面对更多的是样式不规范的数据,放弃不符合预期的数据并不是一个长久之计。在我们无法挑选数据时,这一章的内容就显得格外有用了。一个长句中究竟包含了哪些有效信息?一条评价反映出客户怎样的态度?接下来的内容将介绍一些工具和方法,帮助我们控制或筛选进入视线的数据,为后续的数据分析做准备。


第7章 数据清洗

1. 清洗结构化数据

2. 清洗非结构化数据

3. 数据标准化

案例4:计算词频


第8章 自然语言处理入门

1. 获取文本语料

2. 加工原始文本

3. 从文本中提取信息

案例5:情感分析





回复

使用道具 举报

资料狂人 在职认证  发表于 2019-2-21 09:36:56 |显示全部楼层
“工欲善其事,必先利其器”,当您的实证分析中有了一手的准确数据,就好像伐木人有了一把锋利的斧子,那么您的实证效率会呈现几何级的增长!这把利器就是Python爬虫
回复

使用道具 举报

资料狂人 在职认证  发表于 2019-2-21 09:38:34 |显示全部楼层
网络爬虫技术确实变得越来越重要  在研究中经常会起到一些特别的作用
回复

使用道具 举报

西瓜那么大 发表于 2019-2-21 09:41:42 |显示全部楼层

回帖奖励 +3

介绍得比较清楚。
回复

使用道具 举报

军旗飞扬 发表于 2019-2-21 10:02:22 |显示全部楼层

回帖奖励 +3

回复

使用道具 举报

xmuzhl 发表于 2019-2-21 10:04:19 |显示全部楼层

回帖奖励 +3

回复

使用道具 举报

karst 发表于 2019-2-21 10:21:12 |显示全部楼层

回帖奖励 +3

谢谢
回复

使用道具 举报

cszcszcsz 发表于 2019-2-21 10:22:11 |显示全部楼层

回帖奖励 +3

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 我要注册

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2019-6-17 23:23