楼主: 资料狂人
3668 65

[学科前沿] Python爬虫能做什么   [推广有奖]

VIP管理员

泰斗

68%

还不是VIP/贵宾

-

威望
9
论坛币
986603748 个
通用积分
25953.8625
学术水平
4496 点
热心指数
3270 点
信用等级
3509 点
经验
561538 点
帖子
7660
精华
142
在线时间
13603 小时
注册时间
2010-3-18
最后登录
2019-9-24

初级热心勋章 初级学术勋章 中级学术勋章 中级热心勋章 初级信用勋章 中级信用勋章 高级学术勋章 高级热心勋章 高级信用勋章 特级信用勋章 特级学术勋章

资料狂人 在职认证  发表于 2019-5-29 09:46:31 |显示全部楼层

Python是一门非常简单易学好用,同时功能强大的编程语言,具有丰富和强大的库,开发效率特别高。


Python爬虫能做什么

世界上80%的爬虫是基于Python开发的,学好爬虫技能,可为后续的大数据分析、挖掘、机器学习等提供重要的数据源。


什么是爬虫?

网络爬虫通俗的讲就是通过程序去获取web页面上自己想要的数据,也就是自动抓取数据。


爬虫可以做什么?

你可以用爬虫爬图片,爬取视频等等你想要爬取的数据,只要你能通过浏览器访问的数据都可以通过爬虫获取。


什么是Python?

Python(大蟒蛇)是一门解释型、面向对象、带有动态语义的高级程序设计语言。

Python具有强大而丰富的类库,也经常被别人说是胶水语言,可以跟其它语言写的模块结合在一起。


优点:

1. 简单:Python是一种代表简单主义思想的语言。

2. 易用:Python简单容易上手,因为有简单容易看懂的文档。

3. 速度快:运行速度快,因为Python中的标准库和第三方库都是C语言编写的,所以很快。

4. 免费、开源:Python是一款FLOSS(自由/源代码软件)之一,使用者可以自由地发布这个软件的拷贝、阅读它的源代码、对它做改动、把它的一部分用于新的自由软件中。

5. 高层语言:用Python语言编写程序的时候无需考虑诸如如何管理你的程序使用的内存一类的底层细节。

6. 可移植性:由于它的开源本质,Python已经被移植在许多平台上(经过改动使它能够工作在不同平台上)。

7. 解释性:Python语言写的程序不需要编译成二进制代码。你可以直接从源代码运行 程序。在计算机内部,Python解释器把源代码转换成称为字节码的中间形式,然后再把它翻译成计算机使用的机器语言并运行。这使得使用Python更加简单。也使得Python程序更加易于移植。

8. 面向对象:Python既支持面向过程的编程也支持面向对象的编程。在“面向过程”的语言中,程序是由过程或仅仅是可重用代码的函数构建起来的。在“面向对象”的语言中,程序是由数据和功能组合而成的对象构建起来的。

9. 可扩展性:如果需要一段关键代码运行得更快或者希望某些算法不公开,可以部分程序用C或C++编写,然后在Python程序中使用它们。

10. 可嵌入性:可以把Python嵌入C/C++程序,从而向程序用户提供脚本功能。

11. 丰富的库:Python标准库确实很庞大。它可以帮助处理各种工作,包括正则表达式、文档生成、单元测试、线程、数据库、网页浏览器、CGI、FTP、电子邮件、XML、XML-RPC、HTML、WAV文件、密码系统、GUI(图形用户界面)、Tk和其他与系统有关的操作。

12. 规范的代码:Python采用强制缩进的方式使得代码具有较好可读性。而Python语言写的程序不需要编译成二进制代码。


如何在学术实证中应用Python爬虫爬取一手数据,提高实证效率:

Python爬虫学术应用现场班_零基础起步

培训时间:2019年9月13-16日 (四天)

培训地点:北京市海淀区丹龙大厦

培训费用:3600元 /3000元(学生价,仅限全日制本科生及硕士在读)

授课安排:上午9:00-12:00,下午1:30-4:30,答疑4:30-5:00


讲师介绍:

阎老师,长期从事数据分析的理论研究、教学和实践工作。长期关注各类统计软件的发展和国内外各行业的应用情况,一直保持着与统计应用前沿的密切接触,在数据挖掘应用、市场研究应用等领域经验丰富。
擅长企业数据分析和企业诊断,参与多项国家级、省级课题的科研工作,曾任多家电商企业的运营顾问和培训师,积累了大量实战经验。


课程导引:

在了解爬虫的过程中,由于对这项技术缺乏系统了解,“小白”们难免会被纷繁生僻的知识点折腾地眼花缭乱、晕头转向。有的人打算先搞懂基本原理和工作流程,有的人计划从软件的基本语法入门,也有人打算弄懂了网页文档再来……在学习抓取网络信息的道路上,许多人因为中途掉进陷阱最终无功而返。因此,掌握正确的方法的确非常重要。

这一门课的目的,就是希望能够通过通俗易懂的讲解令没有编程基础的研究人员通过学习,能够学会爬取主流网站的内容并整理成为可为后续分析提供依据的数据资料在这门课结束之后,我们能够爬取豆瓣的评论内容、学术论文、淘宝的销售数据、房价的变化趋势,还能对股票市场进行分析和预测。


课程大纲:

Python爬虫学术应用201909课纲.png


优惠信息:

现场班老学员9折优惠;
同一单位三人以上同时报名9折优惠;

以上优惠不叠加。


报名流程:

1. 点击“http://www.peixun.net/main.php?mod=buy&cid=1271”,网上提交报名信息;

2. 订单缴费;

3. 缴费确认,开课前一周发送软件准备,电子版讲义;
4. 现场领取发票及邀请函。


联系方式:

魏老师

QQ:28819897142881989714

Tel:010-68478566

Mail:vip@pinggu.org


已有 3 人评分经验 论坛币 学术水平 热心指数 信用等级 收起 理由
nuomin + 100 + 20 + 1 + 1 + 1 精彩帖子
oasises + 1 + 1 + 1 精彩帖子
救星105033 + 5 + 5 + 5 精彩帖子

总评分: 经验 + 100  论坛币 + 20  学术水平 + 7  热心指数 + 7  信用等级 + 7   查看全部评分




stata SPSS
资料狂人 在职认证  发表于 2019-5-29 09:47:49 |显示全部楼层




回复

使用道具 举报

资料狂人 在职认证  发表于 2019-5-29 09:51:02 |显示全部楼层
Python在爬虫这件事的表现也非常具有优势:
各种爬虫框架,方便高效的下载网页;
多线程、进程模型成熟稳定,爬虫是一个典型的多任务处理场景,请求页面时会有较长的延迟,总体来说更多的是等待。多线程或进程会更优化程序效率,提升整个系统下载和分析能力;
GAE 的支持,当初写爬虫的时候刚刚有 GAE,而且只支持 Python ,利用 GAE 创建的爬虫几乎免费,最多的时候我有近千个应用实例在工作。


爬虫的用处:
做为通用搜索引擎网页收集器(google,baidu);
做垂直搜索引擎;
科学研究:在线人类行为,在线社群演化,人类动力学研究,计量社会学,复杂网络,数据挖掘,等领域的实证研究都需要大量数据,网络爬虫是收集相关数据的利器。
回复

使用道具 举报

资料狂人 在职认证  发表于 2019-5-29 09:51:26 |显示全部楼层
在了解爬虫的过程中,由于对这项技术缺乏系统了解,“小白”们难免会被纷繁生僻的知识点折腾地眼花缭乱、晕头转向。

有的人打算先搞懂基本原理和工作流程,

有的人计划从软件的基本语法入门,

也有人打算弄懂了网页文档再来……

在学习抓取网络信息的道路上,许多人因为中途掉进陷阱最终无功而返。因此,掌握正确的方法的确非常重要。

Python爬虫学术应用现场班_爬取一手数据,提高实证效率,零基础起步
回复

使用道具 举报

资料狂人 在职认证  发表于 2019-5-29 09:51:53 |显示全部楼层
阎老师有多年的Python授课经验,同时也有丰富地学术论文数据方面的经验,Python爬虫学术应用-为你的论文助一臂之力!
回复

使用道具 举报

Edwardu 发表于 2019-5-29 10:39:22 |显示全部楼层

回帖奖励 +3

解释型、面向对象、带有动态语义的高级程序设计语言
回复

使用道具 举报

大猫糖 发表于 2019-5-29 10:42:50 |显示全部楼层

回帖奖励 +3

来学习一下
回复

使用道具 举报

gx666666gx888 发表于 2019-5-29 11:00:02 |显示全部楼层

回帖奖励 +3

学习了。
回复

使用道具 举报

绛河在夜空11 学生认证  发表于 2019-5-29 11:00:39 |显示全部楼层

回帖奖励 +3

回复

使用道具 举报

junzhitianxia 发表于 2019-5-29 11:06:52 |显示全部楼层

回帖奖励 +3

PYTHON好,习惯用R,要不要努力下学PYTHON
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 我要注册

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2019-9-24 17:38