楼主: 时光人
1707 4

[网帖精选] Python爬虫机器人 [推广有奖]

  • 3关注
  • 34粉丝

已卖:165份资源

院士

23%

还不是VIP/贵宾

-

威望
1
论坛币
26913 个
通用积分
429.8724
学术水平
95 点
热心指数
109 点
信用等级
91 点
经验
39970 点
帖子
1630
精华
3
在线时间
580 小时
注册时间
2019-2-25
最后登录
2025-5-6

楼主
时光人 学生认证  发表于 2019-11-5 18:36:49 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

AIU人工智能学院:数据科学、人工智能从业者的在线大学。

数据科学(Python/R/Julia)数据分析、机器学习、深度学习

爬虫机器人就是从网络上面取得特定数据的程序。分为三个步骤:首先取得网页数据,然后清洗数据,最后保存的到的数据。

得益于丰富的库资源,Python写爬虫程序比较简单。本篇会涉及到两个库requests和BeautifulSoup。

下面通过爬取一张图片的例子,感受一下Python爬虫机器人。爬取一个图片网站的图片。我们看一下如何爬取下面这个网页中的“搞怪的外国老人”这张图片。

此处有超链接,但是平台不让发,需要的回复我。

如何取得网页数据?

我们在浏览器看到的网页其实是满足一定规则和格式的文本文档。网页空白处点击右键,然后选择查看网页源代码,可以在一个新打开的窗口,看到下面的内容。这就是我们想要的当前网页的文本数据。

下面,我们看一下如何用Python代码取得网页数据。这里用到requests库,调用get方法,传入网址参数

如何清洗数据?

这一步就是,如果从得到的网页数据中,提取自己感兴趣的部分。这个例子中,我们要下载一张图片。直接分析数据不太好弄,我们需要和网页在同一个窗口内分析数据,Chrome浏览器按F12可以在网页窗口查看各种信息:

通过查看Elements栏目的文本块,找到图片的下载地址

这里实际上是img TAG里面的src属性的值:

下面又该Python上场了,该如何拿到这个值。这里用到另一个库BeautifulSoup。

如何保存数据?

我们需要把图片保存为本地文件。通过url请求图片数据;打开一个本地文件,然后把图片数据写入;关闭文件。

写在结尾的话

有没有感觉很酷,反正我是这样认为。让我们探索一下Python可以做那些“很酷”的东西。


关注“AIU人工智能”公众号,回复“白皮书”获取数据分析、大数据、人工智能行业白皮书及更多精选学习资料!


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝


回帖推荐

yunnandlg 发表于2楼  查看完整内容

一生中,我们要经历许多事,要相识相交许多人。而心灵像一个筛子,在世事颠沛流离中,慢慢的一些人就漏掉了。对于智者来说,他们漏掉的只是别人的过错与不足,他们不会去记恨一个人,而会记住他人的好和善,并时时充盈自己那颗感恩的心,宽容大气的生活,会让我们更容易感受到喜乐与安然。 谢谢分享
已有 1 人评分经验 收起 理由
cheetahfly + 100 精彩帖子

总评分: 经验 + 100   查看全部评分

沙发
yunnandlg 在职认证  学生认证  发表于 2019-11-6 05:56:00
一生中,我们要经历许多事,要相识相交许多人。而心灵像一个筛子,在世事颠沛流离中,慢慢的一些人就漏掉了。对于智者来说,他们漏掉的只是别人的过错与不足,他们不会去记恨一个人,而会记住他人的好和善,并时时充盈自己那颗感恩的心,宽容大气的生活,会让我们更容易感受到喜乐与安然。

谢谢分享

藤椅
cheetahfly 在职认证  发表于 2019-11-6 08:02:32
谢谢分享

板凳
7808938462 发表于 2019-11-8 10:17:58
求一个超链接 感谢!

报纸
escaflowne1985 在职认证  发表于 2020-1-3 22:19:09 来自手机
不明觉厉

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2026-1-7 21:27