楼主: 田JL
709 1

[CDA3班] 【学习笔记】9.15打卡 Python爬虫基础 Part1-2 通用网络爬虫与聚焦爬虫的比较 ... [推广有奖]

  • 5关注
  • 14粉丝

讲师

15%

还不是VIP/贵宾

-

威望
0
论坛币
2362 个
通用积分
1017.9744
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
1845 点
帖子
345
精华
0
在线时间
9 小时
注册时间
2020-5-24
最后登录
2021-11-12

楼主
田JL 发表于 2020-9-16 00:01:24 来自手机 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
9.15打卡
Python爬虫基础 Part1-2
通用网络爬虫与聚焦爬虫的比较
通用网络爬虫尽可能多的采集信息页面,而在这一过程中,它并不太在意页面采集的顺序和被采集页面的相关主题,这需要消耗很多的系统资源和网络宽带,并且对这些资源的消耗并没有换来采集页面的较高利用率。
聚焦爬虫,尽可能快的爬行、采集尽可能多的与预先定义好的主题相关的网页。聚焦爬虫可以通过对整个Web按主题分块采集,并将不同块儿的采集结果整合到一起,以提高整个Web的采集覆盖率和页面利用率。
URL的搜索策略——基于IP地址搜索策略、广度优先搜索策略、深度优先搜索策略、最佳优先搜索策略 tmp_4a73af8cf44659535cd9cab7ca39dfaae062a796a1bd4760.jpg tmp_8f4fa11cb7b6596825dd47f23fefdf52722dda2afd9d4c0b.jpg
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:python爬虫 python PART 学习笔记 网络爬虫

沙发
三重虫 发表于 2020-9-16 16:10:42

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-9 07:23