|
第02天
1.主题:
软件postman的学习
http://www.cnblogs.com/leefat/p/3593074.html
python遇见数据采集
https://www.imooc.com/video/12627
BeautifulSoup的官网文档
https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/
2.摘要
from bs4 import BeautifulSoup as bs
bs.xxx ——> 点后函数,只能获取文档第一个指定信息
bs.find_all() ——> 获取所有指定信息
print(soup.find('p', {'class' : 'story'})) #查找p标签中的class=story
<p class="story">Once upon a time there were three little sisters; and their names were
<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>
用Chrome浏览器,右键选择检查’,对网页代码进行解析过滤,即:
Chrome —> Inspect —> Network —> Doc —> Name —> Headers
你将得到:
Request URL:
Request Method:
类似功能也可以用postman完成;
解决Python certificate verify failed的问题
答案:导入ssl时关闭证书验证
import ssl
写上:
ssl._create_default_https_context = ssl._create_unverified_context
HTTP 协议制定的初衷, GET,POST,PUT,DELETE 对应 资源的 查 ,改 ,增 ,删 4个操作。
Robots协议是爬虫协议:
User-agent:谁是爬虫
disallow:不允许你访问的目录
allow:允许你访问的目录
任意网址根域名后加/robots.txt为爬虫协议,比如百度https://www.baidu.com/的爬虫协议就是:https://www.baidu.com/robots.txt,以表明百度网页允许哪些搜索引擎访问或不允许访问百度的哪些目录,比如
User-agent: Baiduspider #百度网允许baiduspider访问和不能访问的目录
Disallow: /baidu
Disallow: /s?
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
User-agent: Sosospider #百度网允许sosospider访问和不能访问的目录
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
User-agent: * #其他搜索引擎,一概不能访问百度的任何目录
Disallow: /
3.心得感悟
简单 + 重复 + 案例 = 接近成功
4.时间统计
昨日阅读5小时,累计255小时
|