20180302【充实计划】第634期 [推广有奖]

21楼

Greenwicher

发表于 2018-3-2 09:34:38

昨日阅读1小时，累计阅读481小时

已有 1 人评分	论坛币	收起理由
充实每一天	+ 10	精彩帖子

总评分: 论坛币 + 10 查看全部评分

22楼

ws3161912 发表于 2018-3-2 10:29:07

昨日阅读1小时，累计阅读97小时

已有 1 人评分	论坛币	收起理由
充实每一天	+ 10	精彩帖子

总评分: 论坛币 + 10 查看全部评分

23楼

来到月亮 发表于 2018-3-2 10:32:20

昨日阅读3小时，累计阅读543小时

已有 1 人评分	论坛币	收起理由
充实每一天	+ 10	精彩帖子

总评分: 论坛币 + 10 查看全部评分

24楼

junzijie123 发表于 2018-3-2 11:16:06

开始准备阅读

已有 1 人评分	论坛币	收起理由
充实每一天	+ 5	精彩帖子

总评分: 论坛币 + 5 查看全部评分

25楼

tttt321 发表于 2018-3-2 11:43:34

昨日阅读0.5小时，累计阅读86小时

已有 1 人评分	论坛币	收起理由
充实每一天	+ 10	精彩帖子

总评分: 论坛币 + 10 查看全部评分

26楼

franky_sas 发表于 2018-3-2 11:51:18

昨日阅读1小时，累计阅读393小时

已有 1 人评分	论坛币	收起理由
充实每一天	+ 10	精彩帖子

总评分: 论坛币 + 10 查看全部评分

27楼

GKINGLIU

发表于 2018-3-2 12:15:03

第02天

1.主题：
软件postman的学习
http://www.cnblogs.com/leefat/p/3593074.html
python遇见数据采集
https://www.imooc.com/video/12627
BeautifulSoup的官网文档
https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/

2.摘要
from bs4 import BeautifulSoup as bs

bs.xxx  ——> 点后函数，只能获取文档第一个指定信息
bs.find_all() ——>  获取所有指定信息

print(soup.find('p', {'class' : 'story'})) #查找p标签中的class=story
<p class="story">Once upon a time there were three little sisters; and their names were
<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

用Chrome浏览器，右键选择检查’，对网页代码进行解析过滤，即：
Chrome —> Inspect —> Network —> Doc  —> Name —> Headers
你将得到：
Request URL:
Request Method:
类似功能也可以用postman完成；

解决Python certificate verify failed的问题
答案：导入ssl时关闭证书验证
import ssl 写上： ssl._create_default_https_context = ssl._create_unverified_context

HTTP 协议制定的初衷， GET，POST，PUT，DELETE 对应资源的查，改，增，删 4个操作。

Robots协议是爬虫协议：
User-agent:谁是爬虫
disallow:不允许你访问的目录
allow：允许你访问的目录
任意网址根域名后加/robots.txt为爬虫协议，比如百度https://www.baidu.com/的爬虫协议就是：https://www.baidu.com/robots.txt，以表明百度网页允许哪些搜索引擎访问或不允许访问百度的哪些目录，比如
User-agent: Baiduspider #百度网允许baiduspider访问和不能访问的目录
Disallow: /baidu
Disallow: /s?
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/

User-agent: Sosospider  #百度网允许sosospider访问和不能访问的目录
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/

User-agent: *       #其他搜索引擎，一概不能访问百度的任何目录
Disallow: /

3.心得感悟
简单 + 重复 + 案例  = 接近成功

4.时间统计
昨日阅读5小时，累计255小时