20180225【充实计划】第629期 [推广有奖]

21楼

GKINGLIU

发表于 2018-2-25 11:00:10

第二十五天

1.主题：爬虫及相关知识提升
https://pan.baidu.com/s/1slCgfFZ#list/path=%2FPython%20%E6%95%99%E7%A8%8B%2F%E6%99%BA%E6%99%AEpython%2F%E6%99%BA%E6%99%AE%E6%95%99%E8%82%B2Python%E5%9F%B9%E8%AE%AD%E7%B3%BB%E5%88%97%E6%95%99%E7%A8%8B%EF%BC%88%E5%85%B139%E8%AF%BE%E7%A8%8B%EF%BC%89&parentPath=%2FPython%20%E6%95%99%E7%A8%8B
wkhtmltopdf 工具使用
https://www.jianshu.com/p/559c594678b6
BeautifulSoup在python中的使用方法
http://blog.csdn.net/caimouse/article/details/51659155
NumPy快速入门
https://www.jianshu.com/p/bdb4cc476e87
Pandas 十分钟入门
http://blog.csdn.net/zhu418766417/article/details/52718063

2.摘要
a.HTML 转 PDF 之 wkhtmltopdf 工具的学习
命令格式： wkhtmltopdf url xxx.pdf ===>网页转成pdf
wkhtmltoimage url xxx.jpg ===>网页转成图片
这两个命令足矣！够用就好，不要搞得太复杂，命令行工具就是要简便快速！

b.http请求
爬虫就是模拟人打开一个个URL浏览一个个网页来爬取数据的，一个成功的HTTP请求，就是一个爬虫的基础。

c.Beautiful Soup库的理解：
HTML文件其实就是由一组尖括号构成的标签组织起来的，每一对尖括号形式一个标签，标签之间存在上下关系，形成标签树；因此可以说Beautiful Soup库是解析、遍历、维护“标签树”的功能库。
p标签：<p></p>：标签Tag ——一般，标签名都是成对出现的（位于起始和末尾），例如P；在第一个标签名之后可以有0到多个属性，表示标签的特点
<p class="title">...</p>——中间的class属性，其值为“title ”（属性是由键和值，键值对构成的）

通常，Beautiful Soup库的使用：
from bs4 import BeautifulSoup #主要使用BeautifulSoup类
事实上可以认为：HTML文档和标签树，BeautifulSoup类是等价的。

d.关于numpy的本质
#1.Numpy是Python的一个矩阵类型，提供大量矩阵处理函数，内部通过C实现;
#2.包含两种数据结构，数组array和矩阵matrix，其实就是array而已;
#3.ndarray，一个多维数组结构，高效且节省空间;
#4.无需循环对整组数据进行快速运算的数学函数;

e.对比出真知：
Pandas：是原AQR Capital Management出来的人开发的，属于一款很适合做数据分析的框架，可以理解成表格+时间戳。目前AQR Capital Management 和 Man Group AHL 量化基金都很支持Pandas使用，属于不少对冲基金标配数据分析。
NumPy: 可以理解成Python的矩阵处理器。

3.心得感悟
A.要把爬取的网页打包成pdf，就非常重要了！零散的数据堆放很不符合规律规格。化零为整，归纳提纯，系统化才是数据处理的正途，仅仅爬一堆数据，并不符合价值规律；

B.要学的还很多，爬虫其实很简单！！当然我会的只是目前够用的一滴滴而已，我做到我想要的output就可以了，我并不定位于python技术大咖，那不是我想要的；

C.计算机语言能帮助我们提炼思维，净化埋在大脑身处冗余的逻辑与数据，让我们做人更单纯不造作、做事讲章法有计划，这是学习python的重大提升！

D.不得不说，wkhtmltopdf太酷了，秒杀一起玩可视化文档转换操作。

E.我用HomeBrew安装的BeautifulSoup，要作为一个模块导入到python3里，方法就是：
from bs4 import BeautifulSoup #beautifulsoup4库使用时是简写的bs4
注意美丽汤药的大小写啊，不然导入不成功。
然后把上边链接中的代码多敲打几次就行了。

4.时间统计
昨日阅读5小时，累计230小时