|
第二十五天
1.主题:爬虫及相关知识提升
https://pan.baidu.com/s/1slCgfFZ#list/path=%2FPython%20%E6%95%99%E7%A8%8B%2F%E6%99%BA%E6%99%AEpython%2F%E6%99%BA%E6%99%AE%E6%95%99%E8%82%B2Python%E5%9F%B9%E8%AE%AD%E7%B3%BB%E5%88%97%E6%95%99%E7%A8%8B%EF%BC%88%E5%85%B139%E8%AF%BE%E7%A8%8B%EF%BC%89&parentPath=%2FPython%20%E6%95%99%E7%A8%8B
wkhtmltopdf 工具使用
https://www.jianshu.com/p/559c594678b6
BeautifulSoup在python中的使用方法
http://blog.csdn.net/caimouse/article/details/51659155
NumPy快速入门
https://www.jianshu.com/p/bdb4cc476e87
Pandas 十分钟入门
http://blog.csdn.net/zhu418766417/article/details/52718063
2.摘要
a.HTML 转 PDF 之 wkhtmltopdf 工具的学习
命令格式 : wkhtmltopdf url xxx.pdf ===>网页转成pdf
wkhtmltoimage url xxx.jpg ===>网页转成图片
这两个命令足矣!够用就好,不要搞得太复杂,命令行工具就是要简便快速!
b.http请求
爬虫就是模拟人打开一个个URL浏览一个个网页来爬取数据的,一个成功的HTTP请求,就是一个爬虫的基础。
c.Beautiful Soup库的理解:
HTML文件其实就是由一组尖括号构成的标签组织起来的,每一对尖括号形式一个标签,标签之间存在上下关系,形成标签树;因此可以说Beautiful Soup库是解析、遍历、维护“标签树”的功能库。
p标签:<p></p>:标签Tag ——一般,标签名都是成对出现的(位于起始和末尾),例如P;在第一个标签名之后可以有0到多个属性,表示标签的特点
<p class="title">...</p>——中间的class属性,其值为“title ”(属性是由键和值,键值对构成的)
通常,Beautiful Soup库的使用:
from bs4 import BeautifulSoup #主要使用BeautifulSoup类
事实上可以认为:HTML文档和标签树,BeautifulSoup类是等价的。
d.关于numpy的本质
#1.Numpy是Python的一个矩阵类型,提供大量矩阵处理函数,内部通过C实现;
#2.包含两种数据结构,数组array和矩阵matrix,其实就是array而已;
#3.ndarray,一个多维数组结构,高效且节省空间;
#4.无需循环对整组数据进行快速运算的数学函数;
e.对比出真知:
Pandas: 是原AQR Capital Management出来的人开发的,属于一款很适合做数据分析的框架,可以理解成表格+时间戳。目前AQR Capital Management 和 Man Group AHL 量化基金都很支持Pandas使用,属于不少对冲基金标配数据分析。
NumPy: 可以理解成Python的矩阵处理器。
3.心得感悟
A.要把爬取的网页打包成pdf,就非常重要了!零散的数据堆放很不符合规律规格。化零为整,归纳提纯,系统化才是数据处理的正途,仅仅爬一堆数据,并不符合价值规律;
B.要学的还很多,爬虫其实很简单!!当然我会的只是目前够用的一滴滴而已,我做到我想要的output就可以了,我并不定位于python技术大咖,那不是我想要的;
C.计算机语言能帮助我们提炼思维,净化埋在大脑身处冗余的逻辑与数据,让我们做人更单纯不造作、做事讲章法有计划,这是学习python的重大提升!
D.不得不说,wkhtmltopdf太酷了,秒杀一起玩可视化文档转换操作。
E.我用HomeBrew安装的BeautifulSoup,要作为一个模块导入到python3里,方法就是:
from bs4 import BeautifulSoup #beautifulsoup4库使用时是简写的bs4
注意美丽汤药的大小写啊,不然导入不成功。
然后把上边链接中的代码多敲打几次就行了。
4.时间统计
昨日阅读5小时,累计230小时
|