我们想要做的事情:自动读取博客文章,记录标题,把心仪的文章保存到个人电脑硬盘里供以后学习参考。
过程大体分为以下几步:
1.找到爬取的目标网址;
2.分析网页,找到自已想要保存的信息,这里我们主要保存是博客的文章内容;
3.清洗整理爬取下来的信息,保存在本地磁盘。
打开csdn的网页,作为一个示例,我们随机打开一个网页:
http://blog.csdn.net/u013088062/article/list/1。
可以看到,博主对《C++卷积神经网络》和其它有关机计算机方面的文章都写得不错。
楼主: ZQZ520
|
28650
128
[学科前沿] 用Python爬虫获取自己感兴趣的博客文章 |
273 个论坛币 | 回复本帖可获得 3 个论坛币奖励! 每人限 1 次 |
院士 17%
-
|
| ||
| ||
| ||
京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明 免责及隐私声明