楼主: 莫小漠
1695 3

[Python] 【带搜索、网页抓取、正则、保存】【源码】python小例子。附源码及知识点讲解   [推广有奖]

  • 4关注
  • 65粉丝

已卖:1219份资源

博士生

45%

还不是VIP/贵宾

-

TA的文库  其他...

量化交易

威望
0
论坛币
62351 个
通用积分
5.6394
学术水平
107 点
热心指数
90 点
信用等级
83 点
经验
7897 点
帖子
157
精华
2
在线时间
163 小时
注册时间
2012-10-21
最后登录
2022-3-16

楼主
莫小漠 在职认证  发表于 2015-2-26 15:12:21 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

源数据输入输出要求+网页抓取知识点+下载链接




公司名字在程序同目录下的'公司全名.txt'中,一行一个

这是帮版友写的小程序:
100论坛币求python大神帮忙编一段程序完成从网页中抓取信息






源数据输入:

只用公司名,公司名另存到了txt文件中。一行一个。
时间方面:
时间未考虑小长假及春节,只考虑了周末的情况。
未考虑下班时间。当日查询时终止日期为当日。
当周末查询时,实际查询的是本周四-周五的情况。
周一时,查询的是上周五到周一。


源数据输出:


输出是否中标,同时在脚本所在目录输出中标的公司所有搜索出来的项目名及项目连接。


2.jpg


1.jpg












网页抓取所用资源总结:




写这个程序是连谷歌带百度,各种文章中基本都是python2.x的版本,而我的环境是win+python3.4,
做了2to3的修改。
用到的知识:
      1、函数及函数调用
      2、正则模块,用于检索符合条件超链接及标题;注:python默认正则是贪婪模式(即有多少给出多少,而这正式本程序所需要的),模块:re
      3、字符编码,网页是utf-8的编码,在获取之后所有的中文都是”\x45“的样子,要用utf-8的模式解码。其中ignore的作用可以自己搜索下。

  1. html = response.read().decode('utf-8','ignore')
复制代码
      同时,文件要保存,直接保存提示错误。具体错误提示忘了,反正就是编码出错。后尝试了下将打开的TXT修改为相同编码,成功。模块:codecs
  1. codecs.open(companyname+'(中标).txt','w','utf-8')   
复制代码

      4、网页读取,模块:urllib
带关键字搜索,因为url中涉及了这个关键字,所以分解超链接中关键字即可。
同时,有一点需要注意,url中带有中文,python访问会失败,要做转换:

  1. urllib.parse.quote("所有招标分类")
复制代码


      5、print的功能。模块:sys
默认输出方式的调整,指定到txt中。之后还原为默认。
  1. temp = sys.stdout
  2.             sys.stdout = codecs.open(companyname+'(中标).txt','w','utf-8')
复制代码
用完还原:
  1. sys.stdout.close()
  2.             sys.stdout = temp
复制代码


      6、时间模块:time
涉及到:时间的增减,weekday的判断等。





以上即用到的知识点讲解。适合新手。

请高手斧正。



下载链接




【带搜索、网页抓取、正则、保存】【源码】python小例子。附源码及知识点讲解









二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:python 网页抓取 知识点 response company 网页 中文 python 百度 谷歌 python 网页 中文 百度 谷歌

已有 1 人评分经验 论坛币 学术水平 热心指数 信用等级 收起 理由
niuniuyiwan + 60 + 60 + 5 + 5 + 5 精彩帖子

总评分: 经验 + 60  论坛币 + 60  学术水平 + 5  热心指数 + 5  信用等级 + 5   查看全部评分

本帖被以下文库推荐

http://www.ac2.cn

沙发
jiangqing001 发表于 2015-2-26 15:18:25
赞!学习一下!

藤椅
huangap 发表于 2015-7-23 09:35:33
写本python的书吧

板凳
niuniuyiwan 在职认证  发表于 2015-7-24 10:54:41
感谢分享

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群
GMT+8, 2025-12-26 11:06