可领3次哦
公司名字在程序同目录下的'公司全名.txt'中,一行一个
这是帮版友写的小程序:
100论坛币求python大神帮忙编一段程序完成从网页中抓取信息
输入:
只用公司名,公司名另存到了txt文件中。一行一个。
时间方面:
时间未考虑小长假及春节,只考虑了周末的情况。
未考虑下班时间。当日查询时终止日期为当日。
当周末查询时,实际查询的是本周四-周五的情况。
周一时,查询的是上周五到周一。
输出:
输出是否中标,同时在脚本所在目录输出中标的公司所有搜索出来的项目名及项目连接。
总结:
写这个程序是连谷歌带百度,各种文章中基本都是python2.x的版本,而我的环境是win+python3.4,
做了2to3的修改。
用到的知识:
1、函数及函数调用
2、正则模块,用于检索符合条件超链接及标题;注:python默认正则是贪婪模式(即有多少给出多少,而这正式本程序所需要的),模块:re
3、字符编码,网页是utf-8的编码,在获取之后所有的中文都是”\x45“的样子,要用utf-8的模式解码。其中ignore的作用可以自己搜索下。
- html = response.read().decode('utf-8','ignore')
- codecs.open(companyname+'(中标).txt','w','utf-8')
带关键字搜索,因为url中涉及了这个关键字,所以分解超链接中关键字即可。
同时,有一点需要注意,url中带有中文,python访问会失败,要做转换:
- urllib.parse.quote("所有招标分类")
5、print的功能。模块:sys
默认输出方式的调整,指定到txt中。之后还原为默认。
- temp = sys.stdout
- sys.stdout = codecs.open(companyname+'(中标).txt','w','utf-8')
- sys.stdout.close()
- sys.stdout = temp
6、时间模块:time
涉及到:时间的增减,weekday的判断等。
以上即用到的知识点讲解。适合新手。
请高手斧正。
本帖隐藏的内容
- gethtml.py
- 公司全名.txt