楼主: 莫小漠
9743 62

【带搜索、网页抓取、正则、保存】【源码】python小例子。附源码及知识点讲解   [推广有奖]

  • 4关注
  • 65粉丝

博士生

45%

还不是VIP/贵宾

-

TA的文库  其他...

量化交易

威望
0
论坛币
62351 个
通用积分
5.6394
学术水平
107 点
热心指数
90 点
信用等级
83 点
经验
7900 点
帖子
158
精华
2
在线时间
163 小时
注册时间
2012-10-21
最后登录
2022-3-16

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
回帖有奖!
可领3次哦


公司名字在程序同目录下的'公司全名.txt'中,一行一个

这是帮版友写的小程序:
100论坛币求python大神帮忙编一段程序完成从网页中抓取信息
输入:
只用公司名,公司名另存到了txt文件中。一行一个。
时间方面:
时间未考虑小长假及春节,只考虑了周末的情况。
未考虑下班时间。当日查询时终止日期为当日。
当周末查询时,实际查询的是本周四-周五的情况。
周一时,查询的是上周五到周一。

输出:
输出是否中标,同时在脚本所在目录输出中标的公司所有搜索出来的项目名及项目连接。











总结:
写这个程序是连谷歌带百度,各种文章中基本都是python2.x的版本,而我的环境是win+python3.4,
做了2to3的修改。
用到的知识:
1、函数及函数调用
2、正则模块,用于检索符合条件超链接及标题;注:python默认正则是贪婪模式(即有多少给出多少,而这正式本程序所需要的),模块:re
3、字符编码,网页是utf-8的编码,在获取之后所有的中文都是”\x45“的样子,要用utf-8的模式解码。其中ignore的作用可以自己搜索下。
  1. html = response.read().decode('utf-8','ignore')
复制代码
同时,文件要保存,直接保存提示错误。具体错误提示忘了,反正就是编码出错。后尝试了下将打开的TXT修改为相同编码,成功。模块:codecs
  1. codecs.open(companyname+'(中标).txt','w','utf-8')   
复制代码
4、网页读取,模块:urllib
带关键字搜索,因为url中涉及了这个关键字,所以分解超链接中关键字即可。
同时,有一点需要注意,url中带有中文,python访问会失败,要做转换:
  1. urllib.parse.quote("所有招标分类")
复制代码


5、print的功能。模块:sys
默认输出方式的调整,指定到txt中。之后还原为默认。
  1. temp = sys.stdout
  2.             sys.stdout = codecs.open(companyname+'(中标).txt','w','utf-8')
复制代码
用完还原:
  1. sys.stdout.close()
  2.             sys.stdout = temp
复制代码


6、时间模块:time
涉及到:时间的增减,weekday的判断等。





以上即用到的知识点讲解。适合新手。

请高手斧正。




本帖隐藏的内容

gethtml 20140807.zip (1.89 KB) 本附件包括:
  • gethtml.py
  • 公司全名.txt




二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:python 网页抓取 知识点 response company 网页 中文 python 百度 谷歌

已有 4 人评分经验 论坛币 学术水平 热心指数 收起 理由
我的素质低 + 100 + 5 精彩帖子
李会超 + 40 精彩帖子
残阳_等待 + 40 + 1 精彩帖子
观世鹰 + 60 + 20 + 2 + 2 精彩帖子

总评分: 经验 + 240  论坛币 + 20  学术水平 + 7  热心指数 + 3   查看全部评分

http://www.ac2.cn
沙发
tuling56 发表于 2014-8-7 14:38:48 |只看作者 |坛友微信交流群
谢谢,O(∩_∩)O哈!

使用道具

藤椅
zhangb02 发表于 2014-8-7 14:54:28 |只看作者 |坛友微信交流群
赞!学习拉。谢谢。

使用道具

板凳
qdzhxg 发表于 2014-8-7 15:07:14 |只看作者 |坛友微信交流群
好贴,论坛里像这样的技术贴,还是比较少的,赞

使用道具

报纸
小马哥_M 发表于 2014-8-7 15:50:34 |只看作者 |坛友微信交流群
赞一个~

使用道具

地板
小马哥_M 发表于 2014-8-7 15:57:29 |只看作者 |坛友微信交流群
莫同学,再给你推荐个第三方包: BeautifulSoup

这个东西挺方便的,可以直接抓 html 标签~

使用道具

7
786317806 在职认证  发表于 2014-8-7 16:10:25 |只看作者 |坛友微信交流群
赞一个

使用道具

8
薄学的菜鸟 发表于 2014-8-7 16:20:21 |只看作者 |坛友微信交流群
特地来学习学习~~

使用道具

9
莫小漠 在职认证  发表于 2014-8-7 17:33:55 |只看作者 |坛友微信交流群
小马哥_M 发表于 2014-8-7 15:57
莫同学,再给你推荐个第三方包: BeautifulSoup

这个东西挺方便的,可以直接抓 html 标签~
哦?抽空看看那

使用道具

10
thbsecond_0405 发表于 2014-8-7 18:54:46 |只看作者 |坛友微信交流群
好东西呀,学习一下先

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-27 12:38