签到
- 苹果/安卓/wp
- 苹果/安卓/wp
客户端
0.0

0.00

人大经济论坛 › 论坛 › 数据科学与人工智能 › 数据分析与数据科学 › python论坛 › 【带搜索、网页抓取、正则、保存】【源码】python小例子 ...

CDA数据分析研究院

商业数据分析与大数据领航教育品牌



经管云课堂

经管/金融/财会/社科/名师公开课



学术培训

Stata 空间计量 SSCI Python

贵宾：通行论坛特权+数据库权限
+案例库+下载特权 VIP：论坛特权+更多下载次数
+ccerdata数据库+更高阅读权限+……

12 3 4 5 6 7 下一页

提升主题| 本版置顶| 关闭主题| 变更主题颜色| 抢沙发| 顶贴| 显身卡| 道具中心

楼主: 莫小漠

9743 62

【带搜索、网页抓取、正则、保存】【源码】python小例子。附源码及知识点讲解 [推广有奖]

4关注
65粉丝

博士生

45%

还不是VIP/贵宾

-

TA的文库 其他...

0%

威望: 0 级
论坛币: 62351 个
通用积分: 5.6394
学术水平: 107 点
热心指数: 90 点
信用等级: 83 点
经验: 7900 点
帖子: 158
精华: 2
在线时间: 163 小时
注册时间: 2012-10-21
最后登录: 2022-3-16

楼主

在职认证

发表于 2014-8-7 14:18:22 |只看作者 |坛友微信交流群|倒序 |AI写论文

相似文件

换一批

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

回帖有奖！
可领3次哦

公司名字在程序同目录下的'公司全名.txt'中，一行一个

这是帮版友写的小程序：
100论坛币求python大神帮忙编一段程序完成从网页中抓取信息
输入：
只用公司名，公司名另存到了txt文件中。一行一个。
时间方面：
时间未考虑小长假及春节，只考虑了周末的情况。
未考虑下班时间。当日查询时终止日期为当日。
当周末查询时，实际查询的是本周四-周五的情况。
周一时，查询的是上周五到周一。

输出：
输出是否中标，同时在脚本所在目录输出中标的公司所有搜索出来的项目名及项目连接。

总结：
写这个程序是连谷歌带百度，各种文章中基本都是python2.x的版本，而我的环境是win+python3.4，
做了2to3的修改。
用到的知识：
1、函数及函数调用
2、正则模块，用于检索符合条件超链接及标题；注：python默认正则是贪婪模式（即有多少给出多少，而这正式本程序所需要的），模块：re
3、字符编码，网页是utf-8的编码，在获取之后所有的中文都是”\x45“的样子，要用utf-8的模式解码。其中ignore的作用可以自己搜索下。

html = response.read().decode('utf-8','ignore')

复制代码

同时，文件要保存，直接保存提示错误。具体错误提示忘了，反正就是编码出错。后尝试了下将打开的TXT修改为相同编码，成功。模块：codecs

codecs.open(companyname+'(中标).txt','w','utf-8')

复制代码

4、网页读取，模块：urllib
带关键字搜索，因为url中涉及了这个关键字，所以分解超链接中关键字即可。
同时，有一点需要注意，url中带有中文，python访问会失败，要做转换：

urllib.parse.quote("所有招标分类")

复制代码

5、print的功能。模块：sys
默认输出方式的调整，指定到txt中。之后还原为默认。

temp = sys.stdout
sys.stdout = codecs.open(companyname+'(中标).txt','w','utf-8')

复制代码

用完还原：

sys.stdout.close()
sys.stdout = temp

复制代码

6、时间模块：time
涉及到：时间的增减，weekday的判断等。

以上即用到的知识点讲解。适合新手。

请高手斧正。

本帖隐藏的内容

gethtml 20140807.zip (1.89 KB) 本附件包括：
gethtml.py
公司全名.txt

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏19 回帖

关键词：python 网页抓取知识点 response company 网页中文 python 百度谷歌

相关帖子

已有 4 人评分	经验	论坛币	学术水平	热心指数	收起理由
我的素质低	+ 100		+ 5		精彩帖子
李会超	+ 40				精彩帖子
残阳_等待	+ 40			+ 1	精彩帖子
观世鹰	+ 60	+ 20	+ 2	+ 2	精彩帖子

总评分: 经验 + 240 论坛币 + 20 学术水平 + 7 热心指数 + 3 查看全部评分

http://www.ac2.cn

回复

使用道具举报

沙发

tuling56 发表于 2014-8-7 14:38:48 |只看作者 |坛友微信交流群

谢谢，O(∩_∩)O哈！

回复

使用道具举报

藤椅

zhangb02 发表于 2014-8-7 14:54:28 |只看作者 |坛友微信交流群

赞！学习拉。谢谢。

回复

使用道具举报

板凳

qdzhxg 发表于 2014-8-7 15:07:14 |只看作者 |坛友微信交流群

好贴，论坛里像这样的技术贴，还是比较少的，赞

回复

使用道具举报

报纸

小马哥_M 发表于 2014-8-7 15:50:34 |只看作者 |坛友微信交流群

赞一个~

回复

使用道具举报

地板

小马哥_M 发表于 2014-8-7 15:57:29 |只看作者 |坛友微信交流群

莫同学，再给你推荐个第三方包： BeautifulSoup

这个东西挺方便的，可以直接抓 html 标签~

回复

使用道具举报

7楼

在职认证

发表于 2014-8-7 16:10:25 |只看作者 |坛友微信交流群

赞一个

回复

使用道具举报

8楼

薄学的菜鸟 发表于 2014-8-7 16:20:21 |只看作者 |坛友微信交流群

特地来学习学习~~

回复

使用道具举报

9楼

在职认证

发表于 2014-8-7 17:33:55 |只看作者 |坛友微信交流群

小马哥_M 发表于 2014-8-7 15:57
莫同学，再给你推荐个第三方包： BeautifulSoup

这个东西挺方便的，可以直接抓 html 标签~

哦？抽空看看那

回复

使用道具举报

10楼

thbsecond_0405 发表于 2014-8-7 18:54:46 |只看作者 |坛友微信交流群

好东西呀，学习一下先

回复

使用道具举报

12 3 4 5 6 7 下一页

发帖

本版微信群

加好友,备注cda
拉您进交流群

如有投资本站、合作意向或投放广告，请联系：13661292478（刘老师）

联系客服

邮箱：service@pinggu.org 投诉或不良信息处理：（010-68466864）

京ICP备16021002-2号京B2-20170662号京公网安备 11010802022788号论坛法律顾问：王进律师知识产权保护声明免责及隐私声明