人大经济论坛 › 论坛 › 提问悬赏求职新闻读书功能一区 › 经管文库（原现金交易版） › 用python爬取和讯网企业责任数据

发帖

楼主: dream1095

3898 6

用python爬取和讯网企业责任数据 [推广有奖]

0关注
23粉丝

已卖：752份资源

博士生

81%

还不是VIP/贵宾

威望: 0 级
论坛币: 5563 个
通用积分: 91.9515
学术水平: 7 点
热心指数: 2 点
信用等级: 2 点
经验: 1470 点
帖子: 37
精华: 0
在线时间: 652 小时
注册时间: 2019-8-28
最后登录: 2025-12-25

楼主

dream1095

发表于 2019-8-28 16:48:07 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

最近需要用到和讯网站的企业评分数据因为手动复制数据太麻烦，决定写一个python程序把数据爬下来
数据原始网址：http://stockdata.stock.hexun.com/zrbg/Plate.aspx?date=2016-12-31

因为网站数据以动态网页的呈现的，所以直接通过访问内部json网页：
http://stockdata.stock.hexun.com/zrbg/data/zrbList.aspx?date=2016-12-31&count=20&pname=20&titType=null&page=2&callback=hxbase_json11566981293480
，通过解析json格式文件的方式获取相关数据并保存下来
结果的dta格式如下：
和讯网社会责任爬取结果.png

以下为代码与爬虫结果；因为论坛不支持py格式文件，下载到本地之后将文件后缀改为py，或是直接复制到python中运行即可

python爬取和讯网社会责任.txt (6.87 KB, 需要: RMB 29 元)
以下是爬取结果，为dta格式，可在stata中转为excel格式

和讯网社会责任报告.dta (1.22 MB, 需要: RMB 39 元)

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏1 回帖

关键词：python 爬虫企业社会责任和讯网

相关帖子

沙发

yujituibian(未真实交易用户) 发表于 2019-9-3 11:50:44

这个200元以内，你要了天价。

藤椅

dream1095(未真实交易用户)

发表于 2019-9-3 19:22:11

yujituibian 发表于 2019-9-3 11:50
这个200元以内，你要了天价。

不好意思，下面这个链接失效了，但是不知道怎么删除，就标了一个很高的价格。在文章中上传的文件是40元

板凳

dream1095(未真实交易用户)

发表于 2019-9-3 19:24:50

统一回复一下，因为上传的百度云盘的链接失效了，所以代码文件附在文中了

报纸

Shinubiwhite(真实交易用户) 发表于 2019-12-23 18:17:20

想请问一下楼主，使用楼主分享的代码爬取数据的时候，为什么爬取到2011年71行之后就开始报错，之后就不能继续爬取了？
python 报错内容如下：
Traceback (most recent call last):
  File "C:….\Python\Python38\lib\site-packages\urllib3\connectionpool.py", line 421, in _make_request
six.raise_from(e, None)
  File "<string>", line 3, in raise_from
  File "C:….\Python\Python38\lib\site-packages\urllib3\connectionpool.py", line 416, in _make_request
httplib_response = conn.getresponse()
  File " C:….\Python\Python38\lib\http\client.py", line 1322, in getresponse
response.begin()
  File " C:….\Python\Python38\lib\http\client.py", line 303, in begin
version, status, reason = self._read_status()
  File " C:….\Python\Python38\lib\http\client.py", line 264, in _read_status
line = str(self.fp.readline(_MAXLINE + 1), "iso-8859-1")
  File " C:….\Python\Python38\lib\socket.py", line 669, in readinto
return self._sock.recv_into(b)
socket.timeout: timed out

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
  File " C:….\Python\Python38\lib\site-packages\requests\adapters.py", line 439, in send
resp = conn.urlopen(
  File " C:….\Python\Python38\lib\site-packages\urllib3\connectionpool.py", line 719, in urlopen
retries = retries.increment(
  File " C:….\Python\Python38\lib\site-packages\urllib3\util\retry.py", line 400, in increment
raise six.reraise(type(error), error, _stacktrace)
  File " C:….\Python\Python38\lib\site-packages\urllib3\packages\six.py", line 735, in reraise
raise value
  File " C:….\Python\Python38\lib\site-packages\urllib3\connectionpool.py", line 665, in urlopen
httplib_response = self._make_request(
  File " C:….\Python\Python38\lib\site-packages\urllib3\connectionpool.py", line 423, in _make_request
self._raise_timeout(err=e, url=url, timeout_value=read_timeout)
  File " C:….\Python\Python38\lib\site-packages\urllib3\connectionpool.py", line 330, in _raise_timeout
raise ReadTimeoutError(
urllib3.exceptions.ReadTimeoutError: HTTPConnectionPool(host='stockdata.stock.hexun.com', port=80): Read timed out. (read timeout=2)

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
  File "<stdin>", line 7, in <module>
  File " C:….\Python\Python38\lib\site-packages\requests\api.py", line 75, in get
return request('get', url, params=params, **kwargs)
  File " C:….\Python\Python38\lib\site-packages\requests\api.py", line 60, in request
return session.request(method=method, url=url, **kwargs)
  File " C:….\Python\Python38\lib\site-packages\requests\sessions.py", line 533, in request
resp = self.send(prep, **send_kwargs)
  File " C:….\Python\Python38\lib\site-packages\requests\sessions.py", line 646, in send
r = adapter.send(request, **kwargs)
  File " C:….\Python\Python38\lib\site-packages\requests\adapters.py", line 529, in send
raise ReadTimeout(e, request=request)
requests.exceptions.ReadTimeout: HTTPConnectionPool(host='stockdata.stock.hexun.com', port=80): Read timed out. (read timeout=2)