楼主: dream1095
3890 6

用python爬取和讯网企业责任数据 [推广有奖]

  • 0关注
  • 23粉丝

已卖:752份资源

博士生

81%

还不是VIP/贵宾

-

威望
0
论坛币
5563 个
通用积分
91.9515
学术水平
7 点
热心指数
2 点
信用等级
2 点
经验
1470 点
帖子
37
精华
0
在线时间
652 小时
注册时间
2019-8-28
最后登录
2025-12-25

楼主
dream1095 学生认证  发表于 2019-8-28 16:48:07 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
最近需要用到和讯网站的企业评分数据因为手动复制数据太麻烦,决定写一个python程序把数据爬下来
数据原始网址:http://stockdata.stock.hexun.com/zrbg/Plate.aspx?date=2016-12-31


因为网站数据以动态网页的呈现的,所以直接通过访问内部json网页:
http://stockdata.stock.hexun.com/zrbg/data/zrbList.aspx?date=2016-12-31&count=20&pname=20&titType=null&page=2&callback=hxbase_json11566981293480
,通过解析json格式文件的方式获取相关数据并保存下来
结果的dta格式如下:
和讯网社会责任爬取结果.png


以下为代码与爬虫结果;因为论坛不支持py格式文件,下载到本地之后将文件后缀改为py,或是直接复制到python中运行即可
python爬取和讯网社会责任.txt (6.87 KB, 需要: RMB 29 元)
以下是爬取结果,为dta格式,可在stata中转为excel格式
和讯网社会责任报告.dta (1.22 MB, 需要: RMB 39 元)


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:python 爬虫 企业社会责任 和讯网

沙发
yujituibian(未真实交易用户) 发表于 2019-9-3 11:50:44
这个200元以内,你要了天价。

藤椅
dream1095(未真实交易用户) 学生认证  发表于 2019-9-3 19:22:11
yujituibian 发表于 2019-9-3 11:50
这个200元以内,你要了天价。
不好意思,下面这个链接失效了,但是不知道怎么删除,就标了一个很高的价格。在文章中上传的文件是40元

板凳
dream1095(未真实交易用户) 学生认证  发表于 2019-9-3 19:24:50
统一回复一下,因为上传的百度云盘的链接失效了,所以代码文件附在文中了

报纸
Shinubiwhite(真实交易用户) 发表于 2019-12-23 18:17:20
想请问一下楼主,使用楼主分享的代码爬取数据的时候,为什么爬取到2011年71行之后就开始报错,之后就不能继续爬取了?
python 报错内容如下:

Traceback (most recent call last):
  File "C:….\Python\Python38\lib\site-packages\urllib3\connectionpool.py", line 421, in _make_request
    six.raise_from(e, None)
  File "<string>", line 3, in raise_from
  File "C:….\Python\Python38\lib\site-packages\urllib3\connectionpool.py", line 416, in _make_request
    httplib_response = conn.getresponse()
  File " C:….\Python\Python38\lib\http\client.py", line 1322, in getresponse
    response.begin()
  File " C:….\Python\Python38\lib\http\client.py", line 303, in begin
    version, status, reason = self._read_status()
  File " C:….\Python\Python38\lib\http\client.py", line 264, in _read_status
    line = str(self.fp.readline(_MAXLINE + 1), "iso-8859-1")
  File " C:….\Python\Python38\lib\socket.py", line 669, in readinto
    return self._sock.recv_into(b)
socket.timeout: timed out

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
  File " C:….\Python\Python38\lib\site-packages\requests\adapters.py", line 439, in send
    resp = conn.urlopen(
  File " C:….\Python\Python38\lib\site-packages\urllib3\connectionpool.py", line 719, in urlopen
    retries = retries.increment(
  File " C:….\Python\Python38\lib\site-packages\urllib3\util\retry.py", line 400, in increment
    raise six.reraise(type(error), error, _stacktrace)
  File " C:….\Python\Python38\lib\site-packages\urllib3\packages\six.py", line 735, in reraise
    raise value
  File " C:….\Python\Python38\lib\site-packages\urllib3\connectionpool.py", line 665, in urlopen
    httplib_response = self._make_request(
  File " C:….\Python\Python38\lib\site-packages\urllib3\connectionpool.py", line 423, in _make_request
    self._raise_timeout(err=e, url=url, timeout_value=read_timeout)
  File " C:….\Python\Python38\lib\site-packages\urllib3\connectionpool.py", line 330, in _raise_timeout
    raise ReadTimeoutError(
urllib3.exceptions.ReadTimeoutError: HTTPConnectionPool(host='stockdata.stock.hexun.com', port=80): Read timed out. (read timeout=2)

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
  File "<stdin>", line 7, in <module>
  File " C:….\Python\Python38\lib\site-packages\requests\api.py", line 75, in get
    return request('get', url, params=params, **kwargs)
  File " C:….\Python\Python38\lib\site-packages\requests\api.py", line 60, in request
    return session.request(method=method, url=url, **kwargs)
  File " C:….\Python\Python38\lib\site-packages\requests\sessions.py", line 533, in request
    resp = self.send(prep, **send_kwargs)
  File " C:….\Python\Python38\lib\site-packages\requests\sessions.py", line 646, in send
    r = adapter.send(request, **kwargs)
  File " C:….\Python\Python38\lib\site-packages\requests\adapters.py", line 529, in send
    raise ReadTimeout(e, request=request)
requests.exceptions.ReadTimeout: HTTPConnectionPool(host='stockdata.stock.hexun.com', port=80): Read timed out. (read timeout=2)

地板
dream1095(未真实交易用户) 学生认证  发表于 2019-12-24 08:39:57
Shinubiwhite 发表于 2019-12-23 18:17
想请问一下楼主,使用楼主分享的代码爬取数据的时候,为什么爬取到2011年71行之后就开始报错,之后就不能继 ...
从报错上来看,是服务器在指定时间没有应答。您可以将原文件的cookie修改为自己电脑访问网页的cookie,再访问一次,这样也许能够解决问题。

7
〇〇1(未真实交易用户) 发表于 2020-9-26 21:53:20
您好,请问有爬虫企业社会责任报告的代码吗?

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-2-28 22:54