楼主: quandongping
4113 63

【免费】爬虫暖男冬日里为您免费爬取心仪数据(只能帮你到这里了,写论文还得靠自己) [推广有奖]

  • 1关注
  • 86粉丝

教授

60%

还不是VIP/贵宾

-

威望
1
论坛币
32430 个
学术水平
53 点
热心指数
42 点
信用等级
38 点
经验
39396 点
帖子
611
精华
0
在线时间
1819 小时
注册时间
2016-4-30
最后登录
2018-10-16

quandongping 在职认证  发表于 2017-12-21 14:27:50 |显示全部楼层
本帖最后由 quandongping 于 2017-12-22 12:51 编辑




       爬虫君身在金融圈,身边的同事朋友都有各种各样或大或小的数据需求,毕竟现在进入大数据时代了嘛,很多时候都需要用数据来支撑说明自己的观点和看法。以前很多时候都是依靠编程来实现数据爬虫,不断地分析网页规则,不断地编程测试,一开始需求的人较少,还可以满足,到后面需求的人越来越多,慢慢就忙不过来了。转头一想,授人以鱼不如授人以渔,让他们学会爬虫不就行了么。


       很多金融经管童鞋由于学校课程的设置,编程基础相对较弱,而且还要了解互联网前端的知识,走传统的编程爬虫路子耗费的精力比较大,遇到挫折容易产生挫败感,特别是在获取数据迫切的情况下,走传统路子显得不合时宜。


       终于还是找到了一个不需要编程几分钟上手、半天可以弄透的爬虫方法,还有一点就是不需要像八爪鱼、火车头等采集器软件那样付费和复杂的规则,不过还是在测试当中,目前已经测试过了在知乎、微博、58、财经论坛等网站。个人觉得该方法应该是可以适合绝大部分网站的,数据可见即可得,无奈何互联网太大,网页以数十亿计,自己见过和采集过的网页太少,不能穷举。


       因此,如果您有小批量的数据需求(正常1万条以内),可以提供相关信息给我,告诉我从那个网页开始爬(公开合法的网页皆可),要爬取什么数据,我免费为您获取这些数据,我也顺便测试这个方法是不是如自己期望中的那样。你我都能“得利”,您获得了你想要的数据,我也检验和增强了技能。


     如果您有数据需求,请按以下例子提供信息。


例子1:爬取论坛经管类求职与招聘帖子数据
爬取链接:http://bbs.pinggu.org/forum-75-1.html
需求字段:前20页帖子的标题、发帖时间、最后评论时间、阅读数、评论数
=========================================================
我的回复(点击下载): jg_zhoapin.xlsx (104.16 KB)
jg_zhoapin.jpg

jg_zhoapin2.jpg







例子2:爬取58同城广州地区二手房数据
爬取链接:http://gz.58.com/ershoufang/
需求字段:前10页帖子的标题、房屋布局、面积、地址、总价、平方均价
================================================================
我的回复(点击下载) ershoufang.xlsx (53.37 KB)




例子3:爬取天天基金网所有开放式基金的排名数据(2017年12月20日)
爬取链接:http://fund.eastmoney.com/data/fundranking.html#tall;c0;r;szzf;pn50;ddesc;qsd20161220;qed20171220;qdii;zq;gg;gzbd;gzfs;bbzt;sfbb
需求字段:排名表中的所有信息字段(从序号、基金代码到自定义、手续费)
================================================================
我的回复(点击下载) fund_nv.xlsx (543.69 KB)



fund_nv.jpg

fund_nv2.jpg
















关键词:爬虫 数据 采集 免费

本帖被以下文库推荐

券商投行内训课http://bbs.pinggu.org/thread-5962409-1-1.html
stata SPSS
quandongping 在职认证  发表于 2017-12-21 14:28:24 |显示全部楼层
回复

使用道具 举报

quandongping 在职认证  发表于 2017-12-21 14:30:54 |显示全部楼层
回复

使用道具 举报

leewinjing 发表于 2017-12-21 15:49:09 |显示全部楼层
厉害
能不能把http://wms.zjemc.org.cn/wms/wmsflex/index.html实时监测的数据扒下来?
如果可能,愿意酬谢
回复

使用道具 举报

quandongping 在职认证  发表于 2017-12-21 16:48:06 |显示全部楼层
leewinjing 发表于 2017-12-21 15:49
厉害
能不能把http://wms.zjemc.org.cn/wms/wmsflex/index.html实时监测的数据扒下来?
如果可能,愿意酬 ...
您好,我查看了该网页的源码,你看到的数据是通过“ArcGIS API for Flex 3.0”应用生成的,您可以把您看到的内容想象成一幅图片或者是视频,从上面爬取下文本数据较为困难,即使是传统的编程爬虫也较难做到。
很抱歉,没能帮助到您

希望我以后能帮助更多的童鞋获取“可见即可得”的网页内容
回复

使用道具 举报

leewinjing 发表于 2017-12-21 20:42:06 |显示全部楼层
quandongping 发表于 2017-12-21 16:48
您好,我查看了该网页的源码,你看到的数据是通过“ArcGIS API for Flex 3.0”应用生成的,您可以把您看到 ...
好的,多谢你。有需要再请你帮助
回复

使用道具 举报

quandongping 在职认证  发表于 2017-12-21 20:57:49 来自手机 |显示全部楼层
leewinjing 发表于 2017-12-21 20:42
好的,多谢你。有需要再请你帮助
客气啦,我也没帮上什么忙
回复

使用道具 举报

scropio11 发表于 2017-12-22 08:40:00 |显示全部楼层
回复

使用道具 举报

ctruck 发表于 2017-12-22 10:45:57 |显示全部楼层
八爪鱼吧
回复

使用道具 举报

quandongping 在职认证  发表于 2017-12-22 12:43:37 |显示全部楼层
ctruck 发表于 2017-12-22 10:45
八爪鱼吧
您瞧,没有好好看帖子吧,我已经说了“还有一点就是不需要像八爪鱼、火车头等采集器软件那样付费和复杂的规则”
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 我要注册

GMT+8, 2018-10-17 10:08