如果需要其他的数据可以给楼主留言
新闻联播.xls
(4.82 MB, 需要: RMB 5 元)
##################第二次更新#########################
发布这个帖子之后,发现有小伙伴对于其中的稿件数据和时长数据也有需求,而最近几天才抽出时间来爬取。
整个这个过程比起上次爬取标题数据要头疼一些,不仅是其网站革新,导致网页结构的变化,还有其中不少年份页面嵌入了js,而这一部分我火候不够,所以就在效率和爬取手段上出现了问题,不过暴力破解还是做得到的。而且经过这次爬取,我对class的使用有了更多的理解。
首先上数据吧:
新闻稿
(76 Bytes, 需要: RMB 15 元)
时间跨度是:20141231-20200310期间的每日新闻联播的新闻稿
因为是我自己也要用这部分数据,而且数据有一定的瑕疵,但是对于这个样本量来看,不会影响使用。
1、新闻的时长无法获取,用的发布时间做的替代,在2010年之前,还不是实时更新,所以关于时间这块就不可用,不过可以用稿件的字数来替代时长
2、在结构变化处,可能存在问题,我是有设置判断的,不过奈何变化多呀。将近10万条数据,手工检查不过来呀。
这次的爬取比单纯爬取标题,要麻烦很多,要先获取各个单个新闻的url,再访问url去爬取。量级是之前标题14倍。
所以就收15元好了,之前购买过标题数据的,可以私信我减掉那部分价钱。
如果有什么问题,可以私信我。
数据的样貌大致如下:
关于这次爬取有几个可以分享的点:
1、网页只能通过不停地点上一页来到想要的日期,这个很是痛苦;
2、关于url的爬取,url在20160202、20130516、20110406、20100506、20090626、20060615这几个时点发生了变化,特别是在20090626,旧版的新闻联播,url是:http://news.cctv.com/program/xwlb/20090626.shtml;
3、获取每条新闻的Url之后,其稿件的位置也在变化, 在20160224、20121223、20121215、20120701、20100612、20100505、20070730、20060616、20050603发生了变化。变化的包括存放的位置,或者由页面内容变成了js函数。
4、事后反思自己的爬取过程,其实可以将其存放位置,变成变量,而其他的内容封装或许好些,但是这也是事后诸葛亮了,爬去之前也没想到他变动如此频繁。


雷达卡



京公网安备 11010802022788号







