[经管数据集] 2006-2019年新闻联播 [推广有奖]

1关注
1粉丝

已卖：329份资源

博士生

还不是VIP/贵宾

威望: 0 级
论坛币: 5641 个
通用积分: 51.9600
学术水平: 8 点
热心指数: 7 点
信用等级: 3 点
经验: 2836 点
帖子: 105
精华: 0
在线时间: 216 小时
注册时间: 2019-9-10
最后登录: 2025-5-27

楼主

nico52 发表于 2020-1-16 14:15:56 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

数据来源为http://tv.cctv.com/lm/xwlb/，及过往的历史的新闻联播的数据
如果需要其他的数据可以给楼主留言

新闻联播.xls (4.82 MB, 需要: RMB 5 元)

##################第二次更新#########################

发布这个帖子之后，发现有小伙伴对于其中的稿件数据和时长数据也有需求，而最近几天才抽出时间来爬取。
整个这个过程比起上次爬取标题数据要头疼一些，不仅是其网站革新，导致网页结构的变化，还有其中不少年份页面嵌入了js，而这一部分我火候不够，所以就在效率和爬取手段上出现了问题，不过暴力破解还是做得到的。而且经过这次爬取，我对class的使用有了更多的理解。

首先上数据吧：

新闻稿 (76 Bytes, 需要: RMB 15 元)
时间跨度是：20141231-20200310期间的每日新闻联播的新闻稿
因为是我自己也要用这部分数据，而且数据有一定的瑕疵，但是对于这个样本量来看，不会影响使用。
1、新闻的时长无法获取，用的发布时间做的替代，在2010年之前，还不是实时更新，所以关于时间这块就不可用，不过可以用稿件的字数来替代时长
2、在结构变化处，可能存在问题，我是有设置判断的，不过奈何变化多呀。将近10万条数据，手工检查不过来呀。

这次的爬取比单纯爬取标题，要麻烦很多，要先获取各个单个新闻的url，再访问url去爬取。量级是之前标题14倍。
所以就收15元好了，之前购买过标题数据的，可以私信我减掉那部分价钱。
如果有什么问题，可以私信我。

数据的样貌大致如下：
文件夹.PNG

关于这次爬取有几个可以分享的点：
1、网页只能通过不停地点上一页来到想要的日期，这个很是痛苦；
2、关于url的爬取，url在20160202、20130516、20110406、20100506、20090626、20060615这几个时点发生了变化，特别是在20090626，旧版的新闻联播，url是：http://news.cctv.com/program/xwlb/20090626.shtml；
3、获取每条新闻的Url之后，其稿件的位置也在变化，在20160224、20121223、20121215、20120701、20100612、20100505、20070730、20060616、20050603发生了变化。变化的包括存放的位置，或者由页面内容变成了js函数。
4、事后反思自己的爬取过程，其实可以将其存放位置，变成变量，而其他的内容封装或许好些，但是这也是事后诸葛亮了，爬去之前也没想到他变动如此频繁。