楼主: nico52
1287 1

[经管数据集] 2006-2019年新闻联播 [推广有奖]

  • 1关注
  • 1粉丝

已卖:329份资源

博士生

9%

还不是VIP/贵宾

-

威望
0
论坛币
5641 个
通用积分
51.9600
学术水平
8 点
热心指数
7 点
信用等级
3 点
经验
2836 点
帖子
105
精华
0
在线时间
216 小时
注册时间
2019-9-10
最后登录
2025-5-27

楼主
nico52 发表于 2020-1-16 14:15:56 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
新闻联播头.PNG 新闻联播尾 数据来源为http://tv.cctv.com/lm/xwlb/,及过往的历史的新闻联播的数据
如果需要其他的数据可以给楼主留言
新闻联播.xls (4.82 MB, 需要: RMB 5 元)


##################第二次更新#########################

发布这个帖子之后,发现有小伙伴对于其中的稿件数据和时长数据也有需求,而最近几天才抽出时间来爬取。
整个这个过程比起上次爬取标题数据要头疼一些,不仅是其网站革新,导致网页结构的变化,还有其中不少年份页面嵌入了js,而这一部分我火候不够,所以就在效率和爬取手段上出现了问题,不过暴力破解还是做得到的。而且经过这次爬取,我对class的使用有了更多的理解。

首先上数据吧: 新闻稿 (76 Bytes, 需要: RMB 15 元)
时间跨度是:20141231-20200310期间的每日新闻联播的新闻稿
因为是我自己也要用这部分数据,而且数据有一定的瑕疵,但是对于这个样本量来看,不会影响使用。
1、新闻的时长无法获取,用的发布时间做的替代,在2010年之前,还不是实时更新,所以关于时间这块就不可用,不过可以用稿件的字数来替代时长
2、在结构变化处,可能存在问题,我是有设置判断的,不过奈何变化多呀。将近10万条数据,手工检查不过来呀。

这次的爬取比单纯爬取标题,要麻烦很多,要先获取各个单个新闻的url,再访问url去爬取。量级是之前标题14倍。
所以就收15元好了,之前购买过标题数据的,可以私信我减掉那部分价钱。
如果有什么问题,可以私信我。

数据的样貌大致如下:
文件夹.PNG 文件.PNG 内容.PNG excel 文档内容.PNG


关于这次爬取有几个可以分享的点:
1、网页只能通过不停地点上一页来到想要的日期,这个很是痛苦;
2、关于url的爬取,url在20160202、20130516、20110406、20100506、20090626、20060615这几个时点发生了变化,特别是在20090626,旧版的新闻联播,url是:http://news.cctv.com/program/xwlb/20090626.shtml;
3、获取每条新闻的Url之后,其稿件的位置也在变化, 在20160224、20121223、20121215、20120701、20100612、20100505、20070730、20060616、20050603发生了变化。变化的包括存放的位置,或者由页面内容变成了js函数。
4、事后反思自己的爬取过程,其实可以将其存放位置,变成变量,而其他的内容封装或许好些,但是这也是事后诸葛亮了,爬去之前也没想到他变动如此频繁。



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝


沙发
小蛋蛋happyday(真实交易用户) 发表于 2020-1-17 02:07:45
资料真的好全呢,感谢楼主分享

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-3-27 15:58