年份 | 日期 | 报纸版次 | 标题 | 文本内容
中央层面政治、经济活动及全国各地区(省份地市州地级市城市区县)新闻报道新闻文本数据库报纸版次标题文本内容
日度数据,每天若干条新闻报道记录
(每1MB数据存储约1000条新闻报道记录,10MB约1万条,20MB约20万条,30MB约30万条)
人民日报新闻报道记录、含原始文本数据
可用于词频统计、情感分析、情绪分析、政策导向分析、政治经济形势分析等自然语言处理NLP
数据来源:人民日报网站
self.old_base_url = "http://paper.people.com.cn/rmrb/html/"
self.new_base_url = "http://paper.people.com.cn/rmrb/pc/layout/"
主要变量:
年份 日期 报纸版次 标题 文本内容


雷达卡




京公网安备 11010802022788号







