数据来源:中国上市公司财经新闻数据库(Financial News Database of Chinese Listed Companies, CFND)
数据时间范围:2007-2019年
数据清洗与匹配
基于原始新闻数据,为了匹配得到与上市公司有关的新闻数据,需要进行: ①数据清洗,去除原始新闻中的大量“噪声”新闻。这些清洗操作包括去除图片 视频新闻、公司公告、广告、年报等新闻;②数据匹配,根据上市公司股票代码、 公司简称和全称等关键字从已经清洗的新闻库中匹配得到与上市公司有关的新 闻报道。当然,仅仅只有以上的清洗和匹配步骤还不足以得到非常“干净”的上 市公司新闻数据,在这一过程中,由于上市公司多义词的存在,股票龙虎榜、千 股千评等无效新闻的干扰,需要设置多种规则去除这些新闻。经这些清洗和匹配 步骤,去除了占原始新闻总数 83%的噪声信息,最终得到较为“干净”的与上市 公司有关的新闻报道。
媒体关注度,媒体监督2007-2020
(76 Bytes, 需要: RMB 29 元)


雷达卡





京公网安备 11010802022788号







