人民日报中文阅读理解数据集 PD&CFT 首个中文阅读数据集 含童话语料
核心内容
首个中文阅读理解数据集【人民日报中文阅读理解数据集(PD&CFT)】重磅上线,数据集融合人民日报官方语料与儿童童话语料双核心内容,是中文阅读类研究、模型训练的优质基础素材,语料内容贴合中文使用场景,兼具正式书面语与通俗儿童语料的多样性,满足多维度中文阅读理解研究需求。
内容覆盖范围
主流官方语料:人民日报经典中文文本,覆盖新闻、评论等正式中文表达场景,贴合日常中文书面语使用规范;
儿童童话语料:经典儿童童话中文内容,涵盖通俗化、低龄化的中文表达形式,补充生活化中文语料维度;
双料整合格式:语料按规范整理,人民日报与儿童童话语料分类清晰,可直接提取使用,无需额外整理。
可用途径
学术研究:中文阅读理解方向的课题研究、论文撰写、实证分析,为中文 NLP 研究提供权威语料支撑;
模型训练:自然语言处理(NLP)模型、中文阅读理解模型、文本分析模型的训练与优化;
教学应用:中文阅读教学研究、阅读理解题库开发、中文语言学习素材设计;
算法开发:中文文本挖掘、语义理解、语境分析等算法的研发与测试。
人民日报中文阅读理解数据集.zip
(1.8 KB, 需要: RMB 10 元)


雷达卡


京公网安备 11010802022788号







