百度 WebQA v1.0 数据集 中文问答训练数据 人工标注 (ANN)+ 浏览器检索 (IR) 格式
核心信息
百度 WebQA v1.0 中文问答数据集是 2016 年百度官方开源的优质中文问答训练资源,数据均来源于百度知道平台,采用 “一个问题 + 多篇意思一致文章” 的结构化格式,适配中文 NLP 模型训练、问答系统开发等场景。
内容覆盖范围
数据类型:中文问答成对数据(问题 + 关联文章)
标注分类:文章分为人工标注(ANN)、浏览器检索(IR)两类;答案分为可回答(positive)、不可回答(other_negative)两类
数据特点:覆盖多领域日常问答场景,结构化程度高,兼顾人工筛选与广泛检索数据,适配不同模型训练需求
可用途径
中文 NLP 模型训练(问答匹配、意图识别、答案抽取等任务)
智能问答系统开发(客服机器人、智能助手训练)
学术研究数据支撑(中文问答领域论文实验、算法验证)
教育 / 企业内部问答知识库构建
WebQA v1.0 百度中文问答数据集.zip
(4.78 KB, 需要: RMB 10 元)


雷达卡


京公网安备 11010802022788号







