DuReader是聚焦机器阅读理解领域的基准数据集与配套模型,核心定位为智能问答任务提供标准化训练与评估支撑,涵盖5个细分数据集,适配不同场景下的模型优化需求。
数据集核心构成
DuReader体系包含5个独立且互补的细分数据集,覆盖机器阅读理解的多类训练需求,具体如下:
- DuReader 2.0(基础核心数据集)
- DuReader Robust(侧重模型鲁棒性训练)
- DuReader Yes/No(专注是非判断类任务)
- DuReader Checklist(聚焦模型核对清单验证)
- DuReader-vis(适配视觉辅助的阅读理解任务)
数据集四大核心特征
1. 全场景真实数据
问题、文章、回答均源自真实应用场景(如用户真实查询、公开文档、专业解答),无人工构造数据,确保模型训练贴合实际使用需求,降低“实验室性能”与“落地效果”的偏差。
2. 多元问题类型
覆盖实体查询(如“李白的出生地”)、数字提取(如“某事件发生年份”)、观点总结(如“某产品的用户评价核心观点”)等,适配不同领域的智能问答需求,避免模型单一化。
3. 多类任务适配
支持两类核心任务:一是基于文本跨度的抽取任务(从文章中定位答案片段),二是分类任务(如是非判断、观点倾向分类),满足模型多维度能力训练目标。
4. 多重能力挑战
针对性设置模型能力考核点:包括提升文本检索精度、增强模型抗干扰鲁棒性(如应对错别字、歧义表述)、通过核对清单验证模型逻辑严谨性,助力高阶模型研发。
1. 实用价值
作为中文机器阅读理解领域的标杆数据集,可直接用于智能客服、教育答疑、信息检索等场景的模型训练,加速中文智能问答技术落地。
2. 使用提示
针对国内不同区域的行业需求(如北方制造业客服、南方教育机构答疑),可基于数据集的真实场景特性,补充区域化语料(如方言表述优化、行业术语适配),提升模型地域适用性。


雷达卡


京公网安备 11010802022788号







