Miriad-5.8M 医学问答数据集:ETH + 斯坦福联合发布 支持 RAG / 幻觉检测 含 582 万结构化问答对
在医疗 AI 领域,大型语言模型常因医学知识不精准、易产生 “幻觉”(错误信息),难以满足临床决策、医学检索等专业场景需求。现有医学数据集如 PubMedQA、MedQA 存在规模小、形式单一(多为选择题)、非结构化等问题,无法为 LLM 提供高质量知识支撑,导致模型在实际医疗应用中可靠性不足。
为解决这一痛点,苏黎世联邦理工学院联合斯坦福大学、梅奥诊所等机构,于 2025 年发布 Miriad 医学问答数据集,相关成果已发表于论文《MIRIAD: Augmenting LLMs with millions of medical query-response pairs》。该数据集通过 “文献筛选 - LLM 生成 - 多轮核验” 的严谨流程,构建百万级结构化问答资源,为医疗 AI 模型优化提供权威、高质量的知识底座。
1. 核心数据特性,覆盖医疗 AI 多需求
规模与质量:包含 582 万个医学问答对,每对均基于 89.4 万篇同行评审医学文献(源自 S2ORC 语料库)改写,经 “规则过滤→GPT-4 标注分类器精筛→人类医学专家验证” 三重核验,最终保留 440 万高质量问答对,确保信息准确性与临床相关性。
结构化优势:区别于传统非结构化医疗文本,采用 “问题 - 响应” 标准化格式,支持 LLM 精准提取知识,同等检索量下,可使医疗问答任务准确率提升 6.7%,幻觉检测 F1 分数提升 22.5%-37%。
知识覆盖范围:涵盖从基础医学到临床医学的 56 个医学领域,适配不同细分场景的模型训练需求。
2. 配套工具与下游应用支撑
可视化工具:附带 MIRIAD-Atlas 交互式 2D 知识地图,通过嵌入技术与降维算法将问答对按学科主题聚类,支持直观浏览、检索细分领域知识,降低医学知识探索门槛。
下游任务适配:可直接用于医疗 RAG、医学信息检索、LLM 指令微调、幻觉检测等任务,为智能医疗助手开发、医学知识库构建、医疗 NLP 研究提供核心数据支持。
格式:CSV/JSON 结构化数据文件+ 数据集说明文档
适用环境:兼容 Python、TensorFlow、PyTorch 等主流数据处理与 AI 训练框架,支持直接导入模型进行训练或微调。
适用人群:医疗 AI 算法工程师(模型开发与优化)、医学信息学研究者、高校医学 / 计算机专业师生、医疗科技企业。
Miriad-5.8M 医学问答数据集
(85 Bytes, 需要: RMB 29 元)


雷达卡


京公网安备 11010802022788号







