楼主: ewfwedwd
110 0

[经管数据集] Miriad-5.8M 医学问答数据集:ETH + 斯坦福联合发布 支持 RAG / 幻觉检测 含 582 万结 [推广有奖]

  • 0关注
  • 1粉丝

已卖:423份资源

学科带头人

10%

还不是VIP/贵宾

-

威望
0
论坛币
1313 个
通用积分
456.6953
学术水平
1 点
热心指数
1 点
信用等级
1 点
经验
12600 点
帖子
903
精华
0
在线时间
221 小时
注册时间
2022-11-18
最后登录
2026-2-1

楼主
ewfwedwd 发表于 2025-10-20 13:45:18 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

Miriad-5.8M 医学问答数据集:ETH + 斯坦福联合发布 支持 RAG / 幻觉检测 含 582 万结构化问答对



在医疗 AI 领域,大型语言模型常因医学知识不精准、易产生 幻觉(错误信息),难以满足临床决策、医学检索等专业场景需求。现有医学数据集如 PubMedQAMedQA 存在规模小、形式单一(多为选择题)、非结构化等问题,无法为 LLM 提供高质量知识支撑,导致模型在实际医疗应用中可靠性不足。


为解决这一痛点,苏黎世联邦理工学院联合斯坦福大学、梅奥诊所等机构,于 2025 年发布 Miriad 医学问答数据集,相关成果已发表于论文《MIRIAD: Augmenting LLMs with millions of medical query-response pairs》。该数据集通过 文献筛选 - LLM 生成 - 多轮核验的严谨流程,构建百万级结构化问答资源,为医疗 AI 模型优化提供权威、高质量的知识底座。


1. 核心数据特性,覆盖医疗 AI 多需求


规模与质量:包含 582 万个医学问答对,每对均基于 89.4 万篇同行评审医学文献(源自 S2ORC 语料库)改写,经 规则过滤→GPT-4 标注分类器精筛人类医学专家验证三重核验,最终保留 440 万高质量问答对,确保信息准确性与临床相关性。


结构化优势:区别于传统非结构化医疗文本,采用 问题 - 响应标准化格式,支持 LLM 精准提取知识,同等检索量下,可使医疗问答任务准确率提升 6.7%,幻觉检测 F1 分数提升 22.5%-37%

知识覆盖范围:涵盖从基础医学到临床医学的 56 个医学领域,适配不同细分场景的模型训练需求。


2. 配套工具与下游应用支撑


可视化工具:附带 MIRIAD-Atlas 交互式 2D 知识地图,通过嵌入技术与降维算法将问答对按学科主题聚类,支持直观浏览、检索细分领域知识,降低医学知识探索门槛。


下游任务适配:可直接用于医疗 RAG、医学信息检索、LLM 指令微调、幻觉检测等任务,为智能医疗助手开发、医学知识库构建、医疗 NLP 研究提供核心数据支持。


格式CSV/JSON 结构化数据文件+ 数据集说明文档


适用环境:兼容 PythonTensorFlowPyTorch 等主流数据处理与 AI 训练框架,支持直接导入模型进行训练或微调。


适用人群:医疗 AI 算法工程师(模型开发与优化)、医学信息学研究者、高校医学 / 计算机专业师生、医疗科技企业




Miriad-5.8M 医学问答数据集 (85 Bytes, 需要: RMB 29 元)





二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据集 response Millions Medical Million

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-2-2 02:35