ReasonMed 医学推理数据集 37 万条 临床 / 解剖学 / 遗传学问答训练数据
一、数据集核心信息
ReasonMed 医学推理数据集是当前规模领先的开源医学推理专用数据集,相关论文成果为《ReasonMed: A 370K Multi-Agent Generated Dataset for Advancing Medical Reasoning》,核心用途是为医学问答模型训练、医学文本生成任务优化、医疗 AI 模型评估提供高质量数据支撑,助力医疗 AI 领域算法迭代与效果提升。
二、内容覆盖范围
数据集涵盖 37 万个高质量医学问答示例,覆盖多个核心医学领域:
临床知识:含常见疾病诊断、治疗方案、临床症状分析等实用内容
解剖学:涉及人体结构、器官功能、组织分布等专业知识
遗传学:包含基因遗传规律、遗传疾病相关问答等专业内容
其他医学相关细分领域,满足多场景训练需求
三、数据来源与优势
数据源自 3 个顶尖大型语言模型(Qwen-2.5-72B、DeepSeek-R1-Distill-Llama-70B、HuatuoGPT-o1-70B)生成的 175 万条初始推理路径,经过严格的多智能体验证流程 + 层层优化提炼,确保数据准确性、专业性与实用性,避免低质无效信息。
四、可用途径
医学 AI 模型训练:适配医学问答机器人、智能诊疗辅助系统等模型的训练需求
文本生成任务:用于医疗科普文案生成、医学报告撰写辅助等场景的模型优化
模型评估测试:作为医疗 AI 模型性能评估的标准数据集,验证模型推理能力
医学研究支持:为医学相关学术研究、论文撰写提供数据支撑
医疗教育应用:可用于医学教学辅助工具开发,提供标准化问答资源
ReasonMed 医学推理数据集.zip
(7.56 KB, 需要: RMB 10 元)


雷达卡


京公网安备 11010802022788号







