MedQA 医学文本问答数据集 专业医学问答数据集下载
MedQA 医学文本问答数据集是面向医学领域的专业问答数据集,由麻省理工大学与华中科技大学研究团队于 2020 年联合发布,相关论文为「What Disease does this Patient Have? A Large-scale Open Domain Question Answering Dataset from Medical Exams」,数据集整体模拟美国医疗执照考试(USMLE)出题风格,是医学 NLP 研究、模型训练的优质数据资源。
一、MedQA 数据集核心覆盖范围
语言版本:完整涵盖英语、简体中文、繁体中文三大版本,其中英语版含 12723 个问题,简体中文版含 34251 个问题,繁体中文版含 14123 个问题,各版本均为专业医学考试中提取的高质量内容。
数据结构:配套发布大规模医学教科书语料库,为模型回答问题提供核心知识支撑;所有数据均划分训练集、开发集、测试集,划分比例科学,可直接用于模型全流程训练与验证。
基础指标:各版本均有明确的问题 / 选项长度、词汇量等指标,问题与选项均来自专业医疗执照考试,词汇、表述贴合医学专业场景,符合真实医学问答的语言逻辑。
二、MedQA 数据集可用途径
医学 NLP 模型研发:用于训练、验证和测试医学领域问答模型、阅读理解模型,评估模型对医学专业知识的理解与实际应用能力。
医学 AI 研究:作为大模型医疗领域微调的核心数据集,助力医疗 AI 模型在疾病诊断、医学问题解答等场景的性能优化。
学术研究与教学:适用于高校、科研机构的医学信息工程、自然语言处理等专业的学术研究,也可作为相关专业的教学实验数据。
医疗科技产品开发:为医疗问答机器人、智能医疗咨询系统等产品的研发提供高质量的训练数据,提升产品的专业问答准确性。
MedQA 数据集凭借专业的出题背景、多语言覆盖、完善的数据集划分,成为医学领域开放域问答研究的核心数据集,是医疗 AI、医学 NLP 领域研究与开发的重要数据支撑。
MedQA 医学文本问答数据集.zip
(2.33 KB, 需要: RMB 10 元)


雷达卡


京公网安备 11010802022788号







