FineReason 多模态视觉推理数据集
FineReason 是由 OpenDataArena 于 2025 年发布的一个面向大型多模态模型(LMMs)视觉推理能力训练与评测的数据集,旨在提升模型在视觉谜题、游戏、复杂图表推理、 STEM(科学,技术,工程和数学)知识应用等场景中的可解释、可检验的长链条推理能力。
该数据集涵盖几何题(geometry3k / geo170k)、图示与流程图理解(AI2D)、视觉推理及观察类谜题(visualwebinstruct 等)等多种任务类型。所有样本均采用统一数据格式,包含唯一编号、问题文本、对应图像以及推理式答案。数据集由多个公开子集整合而成,并通过 Qwen3-VL-235B-a22B-thinking 模型进行推理链条蒸馏,使样本均具备结构清晰、可检验的逐步推理过程及最终解答。
数据构成(持续扩展中):
BMMR:42,647 条
Euclid30K:27,111 条
ai2d_merged:2,446 条
geo170k(问答):12,101 条
geometry3k / mathv360k:9,724 条
ScienceQA:6,146 条
TQA(TextbookQA):12,565 条
VisualWebInstruct(过滤后):261,436 条
MMR1:1,000 条
VisualSphinx:3,781 条
MMOpenR1-8K:7,428 条
文件大小:65.85 GB
FineReason 多模态视觉推理数据集.zip
(660.04 KB, 需要: RMB 10 元)


雷达卡


京公网安备 11010802022788号







