Nemotron-Math-HumanReasoning 是由英伟达于 2025 年发布的一个数学推理数据集,相关论文成果为「The Challenge of Teaching Reasoning to LLMs Without RL or Distillation」,旨在模拟 DeepSeek-R1 等模型的扩展推理风格。
该数据集包含来自 OpenMathReasoning 数据集的 50 道数学题、 200 个人工撰写的解答,以及由 QwQ-32B-Preview 额外生成的 50 个解答。


雷达卡




京公网安备 11010802022788号







