楼主: 杆杆满分147
319 0

[学习资料] OpenAI中文版论文-用过程监督提高数学推理能力 [推广有奖]

  • 0关注
  • 0粉丝

小学生

85%

还不是VIP/贵宾

-

威望
0
论坛币
108 个
通用积分
0.0000
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
63 点
帖子
2
精华
0
在线时间
17 小时
注册时间
2021-8-22
最后登录
2024-9-18

楼主
杆杆满分147 在职认证  发表于 2023-7-3 15:01:05 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

近年来,大语言模型在复杂多步推理能力方面有了很大提高。然而,即使是最先进的模型也会经常产生逻辑上的错误。为了训练出更可靠的模型,我们可以转而采用结果监督,为最终结果提供反馈,或者转向过程监督,为每个中间推理步骤提供反馈。鉴于训练可靠模型的重要性,以及考虑到人类反馈的成本较高,因此仔细比较这两种方法就显得很重要。最近的文献已经开始了这种比较,但仍有许多问题存在。我们自己进行了调查,发现在训练模型以解决具有挑战性的MATH数据集的问题方面,过程监督明显优于结果监督。我们的过程监督模型解决了MATH测试集的一个代表性子集中78%的问题。此外,我们表明,主动学习极大地提高了过程监督的功效。为了支持相关的研究,我们还发布了PRM800K,这是一个完整数据集,用于训练我们的最佳奖励模型中的80万个步骤级人类反馈标签。







OpenAI中文版论文-用过程监督提高数学推理能力.pdf (4.41 MB, 需要: RMB 15 元)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Open 中文版 ENA Pen Math 人工智能 OpenAI

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-27 06:13