Scale AI：LLM大规模法律金融金融 [推广有奖]

0关注
0粉丝

等待验证会员

学前班

80%

还不是VIP/贵宾

威望: 0 级
论坛币: 0 个
通用积分: 0
学术水平: 0 点
热心指数: 0 点
信用等级: 0 点
经验: 30 点
帖子: 2
精华: 0
在线时间: 0 小时
注册时间: 2018-2-2
最后登录: 2018-2-2

楼主

23271_web 发表于 2025-11-19 14:58:21 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

PRBench: 大规模专业评估标准，用于衡量高风险职业推理

来源：arXiv, 2511.11562

摘要

当前模型的进展通常依赖学术基准来评估，但这些基准在实际专业环境中对性能的反映有限。现有的评估方法往往不能充分衡量法律和金融等高风险领域的开放式任务，其中经济回报至关重要。为了解决这一问题，我们推出了“Professional Reasoning Bench (PRBench)”，这是一个涉及金融与法律领域的真实、开放且复杂的基准测试集。

PRBench 包含 1,100 个由专家设计的任务和 19,356 条详细的评估标准，成为迄今为止已知的最大规模的公开专业基准。参与此项目的有 182 名合格的专业人士，他们拥有法律博士（JD）、特许金融分析师（CFA）资格或至少六年的工作经验，并基于其实际工作流程贡献了这些任务。这导致了显著的任务多样性，覆盖了 114 个国家和 47 个美国司法管辖区。

所有专家策划的评估标准都通过了一个严格的质量控制流程，包括独立专家审核。在对 20 款领先模型进行评估后，我们发现它们还有很大的提升空间，在最难的任务子集中得分最高为金融领域的 0.39 和法律领域的 0.37。此外，我们还记录了提示信息的经济影响，并使用人工标注的评估类别来分析性能表现。

研究显示，即使总分相近，不同模型在特定能力上的表现也可能存在显著差异。常见的问题包括判断不准确、缺乏过程透明度以及推理不完整等，这些都表明了它们在专业领域应用时存在的可靠性差距。