[经管数据集] ChemBench4K 化学能力评测基准数据集 [推广有奖]

0关注
1粉丝

已卖：429份资源

学科带头人

18%

还不是VIP/贵宾

威望: 0 级
论坛币: 1323 个
通用积分: 456.7553
学术水平: 1 点
热心指数: 1 点
信用等级: 1 点
经验: 13000 点
帖子: 943
精华: 0
在线时间: 241 小时
注册时间: 2022-11-18
最后登录: 2026-3-5

楼主

ewfwedwd 发表于 2026-2-4 15:09:08 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

ChemBench4K 化学能力评测基准数据集

该数据集是由上海人工智能实验室于 2024 年与其发布的首个科学大模型浦科化学大模型 (ChemLLM) 一同开源的，相关论文成果为「ChemLLM: A Chemical Large Language Model」。

该数据集主要包括了 ChemBench-4K，研究团队还开源了 ChemData700K 、 ChemPref-10K 的中英文版本和 C-MHChem 数据集。

研究背景

大规模的化学性能指标评测现有的化学任务性能指标评测大多是针对特定任务的专家模型而设计的，例如 MoleculeNet 。但是，它们可能不适合测试 LLM 。现有的化学大型语言模型基准测试大多采用问答形式，并使用 BLEU 和 ROUGE 作为评估标准。然而，这些类型的评估可能会受到语言模型的输出风格的显著影响，并且不适用于强调科学事实的正确性的场景。在这种情况下，如果答案表现出相似的语言风格，尽管包含事实错误，它们甚至可以获得更高的评估分数。因此，研究团队选择构建一个由多项选择题组成的化学基准，类似于当前主流的评价集 MMLU 30 和 C-Eval 。

数据集概述

为了严格评估语言模型对化学的理解，研究团队推出了 ChemBench，这是一个创新的基准，由关于化学分子和反应的 9 个任务组成，这 9 项任务与 ChemData 中的任务相同，包含 4,100 个多项选择题，其中一个为正确答案。该基准为客观衡量大语言模型的化学水平奠定了基础。

其他开源数据集简介

点击此处使用 ChemData700K 、 ChemPref-10K 的中英文版本和 C-MHChem 数据集

ChemBench-4K 数据集

ChemData700K 是一个包含了九项化学核心任务，730K 个高质量问答的大语言模型化学能力指令微调数据集, 采样自七百万条数据的 1/10 。该数据集涵盖广泛的化学领域知识，并遵循三个主要任务类别（分子、反应和领域）。

ChemPref-10K 数据集

该数据集可用于优化语言模型以符合人类偏好的方法，包含英文和中文两个版本。

C-MHChem 数据集

C-MHChem 是一个包含了 600 个高质量的全人工编写的单选题测评基准，收集自过去 25 年间中国各地初高中中高考测试题目。

ChemBench4K 化学能力评测基准数据集.zip (1.12 KB, 需要: RMB 10 元)