楼主: ewfwedwd
56 0

[经管数据集] ChemData 化学任务数据集 [推广有奖]

  • 0关注
  • 1粉丝

已卖:418份资源

学科带头人

3%

还不是VIP/贵宾

-

威望
0
论坛币
1313 个
通用积分
456.6953
学术水平
1 点
热心指数
1 点
信用等级
1 点
经验
10260 点
帖子
869
精华
0
在线时间
206 小时
注册时间
2022-11-18
最后登录
2026-1-9

楼主
ewfwedwd 发表于 2025-10-17 17:01:07 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
ChemData 化学任务数据集

数据集简介
该数据集是由上海人工智能实验室于 2024 年与其发布的首个科学大模型浦科化学大模型 (ChemLLM) 一同开源的,相关论文成果为「ChemLLM: A Chemical Large Language Model」。


该数据集主要包括了 ChemData700K,研究团队还开源了 ChemBench-4K 、 ChemPref-10K 的中英文版本和 C-MHChem 数据集。


ChemData700K 数据集
ChemData700K 是一个包含了 9 项化学核心任务,730K 个高质量问答的大语言模型化学能力指令微调数据集, 采样自七百万条数据的 1/10 。该数据集涵盖广泛的化学领域知识,并分为 3 个主要任务类别(分子、反应和领域)。


ChemBench4K 基准数据集
ChemBench 是一个创新的基准,由关于化学分子和反应的 9 个任务组成。这 9 项任务与 ChemData 中的任务相同。该基准为客观衡量法学硕士化学水平奠定基础。 ChemBench 包含 4,100 个多项选择题,其中一个为正确答案。


ChemPref-10K 数据集
该数据集可用于优化语言模型以符合人类偏好的方法,包含英文和中文两个版本。


C-MHChem 数据集
C-MHChem 是一个包含了 600 个高质量的全人工编写的单选题测评基准,收集自过去 25 年间中国各地初高中中高考测试题目。





ChemData 化学任务数据集 (85 Bytes, 需要: RMB 35 元)
075e3b89-71fd-4f59-926d-0b980f5bbc1b.png


[color=oklch(0.3 0.01 20)][backcolor=oklch(1 0.01 20)]

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Data EMD 数据集 Chemical Language 化学领域知识、大语言模型、化学任务数据集 人工智能实验室、大模型浦科化学大模型、C-MHChem 数据集、

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-11 16:37