楼主: Lyon0898
135 0

HH-RLHF 人类偏好数据集 [推广有奖]

  • 0关注
  • 7粉丝

已卖:4905份资源

院士

42%

还不是VIP/贵宾

-

威望
0
论坛币
145942 个
通用积分
15193.1197
学术水平
55 点
热心指数
57 点
信用等级
55 点
经验
46233 点
帖子
1858
精华
0
在线时间
438 小时
注册时间
2022-3-14
最后登录
2026-1-4

楼主
Lyon0898 在职认证  发表于 2025-11-26 17:17:30 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

HH-RLHF 是由 Anthropic 于 2022 年发布的一个人类偏好数据集,主要由两部分组成。

数据集组成:有益/无害的人类偏好数据(PM Data):相关论文成果为「Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback」,旨在用人类偏好把对话模型调成既「有益」又「无害」。数据集由成对的回复比较样本组成(每条含 chosen / rejected),覆盖 Helpfulness(含 base / rejection-sampled / online 三个来源)与 Harmlessness(base)两类。数据格式简单、直接,不建议直接做 SFT,适用于 RLHF/DPO 训练、奖励模型构建、响应质量对比评测等场景。红队对话数据(非 PM Data):相关论文成果为「Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned」,旨在研究攻击类型与危害表现、帮助降低模型有害性。数据集由红队完整对话转录及元数据组成,含 transcript 、 min_harmlessness_score_transcript 、 model_type 、 rating 、 task_description 、 tags 等。数据贴近真实红队过程、标注丰富,不用于偏好建模或 SFT,适用于安全对齐分析、红队评测、危害类型归纳与策略改进等场景。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据集 Description Transcript Assistant Behaviors

HH-RLHF.rar
下载链接: https://bbs.pinggu.org/a-8634548.html

1.55 KB

需要: 101 个论坛币  [购买]

磁力链接,90.35M

本附件包括:

  • HH-RLHF.torrent

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-27 20:20