发帖

楼主: Lyon0898

156 0

HH-RLHF 人类偏好数据集 [推广有奖]

0关注
7粉丝

已卖：4913份资源

院士

47%

还不是VIP/贵宾

-

0%

威望: 0 级
论坛币: 146707 个
通用积分: 15193.8397
学术水平: 55 点
热心指数: 57 点
信用等级: 55 点
经验: 46683 点
帖子: 1903
精华: 0
在线时间: 446 小时
注册时间: 2022-3-14
最后登录: 2026-2-10

楼主

Lyon0898

发表于 2025-11-26 17:17:30 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

HH-RLHF 是由 Anthropic 于 2022 年发布的一个人类偏好数据集，主要由两部分组成。

数据集组成：有益/无害的人类偏好数据（PM Data）：相关论文成果为「Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback」，旨在用人类偏好把对话模型调成既「有益」又「无害」。数据集由成对的回复比较样本组成（每条含 chosen / rejected），覆盖 Helpfulness（含 base / rejection-sampled / online 三个来源）与 Harmlessness（base）两类。数据格式简单、直接，不建议直接做 SFT，适用于 RLHF/DPO 训练、奖励模型构建、响应质量对比评测等场景。红队对话数据（非 PM Data）：相关论文成果为「Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned」，旨在研究攻击类型与危害表现、帮助降低模型有害性。数据集由红队完整对话转录及元数据组成，含 transcript 、 min_harmlessness_score_transcript 、 model_type 、 rating 、 task_description 、 tags 等。数据贴近真实红队过程、标注丰富，不用于偏好建模或 SFT，适用于安全对齐分析、红队评测、危害类型归纳与策略改进等场景。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：数据集 Description Transcript Assistant Behaviors

HH-RLHF.rar
下载链接: https://bbs.pinggu.org/a-8634548.html

1.55 KB

需要: 101 个论坛币 [购买]

磁力链接，90.35M

本附件包括：

HH-RLHF.torrent

HH-RLHF 人类偏好数据集 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

HH-RLHF 人类偏好数据集 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

扫码加我拉你入群