楼主: 2023Hua
41 0

[其他] 如何构建高质量数据集? [推广有奖]

  • 0关注
  • 22粉丝

已卖:1997份资源

大师

21%

还不是VIP/贵宾

-

威望
1
论坛币
556 个
通用积分
575.5027
学术水平
66 点
热心指数
130 点
信用等级
37 点
经验
114043 点
帖子
6756
精华
0
在线时间
2963 小时
注册时间
2022-8-18
最后登录
2026-3-2

楼主
2023Hua 在职认证  发表于 8 小时前 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
如何构建高质量数据集?


如何构建高质量数据集?
  数据集在微调任务中起着至关重要的作用。毫不夸张的说,要想得到好的微调效果,数据集
  的质量要远大于其他参数的设置,如果数据集太小、多样性不足、数据噪声太大、样本偏差
   严重等问题都会导致微调任务失败。按照经验来讲,在一次微调任务中,大概 80% 的时间应
   该花在数据集的准备和处理上,因为微调的工具、流程和参数的调整都是有经验可循的,而
   数据集的构建却需要结合具体业务场景。从数据采集时需覆盖多维度场景,到清洗时剔除噪
   声与偏差样本,再到标注时确保一致性与准确性,每个环节都影响最终效果。此外,还需合
   理划分训练/验证/测试集,通过数据增强扩充样本多样性,让模型在微调中真正学习到关键
   特征。
数据集格式要求
本次任务我们进行的是指令监督微调(SFT),在 LLaMA Factory 中主要支持 Alpaca 格式和
ShareGPT 两种格式:
Alpaca 格式的指令微调数据集:
      Alpaca数据集         ShareGPT数据集
代码块              ...
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据集 factory factor share Facto

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-3-3 15:49