楼主: Lingxi211
30 0

LLM 微调的碳足迹——一个案例研究 [推广有奖]

  • 0关注
  • 0粉丝

等待验证会员

小学生

14%

还不是VIP/贵宾

-

威望
0
论坛币
0 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
40 点
帖子
3
精华
0
在线时间
0 小时
注册时间
2018-1-23
最后登录
2018-1-23

楼主
Lingxi211 发表于 2025-11-21 07:05:50 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

当我在评估名为 Munin-7b-alpha 的丹麦 LLM 指令微调的碳排放时,发现了一些意料之外的结果。

towardsdatascience.com/carbon-footprint-of-llm-fine-tuning-a-case-study-7703afc716a9?source=collection_archive---------9-----------------------#2024-02-22

Munin-7b-alpha 是一个预训练模型,专为生成文本而设计。为了让它更好地适用于对话场景,需要对其进行指令微调,这是一个让模型能够更有效地响应指令的训练过程。在这个过程中,我使用了一个名为 SkoleGPT-instruct 的数据集来进行微调。

指令微调与预训练阶段不同,后者涉及大量的未标注文本数据,模型通过自监督学习从这些数据中学习。相比之下,指令微调所需的数据量较少,但这些数据必须是经过精选和标注的。

本文将详细介绍我如何利用 LoRA 技术对 Munin-7b-alpha 进行微调的过程,以及在此过程中我对能耗和碳足迹的测量结果。您可以通过此链接访问该模型。

在微调过程中,我使用了包含 21,300 个样本的指令数据集,即 21,300 个提示和正确答案的例子。通过一个稍作修改的精彩模型微调笔记本,我训练了一个 LoRA 模型,仅进行了一个周期的训练,即每个样本只向模型展示一次。

LoRA(低秩适应)是一种高效的微调技术,特别适合对大型语言模型进行特定任务的调整。这种技术通过将大型矩阵分解为两个较小的低秩矩阵来实现,从而大幅减少需要调整的参数数量。

训练是在单个 Nvidia RTX A4000 GPU 上完成的,这是一种消费级别的 GPU,配备 16 GB 的内存,足够支持 LoRA 微调。我使用了 Python 包 CodeCarbon 来监控整个过程中的能耗。CodeCarbon 是一款非常轻量且易于操作的工具,能够通过短短几行代码就实现对 Python 脚本、函数或方法能耗的测量。

除了能耗,CodeCarbon 还能估计计算过程中的碳足迹,不过我发现这部分数据似乎不够准确。这可能是由于 CodeCarbon 使用的是所在地区平均碳强度的固定值,而非实时碳强度。为此,我查阅了 Energi Data Service 网站提供的丹麦电网电力排放数据,将这些数据与 CodeCarbon 记录的能耗相结合,最终得出了微调过程中的碳足迹。

结果显示,整个微调过程耗时不足 4 小时,总耗电量仅为 0.694 千瓦时,这包括了 GPU、CPU 和 RAM 的综合能耗。根据 Energi Data Service 提供的数据,每千瓦时的 CO2e 排放量约为 82.5 克。因此,整个微调过程产生的二氧化碳当量排放量仅为 57 克。

作为参考,普通丹麦人每年的 CO2e 排放量大约为 11 吨。这一对比鲜明的数据说明,尽管我们在追求技术进步的同时,也应关注和控制由此带来的环境影响。

研究显示,利用生成性 AI 创建一张图像平均消耗 2.9 瓦时[2]。这意味着,用于指令微调大型语言模型(LLM)的能量,足够生成 239 张图像。

关于这种短暂且高效的微调过程能否产生更优质的模型,答案是肯定的。根据 ScandEval 排行榜的数据,预训练模型在丹麦任务上的平均得分为 43.44,而经过微调的模型得分则提高到 47.55,增幅达到了 9.45%。这一进步使得模型在排行榜上的位置从第 5 名跃升至第 7 名。

如何构建用于时间序列预测的 PyTorch Transformer

本文将详细介绍如何将时间序列 Transformer 架构转化为 PyTorch 代码。

towardsdatascience.com/carbon-footprint-of-llm-fine-tuning-a-case-study-7703afc716a9?source=collection_archive---------9-----------------------#2024-02-22

让我感到意外的是,微调过程并未增加额外的计算资源、能源消耗或碳排放。据我估计,如果其他条件不变(如使用相同的 GPU、训练方法等),我的发现将随着样本数量的增加而呈线性增长。例如,如果你在两倍的样本上进行微调,或者训练两倍的时间,预期的能源消耗也会加倍。

对于拥有 70 亿参数的模型,虽然能源消耗可能会显著增加,从而导致更高的碳排放,但从整体上看,排放量可能依然较低。此外,如果不采用 LoRA 技术,能源消耗可能会更高。

结论

使用 LoRA 技术进行指令微调确实非常高效,无论是在所需时间、计算资源(如 GPU 内存)还是碳排放方面。基于 21,300 个样本进行一轮训练,对 7B 参数的 LLM 进行指令微调,整个过程仅耗时四小时,产生的二氧化碳当量仅为 57 克,这是一个非常低的数值。

以上就是全部内容!希望你喜欢这篇分享。欢迎留言告诉我你的看法!

通过成为 Medium 会员,你可以享受更多 Medium 的服务,并支持我的写作。
关注我,获取更多有关 AI 和可持续发展的信息,并订阅我的邮件列表,以便在我发布新文章时收到通知。
我偶尔也会撰写关于时间序列预测的文章。
欢迎通过 LinkedIn 与我建立联系。

参考文献

  1. 丹麦公共部门数据使用条件 - 数据在 ED 中使用的许可
  2. "电力需求处理:瓦特驱动 AI 部署成本?" 作者:Luccioni 等
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:案例研究 碳足迹 LLM case-study Collection

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-6 03:23