楼主: kaixin202212
972 0

AIGC与NLP大模型实战-经典CV与NLP大模型及其下游应用任务实现 [推广有奖]

  • 0关注
  • 1粉丝

副教授

4%

还不是VIP/贵宾

-

威望
0
论坛币
581 个
通用积分
37.6022
学术水平
0 点
热心指数
3 点
信用等级
0 点
经验
9490 点
帖子
327
精华
0
在线时间
409 小时
注册时间
2022-11-10
最后登录
2024-12-16

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
学习地址1:https://pan.baidu.com/s/13aC6bs2H7mNKCBDCjtGV6A 提取码: hqq8
学习地址2:https://share.weiyun.com/jBv4dMhn 密码:ja53dq

大模型并行计算技术
面向 GPU 运算卡的并行计算是大模型训练部署过程中不可逾越 的鸿沟。

NVIDIA 论文中提到训练自己的 GPT,使用了 3072 张 80GB A100 训练 GPT,最大规模的模型参数量达到了 1T (GPT-3 原版的 5 倍)[35]。如此庞大的参数规模,单独一块 GPU 运算卡甚至完成不了最基本的装载。

由此可见,GPU 并行是大模型训练的必备技术。不同于传统并行以加快计算 速度为目的,大模型的并行计算往往还要考虑怎样将庞大的参数有机地分布 到多张 GPU 卡中,并保持不同 GPU 卡之间有效的通信,整体配合完成大 模型的训练部署。

大模型(预训练模型、基础模型等)是“大算力+ 强算法”结合的产物。大模型通常在大规模无标注数据上进行训练,以学习某种特征。在大模型进行开发应用时,将大模型进行微调,如对某些下游任务进行小规模标注数据的二次训练或不进行微调就可以完成。

迁移学习是预训练技术的主要思想,当目标场景数据不足时,先在数据量大的公开数据集上训练基于深度神经网络的 AI 模型,然后将其迁移到目标场景中,通过目标场景中的小数据集进行微调,使模型达到要求的性能。在这个过程中,在公开数据集上训练的深度网络模型被称为“预训练模型”。使用预训练模型极大地减少了模型在标记数据量下游工作的需要,从而解决了一些难以获得大量标记数据的新场景

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:NLP AIG IGC nvidia share

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
JingGuan2026
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2025-1-15 14:12