人大经济论坛 › 论坛 › 数据科学与人工智能 › 人工智能 › 深度学习 › AIGC与NLP大模型实战-经典CV与NLP大模型及其下游应用任务 ...

CDA数据分析研究院

商业数据分析与大数据领航教育品牌



经管云课堂

经管/金融/财会/社科/名师公开课



学术培训

Stata 空间计量 SSCI Python

贵宾：通行论坛特权+数据库权限
+案例库+下载特权 VIP：论坛特权+更多下载次数
+ccerdata数据库+更高阅读权限+……

发帖

楼主: kaixin202212

972 0

AIGC与NLP大模型实战-经典CV与NLP大模型及其下游应用任务实现 [推广有奖]

0关注
1粉丝

副教授

还不是VIP/贵宾

威望: 0 级
论坛币: 581 个
通用积分: 37.6022
学术水平: 0 点
热心指数: 3 点
信用等级: 0 点
经验: 9490 点
帖子: 327
精华: 0
在线时间: 409 小时
注册时间: 2022-11-10
最后登录: 2024-12-16

楼主

kaixin202212 发表于 2023-7-29 10:52:11 |只看作者 |坛友微信交流群|倒序 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

学习地址1：https://pan.baidu.com/s/13aC6bs2H7mNKCBDCjtGV6A 提取码: hqq8
学习地址2：https://share.weiyun.com/jBv4dMhn 密码：ja53dq

大模型并行计算技术
面向 GPU 运算卡的并行计算是大模型训练部署过程中不可逾越的鸿沟。

NVIDIA 论文中提到训练自己的 GPT，使用了 3072 张 80GB A100 训练 GPT，最大规模的模型参数量达到了 1T (GPT-3 原版的 5 倍)[35]。如此庞大的参数规模，单独一块 GPU 运算卡甚至完成不了最基本的装载。

由此可见，GPU 并行是大模型训练的必备技术。不同于传统并行以加快计算速度为目的，大模型的并行计算往往还要考虑怎样将庞大的参数有机地分布到多张 GPU 卡中，并保持不同 GPU 卡之间有效的通信，整体配合完成大模型的训练部署。

大模型（预训练模型、基础模型等）是“大算力+ 强算法”结合的产物。大模型通常在大规模无标注数据上进行训练，以学习某种特征。在大模型进行开发应用时，将大模型进行微调，如对某些下游任务进行小规模标注数据的二次训练或不进行微调就可以完成。

迁移学习是预训练技术的主要思想，当目标场景数据不足时，先在数据量大的公开数据集上训练基于深度神经网络的 AI 模型，然后将其迁移到目标场景中，通过目标场景中的小数据集进行微调，使模型达到要求的性能。在这个过程中，在公开数据集上训练的深度网络模型被称为“预训练模型”。使用预训练模型极大地减少了模型在标记数据量下游工作的需要，从而解决了一些难以获得大量标记数据的新场景

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：NLP AIG IGC nvidia share

AIGC与NLP大模型实战-经典CV与NLP大模型及其下游应用任务实现 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

本版微信群

文房思宝

AIGC与NLP大模型实战-经典CV与NLP大模型及其下游应用任务实现 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

本版微信群

文房思宝

扫码加我拉你入群