学习地址1:https://pan.baidu.com/s/13aC6bs2H7mNKCBDCjtGV6A 提取码: hqq8
学习地址2:https://share.weiyun.com/jBv4dMhn 密码:ja53dq
大模型并行计算技术
面向 GPU 运算卡的并行计算是大模型训练部署过程中不可逾越 的鸿沟。
NVIDIA 论文中提到训练自己的 GPT,使用了 3072 张 80GB A100 训练 GPT,最大规模的模型参数量达到了 1T (GPT-3 原版的 5 倍)[35]。如此庞大的参数规模,单独一块 GPU 运算卡甚至完成不了最基本的装载。
由此可见,GPU 并行是大模型训练的必备技术。不同于传统并行以加快计算 速度为目的,大模型的并行计算往往还要考虑怎样将庞大的参数有机地分布 到多张 GPU 卡中,并保持不同 GPU 卡之间有效的通信,整体配合完成大 模型的训练部署。
大模型(预训练模型、基础模型等)是“大算力+ 强算法”结合的产物。大模型通常在大规模无标注数据上进行训练,以学习某种特征。在大模型进行开发应用时,将大模型进行微调,如对某些下游任务进行小规模标注数据的二次训练或不进行微调就可以完成。
迁移学习是预训练技术的主要思想,当目标场景数据不足时,先在数据量大的公开数据集上训练基于深度神经网络的 AI 模型,然后将其迁移到目标场景中,通过目标场景中的小数据集进行微调,使模型达到要求的性能。在这个过程中,在公开数据集上训练的深度网络模型被称为“预训练模型”。使用预训练模型极大地减少了模型在标记数据量下游工作的需要,从而解决了一些难以获得大量标记数据的新场景