01-vLLM推理实战 .docx 2.7 MB
02-量化实战-高级 .docx 4.4 MB
1-1 课程内容介绍_ .mp4 7.2 MB
1-10 LLM推理基础-章节总结 .mp4 23.8 MB
1-11 LLM性能指标-内容介绍 .mp4 6.9 MB
1-12 LLM性能指标-推理评估指标全景图 .mp4 12.9 MB
1-13 LLM性能指标-首词生成时间 .mp4 10.9 MB
1-14 LLM性能指标-每词生成时间 .mp4 5.5 MB
1-15 LLM性能指标-端到端的请求时间 .mp4 8.6 MB
1-16 LLM性能指标-系统吞吐量TPS .mp4 14.5 MB
1-17 LLM性能指标-业务指标SLO .mp4 23.7 MB
1-18 LLM性能指标-评测过程与评测工具 .mp4 31.6 MB
1-19 LLM性能指标-章节总结 .mp4 15.5 MB
1-2 LLM推理基础-预填充与解码阶段_ .mp4 39.9 MB
1-20 模型压缩-内容介绍 .mp4 14.3 MB
1-21 模型压缩-压缩策略-量化-剪枝-蒸馏 .mp4 21.4 MB
1-22 模型压缩-模型量化-参数存储空间的组成 .mp4 17.3 MB
1-23 模型压缩-模型量化前后使用的方法AWQ与GPTQ .mp4 21.4 MB
1-24 模型压缩-AWQ针对PPL的实验结果 .mp4 21.4 MB
1-25 模型压缩-AWQ量化过程与实现- .mp4 47.2 MB
1-26 模型压缩-GPTQ量化过程以及优化IO策略 .mp4 43.6 MB
1-27 模型压缩-GPTQ量化工具与实践 .mp4 8.1 MB
1-28 模型压缩-剪枝分类和过程详解 .mp4 30.1 MB
1-29 模型压缩-模型蒸馏分类和应用场景 .mp4 28.4 MB
1-3 LLM推理基础-推理阶段与KVCache的关系_ .mp4 19.1 MB
1-30 模型压缩-章节总结 .mp4 29.3 MB
1-31 运行时加速方案-内容介绍 .mp4 11.9 MB
1-32 运行时加速方案-多头注意力机制原理与弊端_ .mp4 23.6 MB
1-33 运行时加速方案-多头注意力计算过程与分析_ .mp4 14.8 MB
1-34 运行时加速方案-MQA与GQA机制以及性能比较_ .mp4 20.9 MB
1-35 运行时加速方案-GPU运算与数据传输分析_ .mp4 26.3 MB
1-36 运行时加速方案-FlashAttention切块和算子 .mp4 23.9 MB
1-37 运行时加速方案-PagedAttention原理解析 .mp4 44.9 MB
1-38 运行时加速方案-持续批处理原理解析 .mp4 38.6 MB
1-39 运行时加速方案-核心推理框架选型 .mp4 21.1 MB
1-4 LLM推理基础-生成KVCache过程推演_ .mp4 33.1 MB
1-40 运行时加速方案-章节总结 .mp4 23.1 MB
1-41 推理部署实战指导与总结 .mp4 22.6 MB
1-5 LLM推理基础-为何需要对KVCache优化_ .mp4 16.7 MB
1-6 LLM推理基础-如何估算模型占用内存 .mp4 29.8 MB
1-7 LLM推理基础-GPU内部运算原理与推理机制的关系 .mp4 48.5 MB
1-8 LLM推理基础-列举LLM存储介质以及如何搬运参数 .tle 17.9 MB
1-9 LLM推理基础-优化思路-参数量化-运行时加速-IO优化 .mp4 11.7 MB
2-1 vLLM产品介绍 .mp4 28.3 MB
2-2 vLLM分布式推理 .mp4 35.8 MB
2-3 显卡驱动安装与配置 .mp4 39.5 MB
2-4 Docker进行vLLM模型安装与部署 .mp4 28.1 MB
2-5 测试vLLM部署的大模型 .mp4 33.8 MB
2-6 vLLM分布式部署思路 .mp4 39.7 MB
2-7 系统构建网络配置和框架安装 .mp4 48.5 MB
2-8 Head和Worker节点配置创建推理集群 .mp4 37.1 MB
2-9 测试vLLM分布式部署 .mp4 43.5 MB
3-1 量化实战-量化目的与结果介绍 .mp4 46.2 MB
3-10 介绍EvalScope与Perf命令组成 .mp4 49.8 MB
3-11 使用EvalScope评测量化模型 .mp4 52.3 MB
3-12 介绍LLMCompressor量化工具 .mp4 36.5 MB
3-13 安装LLMCompressor .mp4 16.5 MB
3-14 使用LLMCompressor对GPTQ-AWQ-NV .tle 51.4 MB
3-15 针对两种量化工具比较四种量化结果_ .mp4 43.1 MB
3-16 量化实战-课程总结_ .tle 16.8 MB
3-2 量化实战-思路与实战步骤讲解 .mp4 25.1 MB
3-3 量化实战-了解硬件架构量化工具 .mp4 19.3 MB
3-4 量化实战-安装WSL与Conda .mp4 32.4 MB
3-5 TensorRT模型优化器安装与配置 .mp4 61.3 MB
3-6 NVFP4量化格式 .mp4 35.2 MB
3-7 模型量化脚本解析与校准数据集 .mp4 49.0 MB
3-8 模型量化以及结果查看 .mp4 24.9 MB
3-9 测试量化之后模型查看返回结果 .mp4 34.3 MB
LLM 推理优化与部署实战.part01.rar
(100 MB, 需要: RMB 19 元)
LLM 推理优化与部署实战.part02.rar
(100 MB)
LLM 推理优化与部署实战.part03.rar
(100 MB)
LLM 推理优化与部署实战.part04.rar
(100 MB)
LLM 推理优化与部署实战.part05.rar
(100 MB)
LLM 推理优化与部署实战.part06.rar
(100 MB)
LLM 推理优化与部署实战.part07.rar
(100 MB)
LLM 推理优化与部署实战.part08.rar
(100 MB)
LLM 推理优化与部署实战.part09.rar
(100 MB)
LLM 推理优化与部署实战.part10.rar
(100 MB, 需要: RMB 10 元)
LLM 推理优化与部署实战.part11.rar
(100 MB)
LLM 推理优化与部署实战.part12.rar
(100 MB)
LLM 推理优化与部署实战.part13.rar
(100 MB)
LLM 推理优化与部署实战.part14.rar
(100 MB)
LLM 推理优化与部署实战.part15.rar
(70.22 MB)


雷达卡


京公网安备 11010802022788号







