| 所在主题: | |
| 文件名: LLM 推理优化与部署实战.part15.rar | |
| 资料下载链接地址: https://bbs.pinggu.org/a-8763702.html | |
| 附件大小: | |
|
《LLM推理优化与部署实战》课件.pptx 13.2 MB
01-vLLM推理实战.docx 2.7 MB 02-量化实战-高级.docx 4.4 MB 1-1 课程内容介绍_.mp4 7.2 MB 1-10 LLM推理基础-章节总结.mp4 23.8 MB 1-11 LLM性能指标-内容介绍.mp4 6.9 MB 1-12 LLM性能指标-推理评估指标全景图.mp4 12.9 MB 1-13 LLM性能指标-首词生成时间.mp4 10.9 MB 1-14 LLM性能指标-每词生成时间.mp4 5.5 MB 1-15 LLM性能指标-端到端的请求时间.mp4 8.6 MB 1-16 LLM性能指标-系统吞吐量TPS.mp4 14.5 MB 1-17 LLM性能指标-业务指标SLO.mp4 23.7 MB 1-18 LLM性能指标-评测过程与评测工具.mp4 31.6 MB 1-19 LLM性能指标-章节总结.mp4 15.5 MB 1-2 LLM推理基础-预填充与解码阶段_.mp4 39.9 MB 1-20 模型压缩-内容介绍.mp4 14.3 MB 1-21 模型压缩-压缩策略-量化-剪枝-蒸馏.mp4 21.4 MB 1-22 模型压缩-模型量化-参数存储空间的组成.mp4 17.3 MB 1-23 模型压缩-模型量化前后使用的方法AWQ与GPTQ.mp4 21.4 MB 1-24 模型压缩-AWQ针对PPL的实验结果.mp4 21.4 MB 1-25 模型压缩-AWQ量化过程与实现-.mp4 47.2 MB 1-26 模型压缩-GPTQ量化过程以及优化IO策略.mp4 43.6 MB 1-27 模型压缩-GPTQ量化工具与实践.mp4 8.1 MB 1-28 模型压缩-剪枝分类和过程详解.mp4 30.1 MB 1-29 模型压缩-模型蒸馏分类和应用场景.mp4 28.4 MB 1-3 LLM推理基础-推理阶段与KVCache的关系_.mp4 19.1 MB 1-30 模型压缩-章节总结.mp4 29.3 MB 1-31 运行时加速方案-内容介绍.mp4 11.9 MB 1-32 运行时加速方案-多头注意力机制原理与弊端_.mp4 23.6 MB 1-33 运行时加速方案-多头注意力计算过程与分析_.mp4 14.8 MB 1-34 运行时加速方案-MQA与GQA机制以及性能比较_.mp4 20.9 MB 1-35 运行时加速方案-GPU运算与数据传输分析_.mp4 26.3 MB 1-36 运行时加速方案-FlashAttention切块和算子.mp4 23.9 MB 1-37 运行时加速方案-PagedAttention原理解析.mp4 44.9 MB 1-38 运行时加速方案-持续批处理原理解析.mp4 38.6 MB 1-39 运行时加速方案-核心推理框架选型.mp4 21.1 MB 1-4 LLM推理基础-生成KVCache过程推演_.mp4 33.1 MB 1-40 运行时加速方案-章节总结.mp4 23.1 MB 1-41 推理部署实战指导与总结.mp4 22.6 MB 1-5 LLM推理基础-为何需要对KVCache优化_.mp4 16.7 MB 1-6 LLM推理基础-如何估算模型占用内存.mp4 29.8 MB 1-7 LLM推理基础-GPU内部运算原理与推理机制的关系.mp4 48.5 MB 1-8 LLM推理基础-列举LLM存储介质以及如何搬运参数.tle 17.9 MB 1-9 LLM推理基础-优化思路-参数量化-运行时加速-IO优化.mp4 11.7 MB 2-1 vLLM产品介绍.mp4 28.3 MB 2-2 vLLM分布式推理.mp4 35.8 MB 2-3 显卡驱动安装与配置.mp4 39.5 MB 2-4 Docker进行vLLM模型安装与部署.mp4 28.1 MB 2-5 测试vLLM部署的大模型.mp4 33.8 MB 2-6 vLLM分布式部署思路.mp4 39.7 MB 2-7 系统构建网络配置和框架安装.mp4 48.5 MB 2-8 Head和Worker节点配置创建推理集群.mp4 37.1 MB 2-9 测试vLLM分布式部署.mp4 43.5 MB 3-1 量化实战-量化目的与结果介绍.mp4 46.2 MB 3-10 介绍EvalScope与Perf命令组成.mp4 49.8 MB 3-11 使用EvalScope评测量化模型.mp4 52.3 MB 3-12 介绍LLMCompressor量化工具.mp4 36.5 MB 3-13 安装LLMCompressor.mp4 16.5 MB 3-14 使用LLMCompressor对GPTQ-AWQ-NV.tle 51.4 MB 3-15 针对两种量化工具比较四种量化结果_.mp4 43.1 MB 3-16 量化实战-课程总结_.tle 16.8 MB 3-2 量化实战-思路与实战步骤讲解.mp4 25.1 MB 3-3 量化实战-了解硬件架构量化工具.mp4 19.3 MB 3-4 量化实战-安装WSL与Conda.mp4 32.4 MB 3-5 TensorRT模型优化器安装与配置.mp4 61.3 MB 3-6 NVFP4量化格式.mp4 35.2 MB 3-7 模型量化脚本解析与校准数据集.mp4 49.0 MB 3-8 模型量化以及结果查看.mp4 24.9 MB 3-9 测试量化之后模型查看返回结果.mp4 34.3 MB |
|
熟悉论坛请点击新手指南
|
|
| 下载说明 | |
|
1、论坛支持迅雷和网际快车等p2p多线程软件下载,请在上面选择下载通道单击右健下载即可。 2、论坛会定期自动批量更新下载地址,所以请不要浪费时间盗链论坛资源,盗链地址会很快失效。 3、本站为非盈利性质的学术交流网站,鼓励和保护原创作品,拒绝未经版权人许可的上传行为。本站如接到版权人发出的合格侵权通知,将积极的采取必要措施;同时,本站也将在技术手段和能力范围内,履行版权保护的注意义务。 (如有侵权,欢迎举报) |
|
京ICP备16021002号-2 京B2-20170662号
京公网安备 11010802022788号
论坛法律顾问:王进律师
知识产权保护声明
免责及隐私声明