楼主: Barda-2025
22 0

[其他] LLM 推理优化与部署实战/vLLM推理实战 [推广有奖]

  • 0关注
  • 3粉丝

已卖:158份资源

学科带头人

35%

还不是VIP/贵宾

-

威望
0
论坛币
18 个
通用积分
132.9675
学术水平
4 点
热心指数
13 点
信用等级
2 点
经验
21056 点
帖子
1768
精华
0
在线时间
798 小时
注册时间
2023-7-5
最后登录
2026-2-8

楼主
Barda-2025 发表于 2026-1-25 22:00:47 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
《LLM推理优化与部署实战》课件  .pptx            13.2 MB
01-vLLM推理实战  .docx            2.7 MB
02-量化实战-高级  .docx            4.4 MB
1-1 课程内容介绍_  .mp4            7.2 MB
1-10 LLM推理基础-章节总结  .mp4            23.8 MB
1-11 LLM性能指标-内容介绍  .mp4            6.9 MB
1-12 LLM性能指标-推理评估指标全景图  .mp4            12.9 MB
1-13 LLM性能指标-首词生成时间  .mp4            10.9 MB
1-14 LLM性能指标-每词生成时间  .mp4            5.5 MB
1-15 LLM性能指标-端到端的请求时间  .mp4            8.6 MB
1-16 LLM性能指标-系统吞吐量TPS  .mp4            14.5 MB
1-17 LLM性能指标-业务指标SLO  .mp4            23.7 MB
1-18 LLM性能指标-评测过程与评测工具  .mp4            31.6 MB
1-19 LLM性能指标-章节总结  .mp4            15.5 MB
1-2 LLM推理基础-预填充与解码阶段_  .mp4            39.9 MB
1-20 模型压缩-内容介绍  .mp4            14.3 MB
1-21 模型压缩-压缩策略-量化-剪枝-蒸馏  .mp4            21.4 MB
1-22 模型压缩-模型量化-参数存储空间的组成  .mp4            17.3 MB
1-23 模型压缩-模型量化前后使用的方法AWQ与GPTQ  .mp4            21.4 MB
1-24 模型压缩-AWQ针对PPL的实验结果  .mp4            21.4 MB
1-25 模型压缩-AWQ量化过程与实现-  .mp4            47.2 MB
1-26 模型压缩-GPTQ量化过程以及优化IO策略  .mp4            43.6 MB
1-27 模型压缩-GPTQ量化工具与实践  .mp4            8.1 MB
1-28 模型压缩-剪枝分类和过程详解  .mp4            30.1 MB
1-29 模型压缩-模型蒸馏分类和应用场景  .mp4            28.4 MB
1-3 LLM推理基础-推理阶段与KVCache的关系_  .mp4            19.1 MB
1-30 模型压缩-章节总结  .mp4            29.3 MB
1-31 运行时加速方案-内容介绍  .mp4            11.9 MB
1-32 运行时加速方案-多头注意力机制原理与弊端_  .mp4            23.6 MB
1-33 运行时加速方案-多头注意力计算过程与分析_  .mp4            14.8 MB
1-34 运行时加速方案-MQA与GQA机制以及性能比较_  .mp4            20.9 MB
1-35 运行时加速方案-GPU运算与数据传输分析_  .mp4            26.3 MB
1-36 运行时加速方案-FlashAttention切块和算子  .mp4            23.9 MB
1-37 运行时加速方案-PagedAttention原理解析  .mp4            44.9 MB
1-38 运行时加速方案-持续批处理原理解析  .mp4            38.6 MB
1-39 运行时加速方案-核心推理框架选型  .mp4            21.1 MB
1-4 LLM推理基础-生成KVCache过程推演_  .mp4            33.1 MB
1-40 运行时加速方案-章节总结  .mp4            23.1 MB
1-41 推理部署实战指导与总结  .mp4            22.6 MB
1-5 LLM推理基础-为何需要对KVCache优化_  .mp4            16.7 MB
1-6 LLM推理基础-如何估算模型占用内存  .mp4            29.8 MB
1-7 LLM推理基础-GPU内部运算原理与推理机制的关系  .mp4            48.5 MB
1-8 LLM推理基础-列举LLM存储介质以及如何搬运参数  .tle            17.9 MB
1-9 LLM推理基础-优化思路-参数量化-运行时加速-IO优化  .mp4            11.7 MB
2-1 vLLM产品介绍  .mp4            28.3 MB
2-2 vLLM分布式推理  .mp4            35.8 MB
2-3 显卡驱动安装与配置  .mp4            39.5 MB
2-4 Docker进行vLLM模型安装与部署  .mp4            28.1 MB
2-5 测试vLLM部署的大模型  .mp4            33.8 MB
2-6 vLLM分布式部署思路  .mp4            39.7 MB
2-7 系统构建网络配置和框架安装  .mp4            48.5 MB
2-8 Head和Worker节点配置创建推理集群  .mp4            37.1 MB
2-9 测试vLLM分布式部署  .mp4            43.5 MB
3-1 量化实战-量化目的与结果介绍  .mp4            46.2 MB
3-10 介绍EvalScope与Perf命令组成  .mp4            49.8 MB
3-11 使用EvalScope评测量化模型  .mp4            52.3 MB
3-12 介绍LLMCompressor量化工具  .mp4            36.5 MB
3-13 安装LLMCompressor  .mp4            16.5 MB
3-14 使用LLMCompressor对GPTQ-AWQ-NV  .tle            51.4 MB
3-15 针对两种量化工具比较四种量化结果_  .mp4            43.1 MB
3-16 量化实战-课程总结_  .tle            16.8 MB
3-2 量化实战-思路与实战步骤讲解  .mp4            25.1 MB
3-3 量化实战-了解硬件架构量化工具  .mp4            19.3 MB
3-4 量化实战-安装WSL与Conda  .mp4            32.4 MB
3-5 TensorRT模型优化器安装与配置  .mp4            61.3 MB
3-6 NVFP4量化格式  .mp4            35.2 MB
3-7 模型量化脚本解析与校准数据集  .mp4            49.0 MB
3-8 模型量化以及结果查看  .mp4            24.9 MB
3-9 测试量化之后模型查看返回结果  .mp4            34.3 MB

LLM 推理优化与部署实战.part01.rar (100 MB, 需要: RMB 19 元)
LLM 推理优化与部署实战.part02.rar (100 MB) LLM 推理优化与部署实战.part03.rar (100 MB) LLM 推理优化与部署实战.part04.rar (100 MB) LLM 推理优化与部署实战.part05.rar (100 MB) LLM 推理优化与部署实战.part06.rar (100 MB) LLM 推理优化与部署实战.part07.rar (100 MB) LLM 推理优化与部署实战.part08.rar (100 MB) LLM 推理优化与部署实战.part09.rar (100 MB) LLM 推理优化与部署实战.part10.rar (100 MB, 需要: RMB 10 元) LLM 推理优化与部署实战.part11.rar (100 MB) LLM 推理优化与部署实战.part12.rar (100 MB) LLM 推理优化与部署实战.part13.rar (100 MB) LLM 推理优化与部署实战.part14.rar (100 MB) LLM 推理优化与部署实战.part15.rar (70.22 MB)



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:LLM Attention compress Tensor worker

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-2-22 19:57