人大经济论坛 › 论坛 › 计量经济学与统计论坛五区 › 计量经济学与统计软件 › HiProbe-VAD：通过在免微调多模态大语言模型中探测隐状态 ...

发帖

楼主: Ethel_Meng

513 0

[其他] HiProbe-VAD：通过在免微调多模态大语言模型中探测隐状态实现视频异常检测 [推广有奖]

0关注
0粉丝

学前班

40%

还不是VIP/贵宾

威望: 0 级
论坛币: 10 个
通用积分: 0
学术水平: 0 点
热心指数: 0 点
信用等级: 0 点
经验: 20 点
帖子: 1
精华: 0
在线时间: 0 小时
注册时间: 2018-9-5
最后登录: 2018-9-5

楼主

Ethel_Meng 发表于 2025-11-21 14:18:56 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

HiProbe-VAD：基于多模态大语言模型隐状态探测的免微调视频异常检测

ACM MM’25
新疆大学；西安交通大学

摘要

视频异常检测（Video Anomaly Detection, VAD）致力于识别并定位视频中偏离常规行为模式的异常事件。传统方法通常依赖大量标注数据，且计算成本高昂，限制了其在实际场景中的广泛应用。为此，本文提出 HiProbe-VAD——一种无需微调、基于预训练多模态大语言模型（MLLMs）的新型 VAD 框架。

我们首次发现，MLLMs 的中间层隐状态相较于最终输出层，在表征上展现出更强的异常敏感性与线性可分性，蕴含更丰富的判别信息。为有效挖掘这一特性，我们设计了动态层显著性探测机制（Dynamic Layer Saliency Probing, DLSP），可在推理过程中自适应地识别并提取最具判别力的中间层隐状态。随后，通过一个轻量级异常评分器与时间定位模块对这些特征进行处理，实现高效异常检测与可解释性分析。

在 UCF-Crime 和 XD-Violence 数据集上的实验结果表明，HiProbe-VAD 不仅优于现有的免训练方法，也超越多数传统监督方法。同时，该框架在多种不同架构的 MLLMs 上均表现出优异的跨模型泛化能力，无需任何参数更新即可部署，充分释放了预训练模型在视频理解任务中的潜力，推动了低资源、高实用性异常检测系统的发展。

CCS Concepts

计算视觉 → 视频分析
人工智能 → 多模态学习
机器学习 → 零样本学习
信息系统 → 异常检测

关键词

视频异常检测；多模态大语言模型；中间层分析；免微调；隐状态探测；可解释性

1 引言

随着监控设备的普及，自动化的视频异常检测成为智能安防、工业监控等领域的关键技术。然而，由于异常事件具有稀疏性、多样性与不可预测性，构建高效的 VAD 系统仍面临巨大挑战。现有方法大多依赖大规模标注数据和复杂的端到端训练流程，导致模型迁移困难、部署成本高。

近年来，多模态大语言模型（MLLMs）在图文理解、视频问答等任务中展现出强大的零样本推理能力。这启发我们探索其在无需微调的前提下用于视频异常检测的可能性。不同于以往仅利用 MLLMs 输出语义信息的做法，本文深入挖掘其内部结构，揭示出中间层隐状态中存在显著的信息富集现象，尤其对异常模式具有天然的敏感性。

基于此洞察，我们提出 HiProbe-VAD，一种全新的 training-free VAD 框架。该方法不修改 MLLM 参数，而是通过探测最优中间层的隐状态，并结合轻量级评分模块完成异常判断与时间定位，兼具高性能与低部署门槛。

2 相关工作

2.1 传统视频异常检测

早期的 VAD 方法主要基于手工特征（如光流、HOG）建模正常行为模式，通过重建误差或概率估计判断异常。随后，深度学习方法兴起，采用自编码器、生成对抗网络或记忆模块来学习正常样本分布。尽管性能有所提升，但这些方法通常需要全监督或弱监督训练，泛化能力有限，且难以应对复杂语义场景。

2.2 基于 LLMs 和 MLLMs 的视频异常检测

随着大模型的发展，研究者开始尝试将 LLMs 或 MLLMs 应用于视频理解任务。部分工作通过提示工程（prompting）引导模型输出“是否异常”的判断，但往往停留在语义层面，缺乏细粒度定位能力。也有方法尝试将视频帧输入 MLLM 并解析文本回答，但由于缺乏对内部表征的深入分析，未能充分发挥模型潜力。

2.3 LLM 中间层分析

已有研究表明，LLMs 的中间层在网络功能划分中扮演关键角色，例如句法处理、事实记忆提取等。一些探针研究（probing studies）证实，特定语义信息在某些中间层达到峰值表达。受此启发，我们系统性地分析 MLLMs 在视频输入下的中间层动态响应，探索其对异常信号的内在敏感机制。

3 面向视频异常检测的信息富集现象

3.1 探索 MLLMs 的中间层表征

3.1.1 面向 VAD 的统计量化分析

为了验证中间层是否具备更强的异常判别能力，我们引入三种量化指标：

基于 KL 散度的异常敏感性（Anomaly Sensitivity via KL Divergence）：衡量正常与异常样本在某一层隐空间分布之间的差异程度。KL 散度越大，表示该层对异常越敏感。
基于局部判别率（Local Discriminant Ratio, LDR）的类别可分性：计算每个样本邻域内同类与异类距离比值，评估该层特征的线性可分性。
基于特征熵的信息集中度（Information Concentration via Feature Entropy）[2]：量化特征激活的稀疏性与信息集中趋势，低熵意味着关键信息被有效压缩于少数神经元中。

3.1.2 隐状态可分性验证（Hidden States Separability Validation）

我们进一步对多个 MLLMs（如 Qwen-VL、LLaVA、InternVL）的不同层进行 t-SNE 可视化与线性分类器测试。结果显示，正常与异常样本在中间层（特别是中段偏后层）呈现出更清晰的聚类边界，而在输出层反而出现混叠现象，表明中间层更适合直接用于异常检测。

3.2 发现：MLLM 中的中间层信息富集现象（Finding: Intermediate Layer Information-rich Phenomenon in MLLMs）

综合上述分析，我们首次观察到：在处理视频输入时，MLLM 的中间层隐状态表现出显著的信息富集特性——即对异常事件具有更高的敏感性、更好的类别可分性以及更紧凑的信息编码方式。这一现象为构建免微调 VAD 提供了理论基础。

4 HiProbe-VAD：通过隐状态探测实现免微调视频异常检测

4.1 基于 MLLMs 隐状态的准备工作

4.1.1 动态层显著性探测（Dynamic Layer Saliency Probing, DLSP）

由于不同视频内容可能导致最优探测层发生变化，我们提出 DLSP 机制。该方法在推理阶段实时计算各层的显著性得分（融合 KL 散度与 LDR），动态选择响应最强的中间层作为目标层，确保每次都能获取最具判别性的隐状态。

4.1.2 轻量级异常评分器训练（Lightweight Anomaly Scorer Training）

为避免整体微调带来的高成本，我们仅训练一个极简的两层感知机作为异常评分器。训练数据仅使用少量正常视频片段（无异常标注），目标是使模型学会区分正常与非正常模式。该模块参数量小，可在边缘设备快速部署。

4.2 HiProbe-VAD 中的推理：帧级处理与可解释性分析

4.2.1 帧级异常评分（Frame-Level Anomaly Scoring）

对于每帧视频输入，经过 MLLM 编码后，DLSP 模块选取最优中间层隐状态，送入已训练好的轻量评分器，输出一个连续的异常置信度分数。

4.2.2 时间异常定位（Temporal Anomaly Localization）

将所有帧的异常分数沿时间轴拼接，形成完整的异常轨迹曲线。通过滑动窗口平滑与阈值分割，精确定位异常发生的时间区间。

4.2.3 基于 MLLMs 的可解释异常检测（Explainable VAD via MLLMs）

得益于 MLLMs 的生成能力，系统可同步生成自然语言描述，解释为何判定某段视频为异常，例如：“画面中两人突然推搡，不符合公共场所常规行为”，从而增强决策透明度。

5 实验

5.1 实验设置（Experimental Setup）

5.1.1 数据集（Datasets）

我们在两个主流 VAD 数据集上进行评估：UCF-Crime（包含13类真实监控场景中的非常规行为）和 XD-Violence（聚焦暴力事件检测）。所有实验均采用标准划分协议。

5.1.2 评估指标（Evaluation Metrics）

采用帧级 AUC、ROC 曲线下面积、EER（Equal Error Rate）及 mAP 作为主要评价指标，兼顾检测精度与定位能力。

5.1.3 实现细节（Implementation Details）

选用 Qwen-VL-Chat、LLaVA-1.5、InternVL-Chat 作为主干 MLLMs，统一采样 8 帧/秒，输入尺寸 224×224。轻量评分器使用 AdamW 优化器训练 10 个 epoch，学习率设为 1e-4。

5.2 性能与对比（Performance and Comparisons）

5.2.1 与最新方法的对比（Comparison with State-of-the-arts）

如表1所示，HiProbe-VAD 在 UCF-Crime 上达到 86.7% AUC，超过所有免训练方法至少 7.2%，并优于多数传统监督模型。在 XD-Violence 上亦取得 91.3% AUC，表现稳健。

5.2.2 跨模型泛化能力（Cross-Model Generalization）

在同一评分器下，HiProbe-VAD 在三种不同 MLLMs 上均取得一致优异性能，说明其不依赖特定模型结构，具备良好通用性。

5.2.3 零样本泛化能力（Zero-shot Generalization Capability）

在未见类别（如新类型破坏行为）上测试时，系统仍能准确识别异常，体现出 MLLMs 强大的语义泛化能力。

5.2.4 定性结果（Qualitative Results）

可视化结果显示，异常分数曲线与真实事件高度吻合，且生成的解释语句语义合理、指向明确。

5.3 消融实验

5.3.1 动态层显著性探测（DLSP）的有效性

固定使用输出层或随机中间层会导致性能下降约 5–9%，证明 DLSP 对性能提升至关重要。

5.3.2 轻量级异常评分器的影响

移除评分器直接使用原始特征距离判断，AUC 下降 6.8%，说明轻量模块虽小但不可或缺。

5.3.3 时间定位模块的贡献

加入时间平滑与阈值优化后，mAP 提升 4.1%，有效减少误报与抖动。

5.3.4 关键帧采样率的影响

采样率从 4fps 提升至 8fps 显著改善性能，继续增加至 16fps 收益递减，建议平衡效率与精度。

6 结论

本文首次揭示了 MLLMs 在视频理解任务中存在的中间层信息富集现象，即中间隐状态对异常具有天然的高敏感性与可分性。基于此，我们提出了 HiProbe-VAD——一种无需微调的视频异常检测框架，通过动态层显著性探测机制精准捕获最优隐状态，并结合轻量评分器实现高效检测。

实验验证了该方法在多个基准上的优越性能及其出色的跨模型与零样本泛化能力。本工作不仅为 VAD 提供了一条低成本、易部署的新路径，也为进一步探索大模型内部工作机制提供了新的视角。

近年来，多模态大语言模型（Multimodal Large Language Models, MLLMs）[25, 55, 57, 73] 的兴起为各类视觉任务开辟了新的研究路径。MLLMs 具备强大的跨模态理解与推理能力，能够协同处理图像与文本信息，从而在视频异常检测（Video Anomaly Detection, VAD）等复杂任务中展现出巨大潜力 [8, 71]。尽管已有工作尝试通过微调或提示工程将这些模型应用于特定异常检测场景 [36, 68, 69]，但普遍面临两大瓶颈：其一，需在目标 VAD 数据集上进行特定任务的参数微调，计算成本高昂且依赖大量标注数据；其二，过度依赖由视觉输入生成的文本描述作为判断依据，容易在推理过程中丢失关键视觉细节，导致对视频内容的理解不完整甚至出现偏差。

自然语言处理领域的研究表明，大语言模型的中间层（intermediate layers）通常蕴含比最终输出层更丰富、更具迁移性的语义表征 [6, 10, 35]。这些中间层已被证实能在多种下游任务中实现更优性能 [39, 40]，反映出其对输入信号更深层次的理解能力 [1, 34]。受此启发，我们推测：多模态大语言模型中的中间隐状态同样可能封装了高度结构化的视觉语义信息，甚至在未经任何异常检测任务微调的情况下，也具备区分正常与异常行为的潜在能力。这一假设促使我们探索一种无需微调、直接利用预训练 MLLM 内部表征的新范式，以应对当前 VAD 方法对数据和计算资源的高度依赖问题。

视频异常检测旨在识别并定位视频流中偏离常规模式的行为或事件，在视频监控 [41]、工业质检 [38] 和自动驾驶 [4, 61] 等关键领域具有重要应用价值。现有基于深度学习的方法主要分为三类：监督学习 [19, 26] 虽精度较高，但依赖昂贵的帧级标注；弱监督方法 [11, 16, 31] 使用视频级标签减轻标注压力，却常牺牲检测细粒度或整体性能；无监督方法 [27, 29, 46] 通过建模正常模式来识别异常，但仍需大量数据用于预训练，部署灵活性受限（见 Fig. 1）。上述局限表明，亟需一种低数据依赖、高效率且可扩展的新型 VAD 解决方案。

本文首次系统分析了多模态大语言模型内部中间层的信息分布特性，并揭示了一项关键现象：相较于最终输出层，MLLM 的中间隐状态在异常识别方面表现出更强的敏感性与线性可分性。我们将这一发现命名为中间层信息富集现象（Intermediate Layer Information-rich Phenomenon）。基于此，我们提出了一种全新的免微调视频异常检测框架——隐状态探测框架（Hidden-state Probing for Video Anomaly Detection, HiProbe-VAD）。

HiProbe-VAD 引入动态层显著性探测模块（Dynamic Layer Saliency Probing, DLSP），可在单次前向传播中从 MLLM 的多个中间层提取隐状态，并自动筛选最具判别力的层级。随后，一个轻量级逻辑回归异常评分器结合时间定位机制，实现高效异常判定与精确时序定位。为进一步提升结果的可解释性，框架还设计了自回归文本生成模块，将检测出的异常帧与正常帧输入模型，生成关于异常事件的详细自然语言描述。

我们在两个广泛使用的基准数据集 UCF-Crime [41] 和 XD-Violence [52] 上进行了全面实验。这两个数据集涵盖多样化的现实场景，为评估 VAD 方法提供了可靠的测试环境。实验结果充分验证了 HiProbe-VAD 在无需微调的前提下仍能取得优异性能。

本文的主要贡献包括：

首次对 MLLMs 中“中间层信息富集现象”在视频异常检测任务中的作用进行了系统量化分析。
验证了中间隐状态在异常敏感性和类别可分性方面优于传统输出层表示，挑战了主流仅依赖输出层的设计思路。
提出了 HiProbe-VAD 框架，开创性地利用预训练 MLLM 的中间层信息实现免微调异常检测。
该框架无需更新 MLLM 参数，仅需少量粗粒度标签即可训练轻量级评分模块，显著降低部署门槛。

实验结果显示，HiProbe-VAD 在与当前最先进的免训练、无监督及自监督视频异常检测（VAD）方法对比时，展现出具备竞争力的性能表现。

该框架在多种多模态大型语言模型（MLLM）架构中均表现出优异的跨模型泛化能力，验证了其鲁棒性与广泛适应性。