一、数据集核心定位:Cityscapes验证集的视频场景扩展
Cityscapes-VPS是Cityscapes数据集验证集的专属视频扩展数据集,核心解决原数据集“静态图像标签难适配视频分割任务”的痛点。
通过新增2500帧全景标签(panoptic label),将Cityscapes原有的500个图像全景标签总量提升至3000个,填补视频动态场景下全景分割数据的缺口,为视频类分割模型提供更贴近真实应用的训练与评估基准。
二、核心数据细节:500个视频+动态实例ID
数据集标注严格对应视频关键帧,且包含动态属性,具体信息如下:
视频与帧对应:标签覆盖500个视频,每个视频仅标注第5、10、15、20、25、30帧,聚焦视频中目标变化的关键节点;
实例ID特性:所有标注的实例ID随时间动态变化,还原真实视频中“目标移动、遮挡、出现/消失”的场景,提升数据对动态分割任务的适配性。
三、支持任务范围:覆盖3类视频分割需求
数据集不仅聚焦核心任务,还提供超集标注,减少额外数据补充成本:
核心任务:直接支持视频全景分割(VPS),满足“语义+实例”统一分割的需求;
扩展任务:提供视频语义分割(VSS)、视频实例分割(VIS) 的super-set标注(超集标注),即一套数据可同时用于三类任务的模型训练与性能测试,无需单独获取多套数据集。
四、权威获取与使用场景
1. 核心获取途径
优先通过Cityscapes官方数据集平台下载,进入“Extensions”板块选择“Cityscapes-VPS”,支持按任务需求下载标签子集(如仅VPS标签、含VSS/VIS标签),格式适配主流深度学习框架(如PyTorch、TensorFlow)。
2. 典型使用场景
模型开发:用于训练视频分割模型(如动态目标跟踪+分割融合模型),优化视频中实例ID一致性处理;
学术研究:支撑“视频全景分割算法对比”“动态实例ID匹配策略”等课题,提供标准化数据验证;
行业应用:适配自动驾驶、智能监控等领域的视频分割需求(如道路场景中车辆、行人的动态分割)。


雷达卡


京公网安备 11010802022788号







