VisualOverload 是一个场景图像理解评测数据集,旨在考察模型在不依赖外部知识的情况下,对复杂场景中细节的视觉理解与推理能力。
该数据集包含 2,720 条问答对,由公共领域的高分辨率画作构成,这些画作往往包含多个人物、动作、子情节以及复杂的背景。问题均为人工设计,用以全面检验模型对场景的理解。该数据集适用于视觉问答研究、细节级图像理解与推理、以及多人物/多元素复杂场景的评测。
|
楼主: Lyon0898
|
39
0
VisualOverload 场景图像理解数据集 |
|
已卖:4891份资源 院士 39%
-
|
| ||
|
|
jg-xs1京ICP备16021002号-2 京B2-20170662号
京公网安备 11010802022788号
论坛法律顾问:王进律师
知识产权保护声明
免责及隐私声明


