楼主: 圆子酒酿
111 0

[作业] 【复旦-NIPS25】Seg2Any:让分割掩码“一键变图像”的开放式生成新框架 [推广有奖]

  • 0关注
  • 0粉丝

等待验证会员

学前班

80%

还不是VIP/贵宾

-

威望
0
论坛币
0 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
30 点
帖子
2
精华
0
在线时间
0 小时
注册时间
2018-10-23
最后登录
2018-10-23

楼主
圆子酒酿 发表于 2025-12-3 17:06:44 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

一、研究背景

尽管文本到图像(T2I)生成技术已取得显著进展,但在实际应用中仍存在明显局限:

  • 难以精确控制图像的结构与空间布局
  • 物体位置无法准确定位
  • 属性易发生混淆,如颜色或纹理在不同对象间“串台”
  • 无法对任意复杂形状进行精细操控

为应对上述问题,研究者提出了S2I范式——即通过“掩码+文本”联合驱动图像生成。然而,现有方法普遍存在两大挑战:

  • 语义错位:文本描述与指定区域不匹配
  • 形状变形:输入的mask在latent空间中被压缩失真

二、核心方法:Seg2Any

Seg2Any引入语义-形状解耦机制属性隔离策略,实现以下目标:

准确理解语义内容,忠实还原mask形状,并杜绝属性干扰。

1. 语义与形状分离注入

Semantic Alignment Mask:确保每个文本描述仅作用于对应的图像区域,避免跨区域误响应。

Entity Contour Map:仅使用边缘轮廓作为形状引导信号,剔除潜在语义信息,纯粹保留几何结构特征。

2. 属性隔离注意力机制(Attribute Isolation Attention Mask)

针对常见的属性泄漏问题(如一个物体的颜色扩散至另一个),该模块限制每个实体只能关注属于自己的token。

未启用隔离时,颜色和纹理容易跨区域传播;而加入该机制后,生成结果显著更清晰、独立。

3. 轻量化可训练策略

基于先进的FLUX MM-DiT架构,采用LoRA微调方式,大幅降低计算开销。

同时,condition token具备自动过滤能力,有效减少显存占用,提升推理效率。

三、实验表现

评估涵盖多种设定:

  • 开放式S2I任务(SACap-Eval)
  • 封闭式S2I任务(COCO-Stuff / ADE20K)
  • 与8种主流方法进行全面对比

SACap-Eval(开放集)性能对比

方法 MIoU↑ Spatial↑ Color↑
FreestyleNet 74.59 42.34 40.08
PLACE 84.30 79.05 49.40
Seg2Any 94.90 93.89 91.52

→ Seg2Any几乎逼近真实图像上限(96.03),表现卓越。

COCO-Stuff 与 ADE20K 结果

在标准数据集上,Seg2Any同时实现了:

  • 最高的MIoU得分
  • FID指标接近基模型训练水平,说明生成质量高且多样性良好

四、优势与局限性分析

主要优势

  • 实现对形状与语义的双重精准控制
  • 无需预定义类别标签,支持任意物体生成
  • 属性隔离机制保障输出干净无串扰
  • 兼容FLUX等前沿DiT架构,具备良好扩展性
  • 支持涂鸦式(Scribble-style)灵活输入,交互友好

当前局限

  • 当输入mask数量较多时,资源消耗随之上升
  • 依赖视觉语言模型(VLM)自动生成caption,偶尔引入噪声
  • 暂不支持视频或多视角3D场景生成

五、总结

Seg2Any将“分割掩码”真正转化为图像生成的语言工具——从宏观形状到微观属性,皆可实现精细化控制。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Any 开放式 SEG IPS condition

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2026-2-7 09:31