近年来,以扩散模型为代表的生成式技术凭借其强大的连续数据分布建模能力,为图像地理定位研究开辟了全新路径。由缅因大学、得克萨斯大学、佐治亚大学、马里兰大学、谷歌公司、OpenAI 与哈佛大学组成的联合团队提出了一项创新方法——LocDiff,旨在解决传统模型在地理坐标预测中的根本性缺陷。
研究人员发现,地理坐标本质上位于嵌入式黎曼流形(embedded Riemannian manifold),而非传统的欧几里得空间(Euclidean space)。直接对球面坐标施加噪声会导致严重的投影畸变;同时,原始经纬度缺乏多尺度空间结构信息,难以支撑复杂地理分布的精确建模。这正是以往生成模型在该任务上表现不佳的核心原因。
针对上述挑战,该团队提出了「球面谐波狄拉克函数(Spherical Harmonics Dirac Delta,SHDD)」编码机制,并构建了集成化潜扩散框架 LocDiff。该框架通过适配球面几何特性的编码-解码结构,在无需依赖预设网格或外部图像库的前提下,实现了高精度的地理位置生成,为图像地理定位提供了突破性的技术路线。
相关成果以《LocDiff: Identifying Locations on Earth by Diffusing in the Hilbert Space》为题,已被 NeurIPS 2025 接收。
论文地址:
https://openreview.net/forum?id=ghybX0Qlls
关注公众号,后台回复「LocDiff」获取完整 PDF
更多 AI 前沿论文:
https://hyper.ai/papers
在实验设置方面,研究遵循图像地理定位领域主流基准,基于 GeoCLIP 模型的评估体系进行对比分析。训练阶段采用 MP16 数据集(MediaEval Placing Tasks 2016),包含约 472 万张具有精确地理标注的图像,为模型提供充足的训练样本。
测试阶段则使用三个全球尺度典型数据集:Im2GPS3k、YFCC26k 和 GWS15k。其中,Im2GPS3k 与 YFCC26k 的数据分布与训练集 MP16 较为接近,部分图像可能存在重叠现象。这一特性使得基于检索的方法(如 GeoCLIP)在匹配过程中具备一定优势,有助于提升其定位准确率。
在推理策略上,研究借鉴了 GeoCLIP 与 SimCLR 等主流模型的做法:对每张测试图像生成 16 个增强版本,并将多次采样结果的地理中心作为最终预测位置。实验证明,该策略显著提升了性能。例如,在 Im2GPS3k 上,若取消图像增强与结果平均步骤,GeoCLIP 的 1 公里尺度定位准确率将从 14% 下降至不足 10%。
为全面评估模型在不同空间粒度下的表现,研究设置了五个评估层级:街道级(1 公里)、城市级(25 公里)、区域级(200 公里)、国家级(750 公里)和大陆级(2,500 公里)。通过统计预测位置落入真实坐标的邻域范围内的比例,量化模型在多尺度下的定位能力。
LocDiff 的核心目标是构建一个面向球面位置生成的潜扩散模型。其关键技术在于建立一个能够克服地理数据稀疏性与非线性映射难题的位置编码空间。该目标通过三大组件深度集成实现:基于 SHDD 的编码-解码框架、条件 Siren-UNet(CS-UNet)架构以及高效的计算优化策略。
从数学角度出发,研究首先定义了理想位置编码空间应具备的关键属性:设坐标空间 C 为嵌入三维欧氏空间的单位球面,并以角坐标(θ, φ)参数化;理想的位置编码器 PE 应是从 C 到高维空间 ?^d 的单射函数,确保编码唯一性;而解码器 PD 需是从 ?^d 映射回 C 的满射函数,保障解码完整性。更重要的是,编码空间必须支持连续的距离度量 ? 并实现密集填充,且解码过程需满足稳定性要求——即编码空间中的微小扰动仅引起球面坐标的轻微变化。这两项属性正是突破现有技术瓶颈的核心所在。
为应对现有方法在实现高精度图像地理定位时所面临的挑战,研究者发现传统方案存在两个关键瓶颈:一方面,若采用稀疏特性的位置编码空间,扩散模型难以稳定运行,导致训练过程收敛困难且解码结果精度不足;另一方面,尽管密集的位置嵌入空间(Location Embedding Space)能够支持有效的扩散机制,但其与真实地理坐标之间的高度非线性映射关系,使得从嵌入向量反推准确地理位置的任务变得极为困难——嵌入空间中距离最短的点,并不一定对应球面实际空间中的最近位置。 针对上述问题,SHDD 编码方案被提出并引入该框架。其核心思想在于:将球面上的任意一点(θ?, φ?)首先转换为球面谐波域下的狄拉克函数 δ_(θ?, φ?),随后通过球谐函数展开将其编码为一组系数向量,从而构建出 SHDD 表征。在实际应用中,可通过设定最大阶数 L 将无限维的理论系数向量截断为 (L+1) 维的紧凑表示。随着 L 值增大,所捕获的空间细节越丰富,进而支持多尺度、多层次的定位需求。
SHDD 编码空间(SHDD Encoding Space)具备天然的密集性特征:每个编码点 e 都唯一对应一个球面函数 F?,该函数与真实位置对应的球面谐波狄拉克函数 δ_(θ?, φ?)之间的差异,采用反向 KL 散度进行量化。这一度量方式 ? 构成了研究所需的关键连续性指标。
尤为重要的是,SHDD 中的 KL 散度与 Wasserstein-2 距离之间存在明确的数学约束关系,这从理论上确保了编码空间中的距离变化能忠实反映球面上概率分布的真实差异,为后续解码过程的稳定性提供了坚实保障。
此外,SHDD 有效缓解了传统嵌入方法中存在的非线性失真问题。热图对比实验表明,相较于传统方案,SHDD 所衡量的球面距离变化更为平滑,显著降低了误差在解码过程中逐层传递的风险,提升了最终定位的准确性与鲁棒性。
基于 SHDD 表征的优势特性,研究人员进一步设计了模态搜索解码器以实现高效坐标还原。该解码器利用反向 KL 散度所具有的模态聚焦特性,通过识别球面函数中概率质量最集中的区域来完成地理坐标的反演。其中,超参数 ρ 用于调节解码分辨率与鲁棒性之间的平衡:较大的 ρ 值使结果对局部峰值不敏感,提升稳定性但牺牲一定精度;较小的 ρ 则增强细节还原能力,但也更容易受到噪声干扰。该解码策略采用无参数设计,既避免了额外损失函数的引入,也无需依赖预设的球面划分或外部图像库,突破了传统方法的应用限制。
作为 LocDiff 模型的核心生成网络,CS-UNet 架构以 SirenNet 为基础单元进行构建。选择 SirenNet 的原因在于,球谐函数本质上是正弦与余弦项的叠加组合,而 SirenNet 所使用的正弦激活函数能够更好地维持梯度流动,契合球谐特征传播的需求。CS-UNet 的核心模块 C-Siren 引入了一种高效的条件去噪机制:在接收潜向量 x、图像条件嵌入 e_I 及扩散时间步 t 后,首先将 x 与 e_I 投影至隐藏空间,同时将离散的时间步 t 映射为尺度与偏移向量以执行无条件去噪操作;随后融合图像条件信息与去噪后的特征,输出调整后的结果传递至下一模块,形成完整的条件引导链条。
LocDiff 的训练流程遵循标准 DDPM 框架,使用“图像-球面坐标”作为训练样本对。具体而言,输入图像经由冻结的 CLIP 编码器提取出固定维度的嵌入表示 e_I,对应的地理坐标(θ, φ)则被编码为 SHDD 表征并预先存储。在前向扩散阶段,原始的球面谐波狄拉克函数逐步加入噪声,直至退化为纯高斯噪声;而在反向去噪阶段,CS-UNet 在图像嵌入 e_I 的引导下,逐步从噪声中恢复出原始的 SHDD 系数向量。整个训练过程采用 SHDD KL 散度作为损失函数,相比传统的球面 MSE 损失,该指标数值更稳定,且能有效保留多尺度空间结构信息,有助于模型同时学习全局布局与局部细节。
在推理阶段,模型从随机高斯噪声出发,在输入图像特征的引导下,通过 CS-UNet 逐步生成目标 SHDD 系数向量,最终由模态搜索解码器将其转化为地理坐标(θ, φ)。在工程实现层面,SHDD KL 散度的计算以及模态搜索中的积分运算,均通过在全球范围内随机采样的离散球面锚点集合上的求和操作进行近似处理,以防止模型在训练过程中出现过拟合现象。
为全面评估 LocDiff 的性能表现,实验从**定位精度**、**泛化能力**与**计算效率**三大维度展开。所有测试均严格遵循领域内公认的标准设置,确保与其他方法之间的比较具有公平性和可比性。结果表明,LocDiff 在多数典型场景下均展现出优越性能。| 实验表明,LocDiff 在多数测试场景中展现出卓越性能。为进一步优化其细粒度定位能力,研究人员提出了混合架构 LocDiff-H——通过将 GeoCLIP 的检索范围限定在 LocDiff 预测位置的 200 公里半径内,融合了生成式与检索式方法的优势。 |
|---|
实验结果显示,LocDiff-H 在 Im2GPS3k 和 YFCC26k 数据集上表现优异,但在 GWS15k 上却略逊于原始的 LocDiff 模型,尤其在细粒度尺度下更为明显。这一现象主要归因于 GWS15k 与训练数据之间存在较大的分布差异,导致 GeoCLIP 所依赖的归纳偏置产生负面干扰。
|
在与其他生成式模型的对比中,LocDiff 显示出明显优势。如下表所示,在 OSM-5M 与 YFCC-4k 数据集上的评估结果证实,LocDiff 的性能超越了 DiffR?、FMR? 等现有方法,充分体现了多尺度潜扩散策略的有效性。
LocDiff 与当前主流生成方法的性能对比
对泛化能力的深入分析揭示了生成式方法的核心优势。以 GeoCLIP 为代表的检索类方法高度依赖图库的空间覆盖率:一旦测试数据的地理分布与训练集不一致,其性能便显著下滑;即便采用百万级均匀分布的网格点作为候选位置,其在 200 公里及以上尺度的表现仍远低于使用真实图库的情况,暴露出其在面对未知区域时适应能力的局限性。
相较之下,LocDiff 展现出极强的鲁棒性和泛化能力。如以下表格所示,无论锚点来源于 MP16 图库还是均匀网格点,也不论锚点数量从 2.1 万扩展至 100 万,LocDiff 的定位精度始终保持稳定,进一步验证了该方法在不同配置下的可靠性。
泛化性实验结果汇总
从计算效率角度看,LocDiff 同样具备突出优势。SHDD 编码与解码过程为确定性的闭式运算,时间复杂度接近常数级别,空间复杂度呈线性增长。在训练阶段,SHDD 编码可预先计算并构建为嵌入查找表;解码则通过高效的矩阵乘法结合 argmax 操作完成,极大提升了运行速度。
尤为重要的是,多尺度 SHDD 表征显著加快了扩散过程的收敛速度。实验表明,LocDiff 在 YFCC 数据集上仅需约 200 万步即可收敛,而其他最先进的模型通常需要高达 1,000 万步才能达到相似性能。
LocDiff 中各单元操作的时间效率分析
图像地理定位技术的学术突破与产业应用新进展
作为连接视觉感知与地理空间信息的关键技术,图像地理定位近年来在学术研究和实际应用两个维度均实现了快速演进。
在学术前沿方面,麻省理工学院计算机科学与人工智能实验室(CSAIL)在球面位置编码领域取得关键进展。针对传统方法中存在的非线性映射问题,研究团队提出一种基于流形扩散的新方案,巧妙融合球谐函数与流形学习机制。该方法显著增强了模型在极地、远洋等数据稀疏区域的定位准确性,在 100 公里尺度下的准确率提升达 23%。同时引入的自适应尺度调节机制,有效改善了跨区域场景中的泛化表现。
论文标题:
LocDiffusion: Identifying Locations on Earth by Diffusing in the Spherical Harmonics Dirac Delta Space
论文链接:
https://arxiv.org/abs/2503.18142
与此同时,阿联酋数字大学提出了一种名为「地理思维链」(GeoCoT)的新型推理框架。该框架模拟人类进行地理推断的认知流程,通过多步推理逐步整合上下文语义与空间线索,显著增强大视觉模型的地理定位能力。基于 GeoEval 指标的评测显示,GeoCoT 不仅保持良好的可解释性,更将定位准确率最高提升了 25%。
论文标题:
Geolocation with Real Human Gameplay Data: A Large-Scale Dataset and Human-Like Reasoning Framework
论文链接:
https://arxiv.org/pdf/2502.13759
这些理论创新正迅速转化为现实生产力,驱动产业界的技术升级。例如,在 2023 年 NASA 创业者挑战赛中胜出的 PRISM Intelligence 公司,开发出一款先进的地理空间智能平台。该平台利用辐射场技术将二维遥感影像重构为高保真三维环境,并结合 AI 驱动的语义分割与动态优化算法,实现对地理数据的自然语言交互式查询。
Google Earth 团队也取得了重要突破,他们利用全球海量街景图像训练生成模型,不仅能够根据输入图像精准预测地理位置,还可自动补全因天气、施工等原因缺失的画面内容。这项技术使谷歌地球的街景更新效率提高三倍,并成功拓展至更多偏远及难以抵达的地区。
上述产业实践不仅验证了学术成果的实际价值,更通过真实应用场景的反馈持续反哺理论研究,形成“研以致用、用以促研”的良性循环,推动图像地理定位技术朝着更高精度、更强鲁棒性与更广普惠性的方向不断前行。
参考链接:
1.
PRISM项目是一项利用人工智能技术从地理空间数据中提取深刻洞察的创新性解决方案。该项目通过先进的AI算法处理大量卫星图像和地理信息,帮助科研人员与决策者更高效地理解地球环境的变化趋势。这一技术在气候监测、灾害响应以及资源管理等领域展现出巨大的应用潜力。
作为NASA科学赋能技术重点推介项目之一,PRISM在“企业家挑战赛”中脱颖而出,荣获优胜奖项。该赛事旨在发掘能够推动科学探索和社会发展的前沿科技创业方案。PRISM凭借其强大的数据分析能力和实际应用场景获得了评审的高度认可。
与此同时,PRISM也参与了Google AI全球竞赛,并被列为精选项目之一。在Google AI的支持平台上,该项目展示了其如何结合深度学习模型与多源遥感数据,实现对地表变化的自动化识别与预测。这种跨机构的认可表明,PRISM正在成为地理智能领域的重要力量。
通过整合来自不同传感器的数据流,PRISM系统能够生成高精度的地图信息,并实时更新动态变化情况。例如,在森林砍伐监测或城市扩张分析中,系统可在数小时内完成传统方法需要数周才能完成的任务。这不仅提升了研究效率,也为应急响应争取了宝贵时间。
未来,随着AI模型的持续优化和计算资源的不断增强,PRISM有望扩展至更多应用场景,包括农业估产、冰川退缩追踪以及海岸线变迁评估等。其开源架构设计也鼓励开发者社区共同参与改进,推动地理空间智能技术的普惠化发展。


雷达卡


京公网安备 11010802022788号







