为图像地理定位找到更快、更小的AI模型
想象一下,你正在玩一款稍作改动的 “地理猜谜”(GeoGuessr)游戏。屏幕上是一栋普通的住宅,可能是两层结构,前院带草坪,位于死胡同里,门前骄傲地飘扬着国旗。但这栋房子并无特别之处,没有任何线索能让你判断它所在的地区或房主的住址。
你手头有两个工具:自己的大脑,以及 44416 张美国各地随机地点的低分辨率鸟瞰图及其相关位置数据。你能将房子与航拍图像相匹配并正确定位吗?
我肯定做不到,但一款全新的机器学习模型或许可以。这款软件由中国石油大学(华东)的研究人员研发,能在含位置信息的遥感图像数据库中检索,将街景图像(无论是住宅、商业建筑还是任何可从道路拍摄的物体)与数据库中的航空图像进行匹配。尽管其他系统也能实现类似功能,但这款模型体积小巧,且精度极高。
在最佳条件下(面对 180 度视野的图像时),它在定位筛选的第一阶段准确率高达 97%,优于或仅比所有可比模型低两个百分点。即便在非理想条件下,其表现也超过了许多竞争对手。在精确定位时,准确率达到 82%,与其他模型的差距不超过三个百分点。
但这款模型的创新之处在于其速度和内存占用优势。研究人员表示,它的运行速度至少是同类模型的两倍,内存占用却不足后者的三分之一。这种特性使其在导航系统和国防工业中具有重要应用价值。
“我们训练 AI 忽略视角上的表面差异,专注于从两种视图中提取相同的‘关键地标’,并将其转化为一种简单的共享编码。” 中国石油大学从事机器学习和信号处理算法研究的任鹏解释道。
核心技术:深度跨视图哈希法
该软件依赖一种名为 “深度跨视图哈希法” 的技术。它并非将街景图像的每个像素与海量鸟瞰图数据库中的每幅图像逐一比对,而是通过哈希处理,将街景图和航空图等数据转化为该数据独有的数字字符串。
为实现这一目标,该研究团队采用了一种名为 “视觉 Transformer” 的深度学习模型。这种模型会将图像分割成小单元,然后寻找这些单元之间的模式。模型会识别出训练中习得的目标,如高楼、圆形喷泉或环岛,再将识别结果编码为数字字符串。ChatGPT 采用的是类似架构,但它是从文本中寻找模式而非图像(GPT 中的 “T” 即代表 “Transformer”)。
“每张图像对应的数字串就像指纹一样。” 堪培拉澳大利亚国立大学研究计算机视觉的李洪东表示,这种数字编码捕捉了每张图像的独特特征,能让地理定位过程快速缩小可能的匹配范围。
在这套新系统中,街景图像对应的编码会与数据库中所有航空图像的编码进行比对(测试中,团队使用了美国和澳大利亚的卫星图像),筛选出五个最接近的航空图像候选。研究人员通过一种加权平均技术处理这些候选图像的地理数据 —— 对位置更接近的候选赋予更高权重,以减少异常值的影响,最终得出街景图像的估计位置。
这项新型地理定位机制已于上个月发表在 IEEE Transactions on Geoscience and Remote Sensing 上。
快速且节省内存
“尽管并非全新范式,但这篇论文代表了该领域的显著进步。” 李洪东说。不过,由于该问题此前已有解决方案,部分专家如圣路易斯华盛顿大学的计算机科学家 Nathan Jacobs,对此并不太感兴趣。“我不认为这是一篇特别具有突破性的论文。” 他表示。
但李洪东不同意这一观点 —— 他认为,该方法创新性地利用哈希技术,使图像匹配比传统技术更快、更节省内存。它仅占用 35 MB内存,而任鹏团队测试的第二小模型需要 104 MB,约为其三倍。
研究人员称,该方法的速度是第二快模型的两倍多。在将街景图像与美国航空摄影数据集匹配时,第二名模型的匹配时间约为 0.005 秒,而中国石油大学团队的模型仅需约 0.0013 秒,速度接近前者的四倍。
“因此,我们的方法比传统图像地理定位技术更高效。” 任鹏说,李洪东也证实了这些说法的可信度。哈希法 “是实现快速和紧凑性的成熟途径,报告的结果与理论预期一致”。
尽管这些效率优势前景广阔,但李洪东表示,仍需进一步研究以确保该方法能大规模应用。该团队尚未充分研究季节变化、云层遮挡图像等现实挑战,这些因素可能影响地理定位匹配的稳健性。任鹏表示,未来可通过引入更多分布广泛的图像来克服这一局限。
尽管如此,专家们认为,现在就值得考虑其长期应用。
Jacobs表示,高效图像地理定位有一些实用场景,比如为旧家庭照片自动添加地理标签。但在更严肃的领域,导航系统也可利用此类地理定位方法。他说,如果自动驾驶汽车的 GPS 失效,另一种快速精确的定位方式可能会发挥重要作用。李洪东还建议,未来五年内,它可能在应急响应中发挥作用。
该技术在国防系统中也可能有应用。美国国家情报局局长办公室 2011 年启动的 “Finder” 项目,旨在帮助情报分析师利用航空图像等参考数据,在没有元数据的情况下获取照片的尽可能多信息 —— 这一目标可通过类似这款新型地理定位模型的技术实现。







评论