独立研究者与Maptek公司携手打造：AI真的会"看地图"吗？

这项由独立研究者与澳大利亚矿业技术公司Maptek联合开展的研究，发表于2026年ICLR（国际学习表征会议）高效空间推理研讨会，论文编号为arXiv:2604.09594，提交时间为2026年3月5日。有兴趣深入了解的读者可以通过该编号在arXiv平台查询完整论文。

你可能觉得，那些能写代码、会解数学题、还能聊天的大型AI模型，应该也擅长空间感这类事情吧？毕竟它们处理过海量图像和文字，理解三维空间对它们来说应该不在话下。然而，当研究团队设计了一套真正考验"空间直觉"的题目之后，三款当前最顶尖的AI模型——Claude Sonnet 4.5、Gemini 3 Pro Preview和GPT-5.2——的表现让人大跌眼镜。最好的成绩也不过刚刚超过一半的正确率，而且越往深处考，越接近零分。

这套考试叫做SCBench，也就是空间能力基准测试（Spatial Competence Benchmark）。它不是那种"这两个形状哪个更大"的选择题，而是要求AI直接输出可运行的坐标、边集合或操作序列，然后由程序自动判卷——没有模糊地带，答案对就是对，错就是错。这份考卷的诞生，是因为研究者发现：现有的AI空间测试太表面了，只考了皮毛，没有触及真正的空间推理核心。

一、为什么AI的"空间感"很难测？

要理解这份考卷有多特别，先得搞清楚"空间能力"究竟是什么。

把空间能力想象成一个人在脑子里搭乐高的本事。不是看着说明书照搬，而是要在脑海里构建一个环境的完整模型，然后用这个模型来推断规律、做出决策。比如，一个经验丰富的仓库管理员能在脑海中规划出最高效的货物摆放方式；一位外科医生能在操刀前就在脑中完整模拟手术路径；一个下棋高手能提前预见十几步的棋局变化。这种能力的核心是两点：一是维持一个连贯的内部模型，二是用这个模型在约束条件下推理和规划。

现有的AI空间测试大多停留在表面。它们通常是选择题或问答题，比如"这个物体旋转90度后是什么样子"，或者"图中哪个物体更靠近镜头"。这类题目考的是感知和识别，但真正的空间推理需要的是构建、验证和在约束下求解——就像考试的区别在于，一种是认出乐高零件叫什么名字，另一种是把它们真正拼成指定的形状。

SCBench的设计思路从根本上不同。每道题都要求AI输出一个可执行的答案——具体的坐标、完整的路径序列、精确的几何结构——然后由程序直接运行这个答案，检验它是否满足所有条件。这就好比不是问厨师"你会做红烧肉吗"，而是直接让他做出来，端上桌验收。

二、三关大考：从识字到写作文

SCBench把空间能力分成了三个层次，研究团队把它们叫做"能力阶梯"，就像武术的初、中、高段位。

第一个层次叫做公理推断，考的是从规则出发推导出精确结构的能力。这类题目就像数学里的逻辑推理：给定一组条件，推断出必然成立的结论。其中一道题是这样的——把一个正方形的四个角分别标上数字（代表不同的"类别"），根据这些标记，枚举出哪些边上一定存在类别分界线。另一道题更复杂：给你一棵描述"递归二分"的树（想象把一个正方形不断对折，每次沿不同的轴），然后指出某个目标小格子的所有邻居是哪些。这些题目看起来像纸上的数学游戏，但要做对，AI必须在脑中构建出完整的拓扑结构，而不是靠记忆或猜测。

第二个层次叫做构造合成，要求AI输出满足全局约束的几何对象。这就像不只是说"我知道怎么搭桥"，而是要真的给出一份能通过工程检验的设计图。这里有一道极有代表性的题：在一个三维网格空间里摆放一批体素（可以理解成三维版本的像素，每个是一个小立方体），要求无论从正面、侧面还是顶面看，投影都完全填满，同时整个结构不能有任何旋转对称性。这两个条件单独来看都容易满足，合在一起就非常棘手，因为一旦你为了填满投影而添加体素，往往就不小心制造出了对称性，反之亦然。还有一道题要求用标准乐高积木拼出半球形壳体，不仅要近似球形，积木之间还必须真正能咬合，不能悬空，整体不能倒塌——这道题所有模型的得分都是零，堪称全场最难的题目。

第三个层次叫做规划，也是最高难度。这类题目需要设计一个多步骤的操作序列，而且每一步都会改变环境状态，影响下一步的可行选项。判分不看过程，只看最终模拟结果。其中最直观的一道题是"流体模拟"：给你一个三维体素世界，初始是一片平坦的岩石地面，要求你通过添加或删除岩石，使得从上方降雨后，水会积成特定形状的湖泊。例如，要求形成三个在不同高度的独立水体，或者形成一个环形湖泊（中间有一块高地是干燥的）。还有一道题叫"地形爆破"：给你一张起伏的地形高度图，通过规划一系列爆破操作，让岩石碎裂滚动后，形成尽可能大的平整区域用于建城——而且爆破后的岩石去向由物理引擎（PyBullet）模拟，AI无法预先查询，必须凭空间直觉预判。这道题所有模型全部得零分。

三、顶尖AI的成绩单：越往上越惨

测试结果非常清晰地呈现出一条下降曲线，仿佛三个学生同时参加了从初中到博士的连续考试。

在公理推断这一关，Gemini 3 Pro Preview得了81.3分（满分100），GPT-5.2得了74.7分，Claude Sonnet 4.5得了49.3分。这个成绩算是及格，说明这几款模型对基础的拓扑和几何规则有一定理解。

到了构造合成这一关，三款模型的分数都大幅滑落。Claude跌至30.2，Gemini和GPT-5.2分别是51.4和51.9——也就是说，连最好的模型也只答对了大约一半。在具体题目上，差异更为悬殊。乐高半球题三款模型全部得零，最难的"最大可3D打印质数"题也是全部得零。相比之下，"隐藏与寻找"题（把一群人藏在建筑物后让狙击手看不见）和"矩形打包"题中，部分模型还能拿到相当高分，说明问题结构比较规整时，模型的表现就会好很多。

规划这一关，Claude只得到27.5，Gemini得39，GPT-5.2得50。流体模拟中的几道较简单的题（比如只需要挖一个盆地截住水流）各模型还能拿到不错的分数，其中GPT-5.2在这道题上甚至得满分。但地形爆破题，没有任何模型能得分，因为这道题要求模型预判物理模拟的结果，而这是目前AI完全无法凭语言推理完成的任务。

综合下来，Gemini和GPT-5.2总分并列，都是57.6分，Claude只有34.9分。三款模型的成绩都遵循同一个规律：公理推断最好，构造合成次之，规划最差。这个规律不是某款模型的特有弱点，而是所有模型共同面对的能力上限。

四、给AI配上工具，会好一些吗？

研究团队还做了一组对比实验：给这三款模型配上工具——具体来说是Python代码解释器和网络搜索。有了这些工具，模型可以真正运行代码来做计算，而不只是靠推理。

结论是：工具有帮助，但帮助是有条件的。

在构造合成这一关，工具的帮助最明显。Claude提升4.3个百分点，Gemini提升12.3个百分点，GPT-5.2提升15个百分点。原因很直观：这类题目需要大量坐标计算，有了代码执行能力，模型可以把繁琐的数值运算交给程序，把注意力集中在逻辑架构上。其中最典型的是德劳内三角剖分题（Delaunay Triangulation，一种将点集连成三角网格的经典算法），加了工具之后，Claude提升56个百分点，GPT-5.2提升48个百分点——因为只需要调用一个现成的几何库函数，就能绕过模型自己完全掌握不了的外接圆推理。

然而，工具在公理推断这一关反而带来了轻微的负面效果。Gemini下降6.7个百分点，GPT-5.2下降4个百分点。研究团队的解读是：对于这类题目，模型本来凭推理就能处理，引入工具反而分散了注意力，打乱了推理节奏。

规划这一关，工具的效果最不稳定。Gemini因为"超级贪吃蛇"这道题（在多维网格里规划蛇的路径）大幅提升了59.3个百分点，总规划分数上涨23.6个百分点。但Claude和GPT-5.2在这一关加了工具反而略有下降。这说明工具能不能帮上忙，取决于问题是否能被分解成可编程的子任务，一旦问题的核心是预判物理后果或设计全局策略，工具就帮不上忙。

五、越想越多，反而越错——计算资源的边际递减

研究团队还做了一项有趣的实验：如果给模型更多的"思考空间"（也就是更多的输出token预算），分数会持续提升吗？

结果是：不会。

实验只在公理推断题目上进行，因为这类题目规模小，便于隔离变量。GPT-5.2的测试预算从1024个token一路增加到65536个token。在低预算阶段，每增加预算，分数提升都很显著——从0.04一路攀升到0.76。但超过32768个token之后，分数不再增长，甚至略微下滑到0.73。Claude Sonnet 4.5的走势类似，在32768个token处达到0.55的顶点，之后再增加预算，分数维持不变。

更有意思的是，相比GPT-5.2，Claude在每个预算档位上消耗的token更多，但得分始终更低。这说明"更努力地想"并不等于"想得更好"——如果推理方法本身有问题，再多的计算资源也是白费。这就像一个方向错了的人走路，走得越快，离目的地越远，而不是越近。

六、AI到底是在哪里出了问题？

光知道分数还不够，研究团队想搞清楚AI为什么失败。他们对所有得分低于0.6的答案进行了事后诊断，让另一款AI充当独立评审，对每一个失败案例贴上一个标签，共有五种：拒绝任务（直接不答或给出空白）、偷换概念（悄悄把难题简化成另一道题来做）、思维过载（写了一大堆推理过程但始终没有给出答案）、局部正确（局部逻辑无误但整体不满足全局约束）、差点成功（答案几乎全对，只有一个细节出错）。

在三款模型中，局部正确是最普遍的失败原因，在Claude和Gemini中尤为突出，占据了失败案例的大多数。以"两段线"任务为例（要求在正方形边界上放置两条线段，把内部分割成指定数量和形状的多边形），Claude能正确运用欧拉公式计算出面和边的数量关系，在尝试各种摆放方案时逻辑也是对的，边界线段也满足格式要求，但最终给出的分割方案里，有一个区域是四边形，而题目要求的是五边形——局部看每一步都对，但全局约束没有被满足。

GPT-5.2则更倾向于拒绝任务。在德劳内三角剖分的第21题中，GPT-5.2直接判定这道题"计算上不可行"，返回了一个空的三角网格，而不是尝试给出哪怕一个候选答案。

配上工具之后，这些失败模式的分布发生了有趣的变化。GPT-5.2的拒绝比例从68%降到44%，但局部正确的比例上升了。Claude的局部正确比例从68%降到44%，但拒绝比例反而增加了三倍。Gemini的失败分布基本没变。无论哪款模型，局部正确始终是残留失败的主要原因。这说明：工具能解决部分"不会算"的问题，但无法修复"看不到全局"的根本弱点。

七、这场考试背后：空间能力为什么这么难？

看到这里，你可能会问：为什么空间推理对AI来说这么难？明明它们在很多其他任务上表现得那么好。

答案藏在这两个词里：全局约束。

局部推理对AI来说并不难。它能计算出一个三角形的三个角之和是180度，能知道两个相邻体素的关系，能理解一段路径上的每一步是否合法。但真正的空间问题往往要求同时满足多个约束，而这些约束互相影响、互相牵制，只有在脑中建立起整个环境的完整模型，才能找到一个全部约束都满足的解。

可以用拼图来理解这个差距。AI能很好地描述每一块拼图的形状，也能判断两块拼图的边缘是否大致吻合，但要把几百块拼图在脑中同时协调，找出唯一正确的完整图案，这种"全局视野"正是当前AI最薄弱的地方。

这种弱点在规划任务中尤其致命，因为规划本质上是一个动态的多步骤约束满足问题——每一步都会改变下一步的约束条件，没有全局视野，根本无从下手。

SCBench的存在意义就在于此：它不只是给AI打了一个分数，更是精确地指出了当前大模型在空间智能上的真实边界，以及这条边界背后的根本原因。正如研究团队在结论中明确指出的，当前最好的AI在这套考试中达到57.6%的总分，但这个数字背后是一个明显的能力梯度，从公理推断到构造合成再到规划，分数单调下降，没有任何例外。

说到底，这份研究告诉我们的是：AI的聪明是有边界的，而这条边界，恰好划在"把整个世界装进脑子里，然后在约束下做出完整计划"这件事上。流体模拟中那些能挖个简单盆地的题目，AI还能应付；但要它预判爆炸后岩石的滚动路径，或者设计一个真正能拼成球形的乐高方案，它就完全束手无策了。这不是算力不够，而是推理方式本身的局限。

未来的研究方向在于将这类测试扩展到多轮对话、自我纠错和主动使用工具的场景，让AI不只是在单次尝试中回答问题，而是能像真正的工程师一样迭代、验证、修正自己的方案。那时候，空间能力的边界或许才会真正开始移动。有兴趣深入了解这套测试的细节和全部22道题的规格，可以在arXiv上搜索编号2604.09594查阅完整论文。

Q&A

Q1：SCBench和其他AI空间推理测试有什么本质区别？

A：SCBench要求AI直接输出可执行的答案，比如具体坐标或操作序列，然后由程序自动验证。大多数现有测试是选择题或问答题，只考感知和识别，而SCBench考的是在全局约束下构造和规划，更接近真实世界中工程师或设计师需要完成的任务。

Q2：给AI配上代码工具之后，SCBench的得分能提升多少？

A：配上Python代码解释器和网络搜索之后，整体提升有限。在构造合成类题目中提升最明显，GPT-5.2提升了15个百分点，主要原因是可以调用现成几何库绕过手工推理。但在公理推断题上工具反而轻微拖累了成绩，在规划题上效果也不稳定，因为局部正确的失败模式靠工具无法根本解决。

Q3：SCBench里最难的题目是什么，AI为什么完全解不出来？

A：地形爆破题和乐高半球题是所有模型都得零分的题目。地形爆破要求AI预判物理引擎模拟出的岩石滚动结果，这超出了语言模型的推理能力范围。乐高半球题则要同时满足球形近似、积木咬合、结构稳定等多个工程约束，这类需要全局协调的三维构造任务是当前大模型最根本的弱点所在。

【纠错】【责任编辑:无为而治999】

深度观察

新华全媒头条丨一次大赛让他们收获了哪些成长？