Claude计算机操控最佳实践：截图缩放与坐标映射全攻略

Claude Code 计算机操控最佳实践深度解析

Claude Code 已经能够操控电脑——打开浏览器、填写表单、点击按钮样样都行。但很多人遇到一个致命问题：它点不准。别急着怪模型，问题很可能出在你的截图上。每次发给模型的截图都在被悄悄压缩，模型看到的和你看到的根本不是同一个画面。

Anthropic 官方最新发布的计算机交互最佳实践，从截图缩放、坐标映射到模型搭配，给出了一整套经过实测验证的方案。本文逐一拆解这些关键技巧。

核心问题：截图压缩导致坐标偏移

这是绝大部分点击偏移问题的根因：截图发给 API 之前，你需要先手动缩小它。

Claude API 对图片有硬性上限：

Claude 4.6 系列：最长边不超过 1568 像素，总像素不超过 115 万
Opus 4.7：放宽到 2576 像素和 375 万像素

超出限制后，API 会自动压缩。但压缩后的截图跟你指定的坐标空间就不匹配了——模型看到的是 A 图，你让它点 B 坐标，不歪才怪。

技术背景：像素预算与训练数据分布

这一限制源于视觉语言模型（VLM）的底层架构设计。模型处理图像时，视觉编码器（Vision Encoder）会将图片切分成固定大小的图块（patch），每个图块对应若干 Token——图片越大，消耗的 Token 越多，推理延迟和成本也随之线性增长。Anthropic 设定的像素上限本质上是在精度与成本之间划定的工程边界。1280×720 之所以成为"最安全档位"，不仅因为它在像素预算内，更因为这一分辨率在模型训练数据集中出现频率极高——大量网页截图、UI 录屏素材天然就是这个尺寸，模型对它的"视觉语感"最为熟悉，识别准确率自然更高。

标准分辨率训练集中随处可见

官方给了三个推荐的截图缩放档位：

1280×720：最安全，约占 80% 像素预算，标准分辨率在训练集中随处可见，几乎所有场景通吃
1920×1080：Opus 4.7 用户可选，画质明显提升
MAX_API_FEAT 算法：根据原始分辨率自动计算最优缩放，一分预算不浪费

特别警告：千万别直接送原生分辨率，尤其是 Mac 上的 Retina 2x 屏截图。这是"点不中"的头号杀手，没有之一。

坐标缩放：程序员最常踩的坑

你发给 API 的截图是 1280×720，实际屏幕是 2560×1440。API 返回的坐标是在小空间里算的，你必须按比例映射回真实屏幕。

不做坐标映射的后果是：每次点击都等比偏移。你以为模型在抽风，其实它每次都按同一套数学公式往同一个方向偏——这叫有规律的误判，比随机错误更难排查。

公式其实就三行：算比例，乘回去。但大部分人压根没写这段坐标映射代码。

技术背景：仿射变换与设备像素比

坐标偏移问题的本质是两个坐标系之间缺少仿射变换（Affine Transformation）。映射公式为：x = x' × (屏幕宽 / 截图宽)，y = y' × (屏幕高 / 截图高)。在 Retina 屏幕上还需额外乘以设备像素比（DPR，通常为 2），否则所有点击都会落在屏幕左上角四分之一区域内。这种系统性偏移极难通过肉眼调试发现，因为每次点击的偏移方向和幅度都高度一致，容易被误判为模型"固执地点错位置"，而实际上模型的视觉判断完全正确，只是坐标系转换环节缺失。

文字优先：一个简单但极有效的技巧

把文字指令放在截图前面——先告诉模型"点提交按钮"，再给它看截图。

先给指令再给截图

这不是玄学，这是注意力机制的底层原理。先有目标再看画面，模型在看图之前就知道要找什么，命中率直线起飞。简单到离谱，但大部分人压根没想到。

技术背景：交叉注意力与目标驱动视觉搜索

Transformer 架构中的交叉注意力机制（Cross-Attention）决定了输入顺序对模型行为有实质性影响。在多模态模型中，文本 Token 和图像 Token 会相互计算注意力权重。当文字指令先于图像输入时，模型在编码图像时已经形成了明确的"查询向量"（Query Vector），会优先激活与目标语义相关的视觉区域。这与人类视觉搜索的认知机制高度吻合——心理学研究表明，预先知道搜索目标的被试者，眼动轨迹更直接、首次注视目标的时间更短。将文字指令置于截图之前，本质上是在利用模型的注意力机制模拟这种

Claude计算机操控最佳实践：截图缩放与坐标映射全攻略

Claude Code 计算机操控最佳实践深度解析

核心问题：截图压缩导致坐标偏移

坐标缩放：程序员最常踩的坑

文字优先：一个简单但极有效的技巧

相关推荐

Cursor+Codex双IDE协同：开源项目二开实战方法论

Cursor多Agent实战：50分钟搭建Next.js全栈博客

从零搭建AI软件工厂：Cursor工程师的多Agent协作实战经验