用TRAE Work复刻苹果AI照片重构功能全流程

从WWDC灵感到成品:一个人如何复刻苹果的照片空间重构
苹果在WWDC上展示的照片空间重构功能让不少开发者眼前一亮——上传一张图片,就能调整角度、重新构图,最终生成一张清晰完整的新图片。这项功能的背后,是计算摄影领域多年积累的技术突破。照片空间重构(Photo Spatial Reconstruction)的核心原理是从单张或少量2D照片中推断出场景的三维空间信息,结合深度估计、神经辐射场(NeRF)等技术理解场景的空间结构,再利用AI生成模型补全因视角变化而缺失的画面内容。这意味着拍照不再是一个"定格瞬间"的动作,而是变成了一个可以事后调整的创作过程。
这个功能看似需要iOS 27才能体验,但B站UP主决定自己动手复刻一个,并且全程借助TRAE Work这款AI Agent工具完成了从调研、开发到视频制作的完整流程。
这个案例的价值不仅在于技术实现本身,更在于它展示了一种AI辅助全流程工作的新范式:从灵感捕捉、技术调研、代码开发到内容创作,AI Agent如何真正融入创作者的日常工作节奏。
第一步:用TRAE Walk模式完成技术调研
看完WWDC后,UP主回忆起苹果曾经开源过一个与照片空间重构相关的项目,但一时想不起具体名称。这时电脑已经关机,他直接在手机上打开了TRAE,使用Walk模式让AI帮忙检索苹果的开源项目。

TRAE Work是字节跳动推出的AI Agent工具,与传统的ChatGPT式对话工具有本质区别。AI Agent具备任务规划、工具调用、自主执行和状态管理等能力,能够将复杂任务拆解为多个步骤并逐一完成。TRAE Work提供的Walk模式适用于轻量级对话与信息检索,而Code模式则提供完整的云端开发环境。这类工具标志着AI应用从"问答助手"向"工作伙伴"的转变——用户不再需要逐步指导AI每一个动作,而是可以描述目标后让Agent自主规划执行路径。
AI很快就找到了相关项目,并给出了详细介绍。这个环节看似简单,但背后有一个值得注意的细节:UP主之所以能想到苹果有相关开源项目,是因为他日常就在用TRAE的自动化功能——设定每天三个不同时间段自动获取AI科技资讯并推送。
这里有一个很实在的观点:不管AI有多厉害,自己也要有积累。日常的信息摄入提高了判断能力,让你在关键时刻能给AI下达更精准的指令。这其实就是对自己的一种"模型训练"。
第二步:深度分析与技术架构设计
找到开源项目后,下一步是让TRAE进行更深入的调研分析——开发这样一个软件需要什么技术架构、依赖哪些组件,这些都需要先确定。对于照片空间重构这类项目,技术栈通常涉及多个层面:底层需要深度估计模型(如MiDaS或苹果自研的深度预测网络)来理解图片的空间层次;中间层需要图像修复(Inpainting)模型来填补视角变化后的空白区域;上层则需要一套交互系统让用户直观地调整视角和构图参数。这些模块的选型和组合方式直接决定了最终产品的效果和性能。

这个分析过程花了相当长的时间,但云端模式的好处在于不需要干等。AI在后台处理,完成后会发送通知,用户可以退出去做其他事情。这种异步工作方式是AI Agent相比传统工具的一大优势。在传统的人机交互中,用户发出指令后需要同步等待结果返回,整个过程是阻塞的。而异步模式借鉴了软件工程中的异步编程思想——AI Agent接收任务后在后台独立执行,完成后通过推送通知用户,就像给团队成员分配了一项任务后不需要站在他身后盯着一样。这种模式让AI真正成为了一个可以并行协作的"同事"。
另一边,UP主利用等待时间构思视频框架。他使用了TRAE的语音交互讨论功能进行头脑风暴,讨论结束后AI还会自动总结,输出的内容直接可以作为视频框架参考。一个工具同时推进两条工作线,效率提升显而易见。
第三步:云端开发——睡觉时AI也在写代码
技术分析文档完成后,UP主将开发说明复制到TRAE的Code页面,让AI在云端进行开发。TRAE Work的云端开发能力依托于远程开发环境(Remote Development Environment)技术——代码编写、编译、运行等环节全部在云服务器上执行,用户的本地设备仅作为交互终端。这种架构意味着即使是一部手机也能提交需要高性能GPU支持的深度学习模型部署任务,因为实际的计算发生在云端而非本地。这与GitHub Codespaces、Gitpod等云端IDE的理念一脉相承,但TRAE Work更进一步——它不仅提供开发环境,还让AI自主完成编码工作。

最有意思的是时间线:文档提交后已经很晚了,UP主直接去睡觉。第二天早上醒来,手机收到通知——AI在他睡梦中已经完成了开发。 这大概是"睡后收入"的程序员版本。
由于TRAE Work支持多端同步,前一晚在手机上提交的所有内容都可以在电脑上直接查看。UP主在电脑上打开后继续测试和调试,等待编译或运行的间隙就切换到Walk模式调整视频大纲、撰写脚本。
多端无缝切换:AI Agent的理想工作形态
下午临时需要外出,这时多端同步的优势充分体现——直接在手机上继续工作,不论是云端任务还是电脑本地项目都可以操作。

TRAE Work可以直接连接用户的电脑,即使电脑没有开机,各种功能依然可用。这背后的技术逻辑是:所有的项目状态、代码版本、对话历史都保存在云端,本地电脑只是众多接入点之一。当需要访问本地文件或运行本地环境时,TRAE Work通过远程连接协议实现跨设备操作,类似于远程桌面但更加轻量和针对性。外出期间,UP主继续查看开发进度、提出修改需求、完善视频脚本,甚至还用它分析了其他视频的数据——只需要发一个链接,AI就能自动完成拆解分析。
这种体验被UP主形容为一种**"自由的感觉"**:可以在各种设备之间快速切换,不用担心环境变化导致工作中断。当工具不再成为束缚,人就有更多精力去思考真正重要的事情。这也反映了AI Agent发展的一个重要趋势:好的AI工具不应该要求人去适应它的工作方式,而是应该适配人类自然的生活和工作节奏。
复刻成果与关键启示
最终的成品已经上传到GitHub,用户上传一张图片就可以像苹果演示的那样调整角度、重新构图,生成清晰完整的图片。从技术实现角度看,这个项目整合了深度估计、图像分割、3D场景理解和图像生成等多个AI模型的能力,将它们封装成一个用户友好的交互界面。UP主坦言"做起来没有那么困难,但也没有那么简单",苹果的交互设计确实值得学习——技术实现是一回事,如何让普通用户直觉性地操作又是另一回事。
从这个案例中,我们可以提炼出几个关键洞察:
AI Agent的价值不只是写代码
整个流程中,TRAE Work承担了信息检索、技术调研、代码开发、内容创作辅助等多个角色。真正的效率提升来自于将碎片化的工作串联成连续的流程,而不是单点的代码生成。传统的AI辅助开发工具(如GitHub Copilot)主要聚焦于代码补全这一个环节,而AI Agent的野心更大——它试图覆盖从需求理解到最终交付的完整链路。当一个工具能够贯穿调研、设计、开发、测试和内容创作等多个阶段时,各环节之间的上下文不再丢失,这才是效率倍增的真正来源。
异步执行+多端同步是未来趋势
云端执行、通知推送、多端同步——这三个特性组合在一起,让AI Agent从"坐在电脑前等结果"变成了"随时随地推进工作"。这可能是AI Agent发展的一个重要方向:不是替代人类,而是适配人类的生活节奏。从技术演进的角度看,这种模式与云计算的发展轨迹高度一致——计算资源从本地迁移到云端,用户从固定工位解放到任意场景。当AI的执行能力也完成这种迁移后,"工作"这个概念本身的边界就变得模糊了:你可以在通勤时启动一个开发任务,午餐时检查进度,下午散步时通过语音调整需求。
人的积累依然是核心竞争力
如果UP主没有日常积累的AI资讯阅读习惯,就不会知道苹果有相关开源项目,也就无法给AI下达精准的指令。AI放大的是人的能力,而不是凭空创造能力。 这一点在AI工具越来越强大的今天,反而更加重要。在机器学习领域有一个经典概念叫"垃圾进,垃圾出"(Garbage In, Garbage Out),同样的道理适用于人与AI Agent的协作:你给AI的指令质量直接决定了输出质量。而指令质量取决于你对问题域的理解深度、对技术生态的熟悉程度,以及将模糊想法转化为清晰需求的能力。这些能力无法靠AI本身获得,只能通过持续的学习和实践来积累。在AI工具日益普及的时代,真正的差异化竞争力不在于你是否会用AI,而在于你能让AI做出什么别人做不到的事情。
核心要点
相关推荐

198页Codex中文手册深度解读:从入门到高阶全流程
深度拆解字节跳动内部整理的198页Codex中文使用手册,涵盖安装配置、Commands指令体系、MCP工作流、Skills模板、多Agent协作与后台任务调度,助你系统掌握AI编程助手的完整使用链路。

Trae AI编程工具:下载安装与上手使用完整教程
详细介绍字节跳动Trae AI编辑器的核心优势、下载安装流程、Python环境配置及AI对话编程实战,免费中文原生支持,国内直连无需科学上网,助你快速上手AI编程。

Codex vs Claude Code费用对比:10倍差价的真实原因拆解
同一编程任务Codex花15美元,Claude Code花155美元,10倍差价从何而来?本文从Token单价、消耗量、工作模式三个维度深度拆解原因,并给出实用的选择建议和省Token技巧。