Optimize Anything：一个API统一优化代码、提示词和Agent架构

核心洞察：万物皆可文本化优化

来自UC Berkeley、Stanford等顶尖机构的联合团队发表了一篇极具突破性的论文——Optimize Anything，提出了一个通用的文本优化框架。其核心洞察出奇地简单：很多不同领域的问题，本质上都可以转化为文本Artifact的优化问题。

不管你要优化的是CUDA内核、云调度策略、智能体架构、SVG图片还是系统提示词，底层逻辑都是一样的——把目标对象序列化成字符串，评估它的效果，再让大语言模型根据诊断反馈提出改进方案。

此前，我们已经见证了LLM作为优化器的潜力：FunSearch能进化Python函数突破数学边界，AlphaEvolve能优化代码甚至改进了有五六年历史的矩阵乘法界。但这些工具都只能针对单一类型的任务，而且一次只能处理一个问题。Optimize Anything的目标，是用一个统一的API打破所有这些壁垒。

Optimize Anything与FunSearch、AlphaEvolve等相关工作对比

极简声明式API：三个输入搞定一切

基于上述洞察，团队设计了一个极其简洁的声明式API。用户只需要提供三个核心输入：

一个初始的种子Artifact（甚至可以不提供，系统从自然语言描述生成）
一个评估器，返回分数和可选的诊断反馈
可选的数据集

剩下的提示词构建、反思、候选生成、选择、搜索策略等复杂步骤，全部由系统自动处理。这个设计受到了DSPy"编程而非提示"原则的启发，最大优势是同一个API调用，不管优化LLM提示词、智能体架构还是图片，都能直接使用，不需要针对不同领域修改接口。

特别值得一提的是无种子模式：在一些很难提供初始Artifact的领域（比如3D建模），用户甚至不需要写初始版本，只需提供自然语言描述的目标，LLM会从零开始生成第一个候选方案。这大大降低了使用门槛。

三种优化模式的统一

Optimize Anything将三种优化模式统一在同一个接口下，切换完全由是否提供数据集和验证集决定：

Optimize Anything三种优化模式示意图

单任务搜索

不需要提供数据集，候选本身就是解决方案，评估器直接打分。这是AlphaEvolve和OpenEvolve使用的模式。例如在圆排列问题中，Artifact就是排列算法，评估器返回排列分数和几何诊断信息。

多任务搜索

需要提供一批相关任务的数据集，解决一个任务得到的洞见可以帮助解决其他任务。这是之前所有LLM进化框架都不支持的模式。例如在CUDA内核生成场景中，每个任务是要加速的一个PyTorch操作，多任务模式能发现可跨问题迁移的优化模式。

泛化模式

需要同时提供训练集和验证集，优化后的Artifact需要在未见过的例子上表现良好。之前只有GEPA的提示词优化用这个模式，现在扩展到了任意文本Artifact。

核心区别在于：多任务搜索输出N个专用Artifact，泛化模式只输出一个全局通用Artifact。

六大领域实验：全面SOTA

论文在六个完全不同的核心领域验证了效果，每个领域都达到或超过了专用工具的表现。

编码智能体技能优化（泛化模式）

优化特定代码库的自然语言使用说明和最佳实践。优化后的技能把Claude Code的通过率从79.3%提升到98.3%，Sonnet 4.5从94.88%提升到100%，解决时间减少47%。更重要的是，为一个模型发现的技能能直接迁移到另一个模型，证明了泛化模式能学习到模型无关的仓库知识。

ARC-AGI智能体架构优化（泛化模式）

系统从一个只有10行的简单初始智能体出发，迭代设计成了300多行的复杂系统，包含4个组件和完善的回退机制。测试准确率从32.5%提升到89.5%，提升了57个百分点——几乎是原来的三倍。

ARC-AGI智能体架构优化结果

优化后的架构实现了4阶段流水线：模式分析归纳规则→代码生成与验证→多轮调试→结构化降级。系统自己发现了通常需要手动工程迭代才能得到的架构模式。

云调度算法优化（泛化模式）

CloudCast路由策略比最短路径算法节省了40.12%的成本；ComputeBlade调度策略节省了700%的成本。两个结果都登上了AD2S排行榜首位。

AIME提示词优化（泛化模式）

优化GPT-4o-mini在AIME数学问题上的系统提示词，测试准确率从46.67%提升到60.0%，超过MIProv2的51.33%。

CUDA内核生成（多任务搜索）

为31个PyTorch操作生成高性能CUDA内核，87.7%的生成内核能匹配或超过PyTorch基线，48%达到10%以上加速，25%达到25%以上加速。

圆排列问题（单任务搜索）

最终方案表现超过了AlphaEvolve发布的结果。

两大核心机制解析

辅助信息：文本优化的"梯度"

传统数值优化把所有诊断上下文压缩成一个标量。Optimize Anything将辅助信息提升为评估器契约的一等公民，支持多种类型的诊断反馈：

Optimize Anything辅助信息类型详解

文本类：编译器错误、运行时异常、性能分析摘要
结构化数据类：每个测试用例结果、多目标子分数、执行轨迹
图片类：渲染SVG、3D模型截图、图表可视化

辅助信息之于文本优化，就像梯度之于数值优化——梯度告诉优化器往哪个方向走，辅助信息告诉LLM提案者候选为什么失败、怎么修复。消融实验显示，有辅助信息时收敛速度比只用分数反馈快4到6倍。

基于Pareto前沿的搜索策略

朴素的方法会把多个评估信号压缩成一个平均分数，永远选排名最高的候选，容易陷入停滞。Optimize Anything的做法更加精巧：

单独跟踪每个任务/指标的分数，维护Pareto前沿
任何在某个方面表现最好的候选都会被保留
每个反思步骤只给提案者看2-3个例子的小批次，针对性改进
迭代过程中前沿积累不同候选的互补优势

这个机制也支撑了多任务搜索——为一个问题发现的策略可以通过共享的Pareto前沿自动迁移到其他问题。

意义与展望

Optimize Anything的意义不仅是一个好用的工具，更在于它证明了**"评估+反馈+LLM迭代"的模式可以作为通用的问题求解范式**，打破了之前不同领域优化工具各自为战的局面。不管是程序员、研究人员还是缺乏编程经验的用户，都可以通过这个通用接口，用自然语言描述优化目标，让系统帮助得到高质量的结果。

从更宏观的视角看，这项工作揭示了一个重要趋势：随着LLM能力的持续提升，越来越多的工程优化问题将被重新定义为"文本生成+自动评估"的闭环。未来，这个框架还可以扩展更多优化后端、覆盖更多领域，成为AI时代的通用优化基础设施。