Agent Loops实战：从CUDA内核到自动化研究的Token生产力转化

概述

SGLang Office Hours 本周邀请到 NVIDIA Research 科学家 Ligeng Zhu，分享关于 Agent Loops 如何将大模型生成的 Token 真正转化为工程生产力的深度实践。他将介绍 Humanize 框架——一个让 AI Agent 自主运行、像人类一样解决复杂工程和研究问题的 Agentic Flow 框架，并通过三个长时间运行的 Agent Loop 案例展示其实际效果。

背景知识：SGLang 与 Agent Loop SGLang（Structured Generation Language）是一个专为大语言模型推理设计的高性能框架，由 UC Berkeley 等机构研究人员开发。它通过 RadixAttention 等创新技术实现 KV Cache 的高效复用，在处理复杂多轮对话和 Agent Loop 场景时相比传统推理框架可获得数倍吞吐量提升。Agent Loop（智能体循环）是指 AI 系统在感知-思考-行动-反馈的闭环中持续运行的工作模式，区别于单次推理的核心在于引入了环境反馈机制，使模型能够根据执行结果动态调整策略。

SGLang Office Hours 活动公告

Humanize框架：让Agent像人类工程师一样迭代工作

Humanize 是一个 Agentic Flow 框架，核心设计理念是让 AI Agent 能够自主运行，以人类工程师的思维方式来处理复杂的工程和研究问题。与传统的单次推理不同，Humanize 强调长时间运行的 Agent Loop——Agent 在循环中不断迭代、调试、优化，直到达成目标。

现代 Agentic Flow 框架通常包含以下核心组件：任务规划器（Planner）负责将复杂目标分解为可执行子任务；工具调用层（Tool Use Layer）提供代码执行、网络搜索、文件操作等外部能力接口；记忆系统（Memory System）分为短期工作记忆和长期向量数据库存储；以及反思模块（Reflection Module）用于评估执行结果并触发重试或策略调整。Humanize 框架的创新在于将这些组件针对工程和研究场景进行了深度定制，特别是在长时间运行稳定性、错误恢复机制和专业领域知识注入方面做了针对性优化，使 Agent 能够在无人监督的情况下持续运行数小时完成复杂任务。

这种设计哲学反映了当前 AI 工程领域的一个重要转变：从"一次性生成"走向"持续迭代"。Token 本身并不等于生产力，只有当 Token 被组织成有效的工作流程，并在反馈循环中不断改进时，才能真正产出有价值的工程成果。

三大实战案例：Agent Loop的生产力验证

KDA：自动编写高性能CUDA内核

第一个案例是 KDA（Kernel Development Agent），它能够自动编写高性能 CUDA 内核。在 MLSys FlashInfer Kernel Contest 中，KDA 生成的内核排名第 1 到第 3 位。这意味着 AI Agent 在高度专业化的 GPU 编程领域已经能够与顶尖人类工程师竞争。

CUDA（Compute Unified Device Architecture）是 NVIDIA 推出的并行计算平台和编程模型，允许开发者直接操控 GPU 的数千个计算核心。编写高性能 CUDA 内核需要掌握线程块（Thread Block）划分、共享内存（Shared Memory）管理、内存合并访问（Coalesced Memory Access）、Warp 级别同步等底层技术，学习曲线极为陡峭。FlashInfer 是专为 LLM 推理设计的高性能 CUDA 算子库，其 Kernel Contest 要求参赛者针对注意力计算等核心算子实现极致优化，参赛者通常是拥有多年 GPU 编程经验的专家工程师。KDA 能在此竞赛中进入前三，意味着 Agent Loop 已具备在高度专业化领域超越大多数人类专家的能力。

KDA 的成功表明，Agent Loop 模式在这类需要反复实验和性能调优的任务中具有天然优势——Agent 可以在循环中快速尝试数百种优化策略，远超人类工程师的迭代速度。

Anthropic Virtual Hardware：为未来硬件提前优化

第二个案例更具前瞻性——在物理上尚不存在的硬件上优化计算。这个案例展示了 Agent Loop 的一个独特能力：它可以在虚拟环境中进行大量探索和优化，而不受物理硬件可用性的限制。

硬件-软件协同优化（Hardware-Software Co-design）是现代芯片设计的重要范式，指在芯片设计阶段就同步开发配套软件栈，以充分发挥硬件特性。传统流程中，软件工程师必须等待芯片流片（Tape-out）并完成封装测试后才能获得真实硬件，这一周期通常长达 12-18 个月。虚拟硬件（Virtual Hardware）通过周期精确模拟器（Cycle-accurate Simulator）或架构级仿真器（如 gem5、Verilator）在软件层面模拟目标硬件的行为特征，使软件优化工作得以提前进行。Anthropic 在此案例中可能采用了类似方法，让 Agent 在模拟的硬件环境中探索最优的算子实现策略，这对于下一代 AI 加速芯片的软件栈预研具有重要的工程价值。

Agent Loop 可以提前在模拟环境中完成大量优化工作，大幅缩短产品上市时间，为芯片设计和硬件-软件协同优化领域带来了全新的工程范式。

JetAutoResearch：研究工作流成本削减超50%

第三个案例是 JetAutoResearch，通过提前编译（Ahead-of-Time Compilation）技术，将 AutoResearch 工作流的成本削减超过 50%。这直接回应了当前 AI 自动化研究中的一个核心痛点：流程虽然强大，但计算成本高昂。

提前编译（AOT）在 AI Agent 工作流中的含义被延伸为：预先分析 Agent 的执行路径、缓存中间计算结果、提前规划工具调用序列，从而避免运行时的重复推理开销。AutoResearch 类工作流通常涉及文献检索、实验设计、代码生成、结果分析等多个串行或并行步骤，每个步骤都需要消耗大量 Token。JetAutoResearch 通过静态分析工作流的依赖关系图，识别可复用的计算子图并进行缓存，将动态推理转化为查表操作，从而实现超过 50% 的成本削减。这一思路对于所有复杂 Agent 工作流的工程化落地都具有重要参考价值，为 Agent Loop 的规模化落地扫清了经济性障碍。

Agent-Centric研究的未来方向

Ligeng Zhu 还分享了 Humanize 2.0 / 3.0 的发展规划，以及他对 Agent-Centric 研究和工程未来走向的判断。从目前披露的信息来看，几个关键趋势值得关注：

长时间自主运行：Agent 不再是"问一答一"的工具，而是能够持续数小时甚至数天独立工作的系统
成本效率优化：如何让 Agent Loop 在保持效果的同时降低 Token 消耗，是工程化落地的关键瓶颈
专业领域深耕：从通用助手转向在特定专业领域（如 CUDA 编程、硬件优化）达到甚至超越人类专家水平

这些方向共同指向一个核心命题：Agent 的价值不在于单次对话的智能程度，而在于能否在真实工程场景中持续交付高质量成果。

总结：从Token生成到生产力闭环

从 KDA 在 CUDA 内核竞赛中的顶尖表现，到为尚未存在的硬件优化计算，再到将研究成本削减过半，Humanize 框架展示了 Agent Loop 模式的巨大潜力。

核心洞察在于：真正的生产力不来自于生成更多 Token，而来自于将 Token 组织成有效的迭代循环，让 AI 像人类工程师一样思考、实验和改进。当 Agent 能够在长时间运行中自主完成"假设-实验-反馈-优化"的完整闭环时，Token 才真正转化为了可衡量的工程生产力。

核心要点

Humanize 框架让 AI Agent 自主运行，以人类思维方式解决复杂工程和研究问题
KDA 自动编写的 CUDA 内核在 MLSys FlashInfer Kernel Contest 中排名前三
JetAutoResearch 通过提前编译技术将 AutoResearch 工作流成本削减超过 50%
Agent Loop 的核心价值在于将 Token 组织成有效的迭代循环，而非简单的一次性生成
Agent-Centric 研究正朝着长时间自主运行、成本优化和专业领域深耕方向发展