Claude Code+Agent SDK打造个人AI助手：比OpenClaw更优雅的方案

为什么OpenClaw正在制造双重维护负担

过去几周，围绕OpenClaw（原ClodBot）及其衍生项目（NanoClaw、PicoClaw等）的热度持续不减。这些项目的核心目标是打造一个可以随时随地交互的个人AI助手。然而，一位深度用户在反复折腾这些项目后，得出了一个值得深思的结论：我们一直在重复造轮子，而真正需要的工具早已存在。

OpenClaw的本质是什么？它是在用各种补丁和胶水代码，试图重新构建Claude Code已经具备的能力框架。当你克隆了OpenClaw的仓库、完成定制化、调试到完美运行后，你会发现一个致命问题——双重维护负担。桌面端Claude Code里的技能和配置，必须再手动同步一份到OpenClaw中。你创建的不是一个助手，而是一个「衍生品的衍生品的衍生品」。

OpenClaw的架构对比

举个具体的例子：如果你在桌面版Claude Code中有一个完美运行的技能（Skill），你还得额外编写一个适配版本给OpenClaw。想要定时任务？得部署到云端。想要安全审计？每个环节都得单独检查。这种架构上的冗余，让维护成本随时间指数级增长。

Anthropic Agent SDK：直接复用Claude Code的全部能力

新方案的核心理念极其简单：不要重建Claude Code，直接复用它。

具体来说，方案利用了Anthropic官方提供的Agent SDK，在本地计算机上创建一个Claude Code的子进程（subprocess）。理解这里的技术选择很重要：子进程模式是软件工程中一种成熟的进程间通信范式——父进程通过标准输入/输出流（stdin/stdout）与子进程交换数据，子进程拥有完全独立的内存空间和运行时环境。这意味着Claude Code的所有本地状态都在子进程中完整保留，父进程只负责消息的路由和格式转换，不会破坏任何现有配置。这个子进程就像在终端中输入claude命令一样，拥有完整的Claude Code能力——包括你已有的30多个全局技能、MCP服务器、各项目的Claude.md配置、网页搜索等一切基础设施。

值得一提的是，MCP（Model Context Protocol）是Anthropic推出的开放协议，允许Claude与外部工具、数据源进行标准化通信。每个MCP服务器可以暴露特定能力——文件系统访问、数据库查询、API调用等——Claude通过统一接口调用这些能力，无需为每个工具编写定制集成代码。Claude.md则是项目级的上下文配置文件，类似于代码仓库中的README，但专门用于向Claude传递项目规范、编码风格、业务背景等结构化信息。这两套机制共同构成了Claude Code的「能力底座」，而子进程方案让这个底座对移动端完全透明可用。

Agent SDK架构示意

然后，通过Telegram（或任何你喜欢的通讯工具）作为交互界面，你就拥有了一个可以从任何地方远程访问的个人AI助手。与OpenClaw相比，这个方案有几个关键优势：

不需要额外的API费用：直接使用你现有的Claude Code订阅计划
不依赖第三方桥接服务：Agent SDK是Anthropic原生提供的
零重复配置：桌面端的所有技能和配置自动可用
完整的多模态能力：支持视频、图片、语音等多种输入

端到端的消息处理流程

整个系统的消息处理分为8个阶段，全程耗时不到5秒：

Telegram消息发送 → 2. Telegram API接收 → 3. 身份认证 → 4. 媒体处理（视频/图片/语音）→ 5. 记忆注入（从本地SQLite加载最近记忆）→ 6. Agent SDK调用Claude子进程 → 7. 响应转换（文本或语音）→ 8. 返回Telegram

这个架构的精妙之处在于：如果你只使用Anthropic API，你只能获得模型的智能——它能给你聪明的回答，但你需要自己构建工具调用、任务执行的整套基础设施。而通过Agent SDK，你获得的是一个完整的Claude Code运行时环境，所有的工具调用和执行逻辑都已经内置好了。

三层记忆系统：从会话上下文到语义检索

记忆系统是这个方案中最精巧的部分，采用了三层递进式设计。值得注意的是，这套架构并非凭空设计，而是对人类记忆模型的工程化映射——认知科学将人类记忆分为工作记忆（短期）、情景记忆（事件性长期记忆）和语义记忆（知识性长期记忆）三类，三层系统与之高度对应。

第一层：会话上下文（Session Context）

每次发送第一条消息时，系统会生成一个新的会话（Session），并分配唯一的Session ID。同一会话中的所有消息共享相同的Session ID，从而实现上下文的持久化。这一层对应人类的工作记忆，直接利用了Claude Sonnet模型的百万级上下文窗口，堪称「作弊级」的优势。

第二层：SQLite + 语义/情景记忆

使用本地SQLite数据库（免费、无需Supabase或Convex等云服务）存储对话历史。记忆分为两种类型：

语义记忆（Semantic Memory）：基于向量数据库的记忆检索，适合查找特定知识点。向量数据库将文本转化为高维数值向量，通过计算向量间的余弦相似度来匹配语义相近的内容，而非依赖关键词匹配，因此能理解「上周讨论的项目预算问题」这类模糊查询。
情景记忆（Episodic Memory）：带有时间衰减的对话记忆，最近的消息权重更高，较早的消息逐渐淡化。这一设计借鉴了艾宾浩斯遗忘曲线——越近的记忆权重越高，与人类自然记忆规律高度吻合。

第三层：上下文注入（Context Injection）

在每条消息处理前，系统会自动搜索最近的相关记忆，并注入到当前对话的上下文中。这确保了助手始终能「记住」之前的交互内容，即使跨越了不同的会话。

Mega Prompt引导式构建：10分钟完成系统搭建

作者设计了一个「Mega Prompt」——一个结构化的超级提示词文档，用于引导Claude Code自动构建整个系统。这个提示词的设计理念非常巧妙：你不需要复制粘贴代码，只需要让Claude Code阅读这个文档，它就能自主完成构建。

Mega Prompt本质上是一种「元提示词」（Meta-Prompt）技术——用自然语言描述系统的完整规格，让模型自主完成从规格到实现的转译。这与传统软件开发中的「规格驱动开发」（Spec-Driven Development）理念相通，区别在于执行者从人类工程师变成了AI模型。

Mega Prompt引导界面

构建过程被设计成一个交互式向导（Wizard），通过多选题的形式大幅降低非技术用户的上手门槛。这种设计模式在企业软件安装程序中已有数十年历史——通过将复杂的技术决策分解为有限选项，用户无需理解底层实现细节，只需表达意图：

语音引擎选择：Groq、OpenAI、11 Labs、无语音或自定义
记忆系统选择：情景+语义记忆、自定义或出厂设置
功能模块选择：定时任务调度器、视频分析、WhatsApp桥接、后台服务等

构建过程的交互式向导

整个构建过程大约需要10到30分钟，具体取决于你选择的功能复杂度。从零开始搭建，作者表示大约花了1-2小时，而且最初的提示词并不复杂——仅仅是告诉Claude Code「我想用Telegram连接Claude Code，且不违反服务条款」。

与OpenClaw的本质区别：一个大脑vs两套系统

这个方案最大的价值在于统一性。使用OpenClaw时，你维护着两套系统——桌面端和移动端各有一个「大脑」。而现在，你只有一个统一的AI操作系统：

改进Claude Code桌面端的技能 → 移动端自动获益
将技能设为全局 → 所有项目共享
无需云端部署 → 本地Mac Mini即可（需保持开机）

更你可能没注意到，这个方案并不绑定Claude Code。任何拥有CLI接口的语言模型——Codex、Gemini等——都可以替换Claude Code作为底层引擎。CLI（命令行接口）是这里的关键：只要一个模型能通过命令行接收输入、返回输出，子进程架构就能无缝适配，无需修改上层的消息路由和记忆系统。你完全可以构建一个「Codex Claw」或「Gemini Claw」，架构层面的灵活性远超OpenClaw。

深耕现有工具链，而非追逐衍生品

这个案例给我们的启示远不止技术层面。在

为什么OpenClaw正在制造双重维护负担

OpenClaw的架构对比