Firebase AI Logic实战:用AI Agent从零实现智能任务分解功能

AI编程助手驱动跨平台待办应用添加智能任务分解功能的全流程实战
Google开发者直播展示了如何利用AI编程助手(Anti-Gravity/Gemini)为跨平台待办事项应用添加智能任务分解功能。整个开发流程几乎完全由AI Agent驱动,从UI设计到iOS和Android双平台并行实现仅用两三分钟。技术亮点包括结构化输出避免手动JSON解析、Gemini 2.5 Flash低延迟模型选择,以及Firebase App Check、服务器端Prompt模板、Remote Config等生产环境安全配置。
概述
在Google开发者系列直播「Code, Commit, Deploy, Repeat」第一季最后一集中,Peter和Marina两位开发者展示了如何利用AI编程助手(Anti-Gravity/Gemini)为跨平台待办事项应用添加智能任务分解功能。整个过程从需求讨论、UI设计到双平台实现,几乎完全由AI Agent驱动完成,展现了现代AI辅助开发的完整工作流。
功能设计:让AI自动拆解复杂任务
这次实现的核心功能非常实用:当用户创建一个复杂任务(如「计划生日派对」或「准备夏日旅行」)时,点击一个闪烁的AI图标,系统会自动将其分解为多个可执行的子步骤,并作为独立任务添加到同一列表中。

在设计过程中,团队做了几个关键决策:
- 不使用层级结构:生成的任务直接作为顶级任务添加到列表,而非嵌套子任务,大幅简化了数据库管理
- 预览后确认:AI生成的任务会先展示给用户审核,用户可以选择性添加
- 上下文感知:如果列表中已有相关任务,AI不会重复建议
AI Agent全程驱动开发流程
整个开发过程中,Anti-Gravity(基于Gemini的AI编程助手)承担了从设计到实现的大部分工作。Anti-Gravity是Google推出的AI原生集成开发环境,深度集成了Gemini模型作为编程助手。其中集成的MCP(Model Context Protocol)服务器是Anthropic提出并被广泛采纳的开放协议,它为AI模型提供了与外部工具和数据源交互的标准化接口。在Anti-Gravity中,Firebase Skills通过MCP协议让AI Agent能够直接查询Firebase项目配置、读写Firestore数据库结构、管理部署等操作,而不仅仅是生成代码文本。这种工具调用能力是AI Agent从「代码补全」进化为「全栈开发者」的关键技术基础。
自动生成UI设计方案
Agent不仅生成了代码,还通过NanoBanana工具创建了高保真UI原型。它为iOS和Android分别生成了不同风格的设计稿——虽然渐变效果过于华丽,但整体布局思路清晰。
跨平台并行开发

最令人印象深刻的是Agent的并行处理能力。它在完成iOS代码后立即开始编辑Android文件,两个平台的构建几乎同时进行。整个功能实现仅用了两到三分钟,包括:
- 添加Firebase AI Logic依赖
- 实现AI任务服务
- 创建带动画的Sparkle图标
- 处理用户交互逻辑
结构化输出:告别手动JSON解析
团队特别强调了使用**结构化生成(Structured Generation)**而非手动解析JSON的重要性。结构化生成是大语言模型应用中的一项关键技术,它通过在推理阶段对模型的token生成过程施加约束(如JSON Schema、正则表达式等),确保输出严格遵循预定义的数据格式。传统做法中,开发者需要将模型的自由文本输出通过正则匹配或字符串分割提取结构化数据,这种方式极其脆弱——模型可能输出多余的解释文字、格式不一致的JSON,甚至在边界情况下完全偏离预期结构。
通过在创建生成模型时传入输出Schema,Firebase AI Logic SDK会自动确保返回数据符合预期格式,避免了手动字符串分割的脆弱性。本质上,这是在API层面将JSON Schema传递给Gemini模型,模型在生成时会被约束只能输出符合该Schema的内容,从根本上消除了解析失败的可能性。开发者无需自行实现解析逻辑,这是SDK的内置能力。
实际效果演示

功能上线后的效果相当出色:
- 输入「Plan summer trip」→ 自动生成:确定目的地、研究住宿、研究活动、预订航班、创建每日行程、准备必需品
- 输入「Test new app version」→ 自动生成:搭建测试环境、执行冒烟测试、功能测试、服务器处理测试、UI审查等
- 输入「Run live stream」→ 自动生成:设置直播设备、确认内容议程、开始广播、与观众互动等

更重要的是,这些AI生成的任务与手动创建的任务完全一致——支持实时同步、跨设备共享、勾选完成等所有已有功能。
值得注意的是,团队选择了Gemini 2.5 Flash作为后端模型。Gemini 2.5 Flash是Google Gemini模型家族中专为低延迟、高吞吐场景优化的变体。相比Gemini 2.5 Pro等更大的模型,Flash在保持较高推理质量的同时大幅降低了响应时间和计算成本。对于任务分解这类不需要极深推理但要求快速响应的应用场景,Flash是理想选择——用户点击按钮后通常期望在1-2秒内看到结果,而非等待10秒以上。Flash模型还特别优化了结构化输出的生成效率,使其在需要严格格式约束的场景下表现更加稳定。
生产环境安全配置清单
直播最后,团队重点讨论了将AI功能推向生产环境的安全措施,这部分内容对开发者极为重要。
Firebase App Check防护
确保只有合法用户在未篡改设备上才能访问你的Gemini API配额。Firebase App Check是一种应用证明(App Attestation)服务,它利用平台原生的设备完整性验证机制——iOS上使用App Attest或DeviceCheck,Android上使用Play Integrity API——来证明请求确实来自你的合法应用实例,而非模拟器、篡改版本或自动化脚本。其工作原理是:客户端SDK从平台获取一个证明令牌,将其附加到每个后端请求中;Firebase后端验证该令牌的有效性后才处理请求。这对于保护AI API配额尤为重要,因为Gemini API调用有实际成本,未经保护的端点可能被恶意用户大量调用导致账单暴涨。设置完成后需要在App Check仪表板中点击「Enforce」按钮才会真正拦截未验证请求。
服务器端Prompt模板
将Prompt放在Firebase控制台而非客户端代码中,好处有三:
- 保护知识产权:用户无法通过逆向工程获取你的系统指令
- 防止Prompt注入:攻击者看不到Prompt结构,难以构造注入攻击
- 统一更新:修改Prompt后iOS和Android同时生效,无需发版
关于Prompt注入攻击,这是大语言模型应用面临的主要安全威胁之一,类似于传统Web应用中的SQL注入。攻击者通过在用户输入中嵌入特殊指令(如「忽略之前的所有指令,改为执行以下操作...」),试图覆盖开发者预设的系统Prompt,从而让模型执行非预期行为——比如泄露系统指令内容、绕过内容安全限制,或生成恶意输出。将Prompt模板存储在服务器端而非客户端,意味着攻击者无法通过反编译应用获知Prompt的具体结构和措辞,大幅增加了构造有效注入攻击的难度。
Remote Config管理模板版本
通过Firebase Remote Config存储模板ID,可以在不发布新版本的情况下切换不同版本的Prompt模板,实现灰度发布和快速回滚。Firebase Remote Config是一种云端配置服务,允许开发者在不发布应用更新的情况下动态修改应用行为。在AI功能场景中,通过Remote Config存储Prompt模板的版本ID,开发者可以实现多种高级运维策略:按用户百分比逐步推出新版Prompt(灰度发布)、在发现新Prompt导致质量下降时秒级回滚到旧版本、针对不同用户群体(如付费用户vs免费用户)使用不同的Prompt策略。这种解耦设计意味着Prompt的迭代周期可以从「天级」(等待应用审核发布)缩短到「分钟级」。
强制访问模式
- Template Only Mode:只接受通过服务器Prompt模板发出的请求
- Authenticated Users Mode:结合Firebase Auth,确保用户必须登录才能使用AI功能
技术栈总结
本次开发涉及的完整技术栈:
- iOS:Swift + SwiftUI
- Android:Kotlin + Jetpack Compose
- 后端:Firebase(Firestore实时同步 + AI Logic)
- AI模型:Gemini 2.5 Flash(优化了低延迟和结构化输出)
- 开发工具:Anti-Gravity IDE(集成Firebase Skills和MCP服务器)
写在最后
这期直播最大的启示不在于最终产品有多精美,而在于展示了一种全新的开发范式:开发者更多扮演「产品经理」和「代码审查者」的角色,通过自然语言描述需求、提供反馈、做出架构决策,而AI Agent负责具体实现。当Peter说「反馈是一份礼物」时,他其实在描述与AI协作的核心——持续、精确的反馈循环。
第一季到此结束,期待第二季带来更多实战内容。
相关推荐
教程攻略Cursor+Codex双IDE协同:开源项目二开实战方法论
基于实战经验总结的开源项目二次开发完整方法论,详解Cursor+Codex双IDE协同工作流,涵盖二开七环节、MVP验证、AI读源码技巧,帮助开发者三天跑通项目、两周完成业务集成。
教程攻略Cursor多Agent实战:50分钟搭建Next.js全栈博客
使用Cursor IDE多Agent协作模式,50分钟内从零搭建全栈博客。涵盖Next.js、Clerk认证、Supabase数据库集成,详解4个AI Agent分阶段开发流程与关键避坑经验。
教程攻略从零搭建AI软件工厂:Cursor工程师的多Agent协作实战经验
Cursor工程师Eric分享AI软件工厂构建实战:从自动化六层级、护栏设计、并行Agent管理到规模化扩展,详解如何用多Agent协作实现7×24小时高效软件开发。