Gemini 3实测:AI Studio Vibe Coding让人人都能做网站、漫画和游戏

Google DeepMind发布Gemini 3 Pro和Nanobanano Pro,展示AI驱动的氛围编程新范式。
Google DeepMind连续发布Gemini 3 Pro和Nanobanano Pro两大模型,在AI Studio中展示了Vibe Coding(氛围编程)的强大能力。Gemini 3 Pro具备专业级UI设计感知和智能体工具调用能力,在SWE-bench测试中表现领先;Nanobanano Pro在文字渲染、实时世界知识和图像一致性方面实现突破。实战演示涵盖一句话生成网站、AI漫画生成器、搜索驱动的贴纸设计和多人在线赛车游戏,重新定义了软件构建的门槛。
Google DeepMind 在短短一周内连续发布了 Gemini 3 Pro 模型和 Nanobanano Pro 图像模型,并在 AI Studio 中展示了令人惊叹的 Vibe Coding(氛围编程)体验。从一句话生成精美网站,到自动创作漫画故事,再到多人在线赛车游戏——这些演示正在重新定义「谁能构建软件」这个问题的答案。
关于 Vibe Coding: 这一概念由 OpenAI 联合创始人 Andrej Karpathy 于 2025 年初提出,描述的是一种全新的人机协作编程范式:开发者不再逐行编写代码,而是用自然语言描述意图和「感觉」,由 AI 模型负责将这些模糊的创意转化为可运行的程序。它触及了软件开发的核心矛盾——创意的表达门槛远低于实现门槛。传统编程要求开发者同时掌握业务逻辑、语言语法、框架生态和工程实践,而 Vibe Coding 将这些技术细节下沉到 AI 层,让创作者只需专注于「我想要什么」而非「如何实现」。
Gemini 3 Pro:UI设计感知与智能体工具调用
一句话生成专业级网站
Gemini 3 最让人眼前一亮的能力,是它对 UI 和美学的深度理解。过去用 AI 模型生成网站,开发者常常得到千篇一律的紫色渐变和粗糙布局,设计师看了直摇头。而 Gemini 3 能在一次提示中就输出具有专业设计水准的网站——自动选择合适的排版、添加 shader 动画、设计页面过渡效果,完成度远超预期。

演示中,团队仅用一句「创建一个流畅的动画网站」就生成了一个包含多页面、丰富过渡效果和精心挑选字体的完整站点。产品负责人 Amar 说得很直白:「那些一直在 Figma 中苦苦挣扎的人,现在可以直接通过提示词拿到相当不错的设计成果。」

智能体工具调用:SWE-bench 表现领先
Gemini 3 的另一大突破在于 agentic tool calling(智能体工具调用)。在 SWE-bench 基准测试中,Gemini 3 在智能体场景下的得分远超同类模型,意味着它不只能处理简单的一次性任务,还能在大型代码库中完成复杂的多步骤操作。
SWE-bench 背景: SWE-bench(Software Engineering Benchmark)是由普林斯顿大学研究团队于 2023 年发布的专业软件工程评测基准,被业界视为衡量 AI 编程能力最权威的标准之一。与简单的代码补全测试不同,SWE-bench 要求模型解决来自真实 GitHub 仓库的实际 Issue——模型需要理解复杂的代码库上下文、定位问题根源、编写修复补丁,并通过原有测试套件的验证。早期 GPT-4 在 SWE-bench 上的解决率不足 2%,而近期顶尖模型已突破 50%,这一跨越式进步正是 AI 智能体工具调用能力成熟的直接体现。
实际使用中,模型会根据用户意图自动判断需要调用哪些工具——Google Search、Google Maps、实时 API 等——并将它们无缝整合到生成的应用里,开发者无需手动配置。
Nanobanano Pro:图像生成的全面升级
文字渲染与实时世界知识
Nanobanano Pro 图像模型带来了几个关键突破。文字渲染能力大幅提升,文字可以完美贴合物体表面(比如饮料罐的弧面),并支持包括韩语在内的多种语言。
文字渲染的技术挑战: 在 AI 图像生成领域,准确渲染文字长期以来是公认的技术难题。这一困难源于扩散模型(Diffusion Model)的工作机制——模型通过学习像素级的统计分布来生成图像,而文字的语义信息(字母的精确形状、排列顺序)与这种像素统计规律之间存在本质性的张力。早期的 Stable Diffusion 和 DALL-E 模型生成的文字往往出现字母错位、拼写错误或形状扭曲等问题。更复杂的是曲面文字渲染——文字需要根据物体表面的三维曲率进行透视变形,这要求模型同时理解几何关系和字符形态。Nanobanano Pro 在这一方向的突破,很可能得益于将语言模型的文字理解能力与图像生成管道进行了更深度的融合。
更值得关注的是,该模型接入了 Google Search,具备实时世界知识,能够根据搜索结果生成准确的信息图表,不再受限于训练数据的知识截止日期。
一致性与精细创意控制
图像一致性方面同样有显著进步,单张图片中最多可准确呈现 14 个人物。创意控制也做得很细腻——只需说「把焦点切换到花朵上」,模型就能在保持画面其他元素不变的情况下精确调整景深。此外还支持多种宽高比输出,覆盖壁纸、广告横幅等不同使用场景。
AI Studio Vibe Coding实战:漫画、贴纸与多人游戏
漫画生成器:上传照片就能创作故事
演示中最吸引眼球的应用是一个 AI 漫画生成器。用户只需上传人脸照片、选择故事类型和语言,系统就能自动生成完整的漫画故事。这个应用同时调用了 Gemini 3 的叙事能力和 Nanobanano Pro 的图像生成能力——漫画中不仅有准确的文字气泡渲染,连背景中的「AI Engineer」会议横幅等细节都被精确呈现。
更有意思的是,用户可以在故事进行中选择剧情走向,让漫画变成互动式叙事体验。团队成员甚至说:「这是第一次有 AI 模型生成的故事真正让我笑出来。」
笔记本贴纸生成器:搜索驱动的个性化设计

另一个演示展示了 Google Search 集成的实际价值。输入一个人的名字后,系统会自动搜索相关信息,了解这个人的兴趣爱好,然后生成匹配的贴纸设计。演示中输入了 Amar 的名字,系统不仅生成了 DeepMind 相关的贴纸,还包含了他写的儿童书《Alice in Sparkle》的元素——这些信息全部实时从网络获取,而非依赖模型的训练数据。
多人赛车游戏:23人同时在线不崩溃

最具野心的演示是一个用 Three.js 构建的 3D 多人在线赛车游戏。
Three.js 与 WebGL 背景: Three.js 是目前最主流的 JavaScript 3D 图形库,它封装了底层的 WebGL API,让开发者无需深入掌握着色器编程就能在浏览器中构建复杂的 3D 场景。WebGL 本身基于 OpenGL ES 标准,直接调用 GPU 进行渲染计算,
相关推荐
产品体验Qoder vs Cursor实测对比:同样20美金谁更强?
实测对比Qoder和Cursor两款AI IDE,从Agent自主修复能力、人工沟通次数、架构决策等维度评测。Qoder仅需2次沟通完成任务,Cursor需8次。详细分析两者差异,帮你选择最适合的AI编程工具。
产品体验Cursor云Agent演示:打通软件开发全链路瓶颈
深度解析Cursor云Agent最新Demo,展示如何通过云端虚拟机、自动测试产物和全链路控制平面,系统性消除软件开发生命周期中的人类瓶颈,让Agent自主运行、人按需介入。
产品体验Cursor 3.0深度解析:多Agent并行、Design Mode与Best-of-N模型对比
Cursor 3.0正式发布,从AI辅助编程工具进化为Agent舰队指挥中心。本文详解多智能体并行、Design Mode可视化编辑、Best-of-N多模型择优等核心功能,解读AI编程新范式。