播客频道 | Google AI Studio使用教程：Gemini实战指南从入门到精通

李博！上次你跟我安利Gemini，我回去折腾了一晚上，发现这东西水比我想的深太多了。哈哈，上瘾了吧？你用的是官网还是AI Studio？一开始就官网随便聊了聊，感觉跟ChatGPT也差不多嘛。后来你说要用AI Studio，我点进去——好家伙，完全不是一个量级。对，其实Gemini有三种用法，层次完全不同。最基础的就是官网直接聊天，零门槛，有手就行。但官网也不是啥都没有啊，我发现底下有个Canvas开关，打开之后右边多出来一个编辑器，可以直接改AI输出的内容，调语气、调篇幅，挺方便的。嗯，Canvas算是个轻量编辑器。但真正猛的是Deep Research，这个你试了没？试了！它能同时搜几百个网站帮你做调研，我让它帮我查了一个竞品分析的课题，出来的报告还能一键转网页、转信息图，甚至能生成播客音频——支持24种语言。这就是谷歌的底牌了。第二种用法是在Gmail、Google Docs这些应用里直接侧边栏调Gemini，回邮件、做表格图表，根本不用切窗口。这个我在公司感受特别深，谷歌全家桶用户简直是被偏爱的。但如果你是认真想提效率，第三种——Google AI Studio才是正经战场。它面向开发者和创作者，功能选项比官网丰富得多，同样的问题回答质量都不一样。诶对，我进去之后看到右边有个温度参数，Temperature，这个到底怎么理解？我调高调低感觉输出差别挺大的。你可以这么想——模型每生成一个词，其实是在一堆候选词里按概率挑。温度就是控制它"敢不敢冒险"的旋钮。温度低，它就老老实实选概率最高的词，输出很稳很精确；温度高，那些低概率的词也有机会被选中，输出就更跳脱、更有创意。所以写代码调低，写文案调高？完全正确。温度0适合事实问答和代码，0.7到1.2适合创意写作和头脑风暴。你们产品经理写PRD就调低点。得了吧，我写PRD才不用AI呢——好吧其实用了。还有个系统指令我觉得特别实用，预设角色之后AI就不会跑偏了。系统指令本质上是prompt engineering的产品化。它在API层面被标记为system角色，模型会把它当成整个对话不可违背的基础约束。比如你在系统指令里写"全部用中文输出"，比每条消息里都重复说一遍有效多了。还有个Prompt Gallery，谷歌直接给你做好了各种场景模板，免费的，别花冤枉钱买提示词了。好，这些设置我搞明白了。但真正让我震惊的是YouTube视频解析——李博，这个太离谱了。哈哈，说说你的体验。我把一个一小时的YouTube视频链接丢给它，不到一分钟，核心要点、思维逻辑全给我整理出来了。同样的东西给ChatGPT，出来的总结短得可怜。而且它不只是提取字幕，它是真的"看懂"了视频。你试过给它一个影视片段没有？它能告诉你这是哪部电影，还能分时间段描述画面内容。真的假的？！它怎么做到的？因为Gemini是原生多模态架构。不像早期那种把视觉模型和语言模型分开训练再拼一起的方案，它从训练阶段就同时处理文本、图像、音频和视频。用统一的Transformer架构做跨模态理解，所以它能真正理解画面里物体的空间关系、时间序列和语义。不是在猜，是在"看"。那网页信息提取呢？我之前用ChatGPT附链接，经常出现幻觉，生成的内容看着像那么回事，一查全是编的。幻觉问题是所有大模型的通病，因为本质上它们是概率文本生成器，不是知识检索系统。但Gemini在这方面确实有优势。谷歌做了二十多年搜索，Googlebot爬虫、知识图谱、RAG架构全都深度整合进来了。模型生成回答时能实时检索和验证网页信息，不是光靠训练时的记忆。怪不得，这就是搜索引擎老大哥的护城河。诶，我还发现它能生成语音？对，AI Studio里有语音生成功能，单人双人模式都有。双人模式特别有意思，你分别设两个角色的名称和音色，用脚本生成器分配台词，直接出双人对谈音频。做播客的人听了要哭了吧——等等，我们是不是也该担心一下。哈哈你放心，咱俩的互怼AI还学不来。行，那文生图呢？Imagen 4我看很多人在吹。这个确实值得吹。你知道AI生图最大的痛点是什么吗？文字乱码嘛，生成的图片里文字全是鬼画符。对！因为扩散模型把图像当像素级连续信号处理，但文字是离散的符号系统。模型学会了字母长什么样，但保证不了拼写正确。 Imagen 4的做法是在扩散过程中加了一个专门的文字渲染模块，相当于在图像生成管线里嵌了个排版引擎，把文本生成从像素级预测提升到字符级精确控制。所以现在生成带文字的海报终于不用后期P字了？实测生成包含长英文的像素风海报，文字零乱码，还自动融合到画面元素里。而且出图速度提升了10倍，基本10秒搞定。好，最后必须聊一下Gemini Live和一句话造App，这两个我觉得最科幻。 Gemini Live是多模态实时交互。实时语音对话就不说了，关键是摄像头实时识别和屏幕共享。打开摄像头，它就是你的眼睛和大脑——不认识的植物即时科普，逛博物馆当私人导游，甚至识别护肤品成分帮你选产品。屏幕共享更狠，AI直接看你屏幕，手把手教你操作。等会儿让我想想……这不就是每个打工人梦寐以求的全能同事吗？哈哈差不多。然后一句话造App——Gemini 2.5编程能力已经超过O3和Claude 4了。AI Studio里有个构建按钮，用自然语言描述需求就能直接生成App。有人17秒用一句话做出一个可运行的游戏，这我看到了。不过说句实话，AI生成的代码在安全性、可维护性方面还是要人工审查的。目前更适合原型验证和个人小工具，别直接拿去上生产环境。你看，这就是为什么我们产品经理还有饭吃——技术能力再强，落地还是得靠人把关。行行行，你们产品经理永远有道理。其实聊完这一圈我最大的感受是，Gemini单项能力可能不是每个都第一，但它跟谷歌生态的融合是真的深。从搜索到邮件到视频到编程，这是一个完整的AI工作流。嗯，这也是我一直说的——比排名更有价值的是实际工作流里的体验。谷歌二十多年的生态积累，现在全变成了Gemini的弹药库。说得好。行，今天就聊到这儿，我回去继续折腾AI Studio去了。下次再找你聊聊实际用下来的坑。随时奉陪，到时候别又聊到凌晨两点就行。

Google AI Studio使用教程：Gemini实战指南从入门到精通

更多播客

AI热点风向标·06月07日午间版

AI热点风向标·06月07日早间版

每日AI新鲜事·06月07日早间播报