李博!上次你跟我安利Gemini,我回去折腾了一晚上,发现这东西水比我想的深太多了。
哈哈,上瘾了吧?你用的是官网还是AI Studio?
一开始就官网随便聊了聊,感觉跟ChatGPT也差不多嘛。后来你说要用AI Studio,我点进去——好家伙,完全不是一个量级。
对,其实Gemini有三种用法,层次完全不同。最基础的就是官网直接聊天,零门槛,有手就行。
但官网也不是啥都没有啊,我发现底下有个Canvas开关,打开之后右边多出来一个编辑器,可以直接改AI输出的内容,调语气、调篇幅,挺方便的。
嗯,Canvas算是个轻量编辑器。但真正猛的是Deep Research,这个你试了没?
试了!它能同时搜几百个网站帮你做调研,我让它帮我查了一个竞品分析的课题,出来的报告还能一键转网页、转信息图,甚至能生成播客音频——支持24种语言。
这就是谷歌的底牌了。第二种用法是在Gmail、Google Docs这些应用里直接侧边栏调Gemini,回邮件、做表格图表,根本不用切窗口。
这个我在公司感受特别深,谷歌全家桶用户简直是被偏爱的。
但如果你是认真想提效率,第三种——Google AI Studio才是正经战场。它面向开发者和创作者,功能选项比官网丰富得多,同样的问题回答质量都不一样。
诶对,我进去之后看到右边有个温度参数,Temperature,这个到底怎么理解?我调高调低感觉输出差别挺大的。
你可以这么想——模型每生成一个词,其实是在一堆候选词里按概率挑。温度就是控制它"敢不敢冒险"的旋钮。
温度低,它就老老实实选概率最高的词,输出很稳很精确;温度高,那些低概率的词也有机会被选中,输出就更跳脱、更有创意。
所以写代码调低,写文案调高?
完全正确。温度0适合事实问答和代码,0.7到1.2适合创意写作和头脑风暴。你们产品经理写PRD就调低点。
得了吧,我写PRD才不用AI呢——好吧其实用了。还有个系统指令我觉得特别实用,预设角色之后AI就不会跑偏了。
系统指令本质上是prompt engineering的产品化。它在API层面被标记为system角色,模型会把它当成整个对话不可违背的基础约束。
比如你在系统指令里写"全部用中文输出",比每条消息里都重复说一遍有效多了。还有个Prompt Gallery,谷歌直接给你做好了各种场景模板,免费的,别花冤枉钱买提示词了。
好,这些设置我搞明白了。但真正让我震惊的是YouTube视频解析——李博,这个太离谱了。
哈哈,说说你的体验。
我把一个一小时的YouTube视频链接丢给它,不到一分钟,核心要点、思维逻辑全给我整理出来了。同样的东西给ChatGPT,出来的总结短得可怜。
而且它不只是提取字幕,它是真的"看懂"了视频。你试过给它一个影视片段没有?它能告诉你这是哪部电影,还能分时间段描述画面内容。
真的假的?!它怎么做到的?
因为Gemini是原生多模态架构。不像早期那种把视觉模型和语言模型分开训练再拼一起的方案,它从训练阶段就同时处理文本、图像、音频和视频。
用统一的Transformer架构做跨模态理解,所以它能真正理解画面里物体的空间关系、时间序列和语义。不是在猜,是在"看"。
那网页信息提取呢?我之前用ChatGPT附链接,经常出现幻觉,生成的内容看着像那么回事,一查全是编的。
幻觉问题是所有大模型的通病,因为本质上它们是概率文本生成器,不是知识检索系统。但Gemini在这方面确实有优势。
谷歌做了二十多年搜索,Googlebot爬虫、知识图谱、RAG架构全都深度整合进来了。模型生成回答时能实时检索和验证网页信息,不是光靠训练时的记忆。
怪不得,这就是搜索引擎老大哥的护城河。诶,我还发现它能生成语音?
对,AI Studio里有语音生成功能,单人双人模式都有。双人模式特别有意思,你分别设两个角色的名称和音色,用脚本生成器分配台词,直接出双人对谈音频。
做播客的人听了要哭了吧——等等,我们是不是也该担心一下。
哈哈你放心,咱俩的互怼AI还学不来。
行,那文生图呢?Imagen 4我看很多人在吹。
这个确实值得吹。你知道AI生图最大的痛点是什么吗?
文字乱码嘛,生成的图片里文字全是鬼画符。
对!因为扩散模型把图像当像素级连续信号处理,但文字是离散的符号系统。模型学会了字母长什么样,但保证不了拼写正确。
Imagen 4的做法是在扩散过程中加了一个专门的文字渲染模块,相当于在图像生成管线里嵌了个排版引擎,把文本生成从像素级预测提升到字符级精确控制。
所以现在生成带文字的海报终于不用后期P字了?
实测生成包含长英文的像素风海报,文字零乱码,还自动融合到画面元素里。而且出图速度提升了10倍,基本10秒搞定。
好,最后必须聊一下Gemini Live和一句话造App,这两个我觉得最科幻。
Gemini Live是多模态实时交互。实时语音对话就不说了,关键是摄像头实时识别和屏幕共享。
打开摄像头,它就是你的眼睛和大脑——不认识的植物即时科普,逛博物馆当私人导游,甚至识别护肤品成分帮你选产品。屏幕共享更狠,AI直接看你屏幕,手把手教你操作。
等会儿让我想想……这不就是每个打工人梦寐以求的全能同事吗?
哈哈差不多。然后一句话造App——Gemini 2.5编程能力已经超过O3和Claude 4了。AI Studio里有个构建按钮,用自然语言描述需求就能直接生成App。
有人17秒用一句话做出一个可运行的游戏,这我看到了。
不过说句实话,AI生成的代码在安全性、可维护性方面还是要人工审查的。目前更适合原型验证和个人小工具,别直接拿去上生产环境。
你看,这就是为什么我们产品经理还有饭吃——技术能力再强,落地还是得靠人把关。
行行行,你们产品经理永远有道理。
其实聊完这一圈我最大的感受是,Gemini单项能力可能不是每个都第一,但它跟谷歌生态的融合是真的深。从搜索到邮件到视频到编程,这是一个完整的AI工作流。
嗯,这也是我一直说的——比排名更有价值的是实际工作流里的体验。谷歌二十多年的生态积累,现在全变成了Gemini的弹药库。
说得好。行,今天就聊到这儿,我回去继续折腾AI Studio去了。下次再找你聊聊实际用下来的坑。
随时奉陪,到时候别又聊到凌晨两点就行。