#原生多模态模型

共 6 篇相关文章

Google发布Gemini 3.5 Live Translate语音对语音翻译模型，支持70+语言实时翻译。本文详解其端到端技术原理、与Grab合作落地场景，以及通过Google Translate和Live API的开放接入方式。

用同一份提示词让Minimax M3和DeepSeek V4 Pro各生成一款恐龙快跑游戏，从画面精美度、代码质量、可玩性等维度实测对比，揭示原生多模态模型在游戏开发中的真实优势。

DeepSeek发布OCR2视觉理解模型，用大语言模型替代CLIP重构视觉编码器；月之暗面推出Kimi K2.5，集群代理模式可调度100+子代理；微软Maia 200定制AI芯片开始部署；阿里发布Qwen3 Max Thinking正式版。

深度实测小米MiMo V2.5 Pro开源大模型，1.2万亿参数MoE架构，覆盖macOS克隆、前端UI、Three.js 3D场景、SVG图形生成等实际任务，对比GPT-5.4、Claude Opus 4.6、DeepSeek V4，附详细测试结果与成本分析。

深度测评Kimi K2.5开源模型：MoE混合专家架构、视觉编码、100个智能体并行协作，性能追平Claude Opus 4.5却仅需1/4成本。详解技术架构、基准测试数据与实际部署方案。

介绍开源项目claude-skill-video-transcribe，支持YouTube、B站和本地视频转文字。采用优先提取字幕、无字幕时Gemini 2.5 Flash AI听写的双路策略，Python开发，高效实现视频内容转录。