共 6 篇相关文章

Google发布Gemini 3.5 Live Translate语音对语音翻译模型,支持70+语言实时翻译。本文详解其端到端技术原理、与Grab合作落地场景,以及通过Google Translate和Live API的开放接入方式。

用同一份提示词让Minimax M3和DeepSeek V4 Pro各生成一款恐龙快跑游戏,从画面精美度、代码质量、可玩性等维度实测对比,揭示原生多模态模型在游戏开发中的真实优势。
科技前沿DeepSeek发布OCR2视觉理解模型,用大语言模型替代CLIP重构视觉编码器;月之暗面推出Kimi K2.5,集群代理模式可调度100+子代理;微软Maia 200定制AI芯片开始部署;阿里发布Qwen3 Max Thinking正式版。
产品体验深度实测小米MiMo V2.5 Pro开源大模型,1.2万亿参数MoE架构,覆盖macOS克隆、前端UI、Three.js 3D场景、SVG图形生成等实际任务,对比GPT-5.4、Claude Opus 4.6、DeepSeek V4,附详细测试结果与成本分析。
产品体验深度测评Kimi K2.5开源模型:MoE混合专家架构、视觉编码、100个智能体并行协作,性能追平Claude Opus 4.5却仅需1/4成本。详解技术架构、基准测试数据与实际部署方案。
深度解读介绍开源项目claude-skill-video-transcribe,支持YouTube、B站和本地视频转文字。采用优先提取字幕、无字幕时Gemini 2.5 Flash AI听写的双路策略,Python开发,高效实现视频内容转录。