MiniMax M3实测对比GPT、Claude、Gemini:五个真实任务谁更强

引言:国产模型能否与第一梯队同台竞技?
当同一张苹果财报图分别交给两个AI模型处理时,一个模型发现了图中隐藏的数据错误并主动指出,另一个则将错误原样照抄进表格。发现问题的那个,是刚发布的国产模型MiniMax M3。
MiniMax M3主打三大亮点:基于上下文的原生多模态能力、前沿代码生成能力,定位直接对标GPT和Claude。所谓"原生多模态"(Native Multimodal),是指模型在预训练阶段就同时学习文本、图像、音频、视频等多种模态的数据,而非在纯文本大模型基础上后接视觉编码器或音频编码器。传统的多模态方案通常采用"桥接"架构——先用CLIP等视觉模型将图像编码为向量,再输入语言模型进行理解,这种方式在跨模态推理时容易丢失细粒度信息。原生多模态架构则让模型从底层就具备对不同信号类型的统一表征能力,理论上能实现更深层次的跨模态关联理解。
为了验证其真实水平,B站UP主"数码趣"设计了五个日常真实任务,用相同提示词让M3与"御三家"(Claude、GPT、Gemini)逐一对比。
网页生成对比:M3 vs Claude的两种设计哲学
第一个测试是网页生成,这也是M3官方宣传的强项之一。测试要求是:编造一个虚拟品牌"DXU",参考Nike官网的布局、配色、字体层级和鼠标交互,生成一个可直接在浏览器打开的网页。
对手选择了Claude最新的Opus 4.8能力(Max档位)。从耗时来看,Claude用了十几分钟,M3花了约半小时。

单独来看,两个成品的完成度都很不错,动效也都实现了。但放在一起对比能看出明显的取向差异:
- M3:生成的页面更长,内容更完整,还自动配了图,倾向于即使只给一句话需求也输出尽可能完整的版本
- Claude:页面更短、更清爽干练,严格根据需求来产出,不做过多延伸
这一局的结论是:两者美感都不错,但体现了截然不同的设计哲学。只要愿意投入时间迭代,两边都能做出优秀的结果。
编程开发对比:M3 Agent Team vs OpenAI Codex
第二个测试选了一个几乎不可能一次完成的任务:开发一个视频剪辑工具,要求能识别口播视频中的语音,自动剪掉重复废稿和静默部分,只保留干净内容重新拼接,还要支持预览。
对手是OpenAI的Codex。Codex在2025年的定位已从早期的代码补全工具演进为一个完整的自主编程Agent,能够在云端沙箱环境中独立运行,接收自然语言指令后自动完成代码编写、调试、测试的全流程。本次测试中Codex使用的是GPT 5.5级别模型,具备强大的长上下文理解和多步推理能力。而M3这边则配合其官方的Agent Team工具来执行。

OpenAI Codex的表现
约20分钟给出了一个能运行的HTML应用,界面可预览、能调用本地语音模型识别文字,但编辑交互上存在一些问题。整体是一个完整框架,细节需要打磨。Codex的设计哲学偏向"快速交付可运行原型",适合需要迅速验证想法的场景。
M3+Agent Team的表现
先用一条指令搭建开发团队,按音频转写、内容分析、视频剪辑、界面、集成分成五个Agent各管一块。Agent Team是一种多智能体协作(Multi-Agent Collaboration)架构,其核心思想源自软件工程中的微服务和分工协作理念。在这种架构中,一个"总指挥"Agent负责任务分解和调度,多个专业Agent各自承担特定子任务,通过消息传递机制交换中间结果。这与AutoGen、CrewAI、MetaGPT等开源多智能体框架的设计理念一脉相承。
整个开发过程耗时近三小时,最终交付了一套Python+语音识别+FFmpeg+桌面端界面的方案。其中FFmpeg是一个开源的跨平台音视频处理框架,几乎是所有涉及视频操作的AI应用的底层依赖,支持几乎所有已知的音视频编解码格式,能够执行剪切、拼接、转码、滤镜等操作。在这套方案中,语音识别模型负责将音频转为带时间戳的文本,AI分析哪些片段需要保留或删除,最后由FFmpeg按时间戳精确裁剪并重新拼接视频。
最让人印象深刻的是M3的协作过程——有统一的总指挥,多个Agent互相传递数据、轮流执行各自负责的环节。相比单Agent一次性生成全部代码,多Agent协作的优势在于:每个Agent可以专注于自己擅长的领域,出错时只需回滚单个环节而非整体重来,且天然支持并行执行以缩短总耗时。这种Agenting逻辑更像是为长期大项目做准备,而Codex则以"能用为先"快速跑通。
AI Agent协作趋势分析
Agenting已成为明确趋势。它将复杂项目拆成并行工序,不同角色协同完成,可以连续运行数小时甚至数天,能扛起单个Agent无法一次完成的复杂度。这是值得所有AI使用者关注的方向。
财报分析对比:M3完胜Gemini 3.1 Pro
这是整场测试中最具说服力的一局。测试素材是苹果2026年Q2财报的可视化图(由Image2模型生成,事后发现图中藏有一处数据错误)。要求两个模型识别图中所有信息并整理成Excel。
这项任务属于多模态文档理解(Multimodal Document Understanding)的范畴,要求模型同时处理文档中的文字、表格、图表、布局等多种信息形态,是当前AI领域的高难度任务之一。传统OCR方案只能提取文字,无法理解图表中数据之间的逻辑关系。而真正的多模态理解需要模型具备三层能力:视觉定位能力(识别图表中每个数据点的位置和数值)、语义推理能力(理解"同比增长"等概念并进行交叉验证)、以及异常检测能力(发现数据之间的逻辑矛盾)。
对手是Gemini 3.1 Pro——UP主近半年使用最多的模型。

Gemini 3.1 Pro的表现
很快完成,表格整齐,数据都填上了——但本质上只是把图"抄了一遍",没有进行任何数据校验。这反映了当前许多多模态模型的共性问题:它们擅长"看到什么说什么",但缺乏对数据进行逻辑一致性检验的主动意识。
MiniMax M3的表现
花了近20分钟,没有选择直接交付。它花了更多时间核对数字,提出了数据有疑点的部分,反复斟酌后在生成的表中明确指出了图里的错误,通过逻辑分析填上了正确的值。M3展现的正是异常检测能力——它不仅读取了数据,还通过交叉验证发现了数据间的不一致,这在当前模型中并不常见。
差异不止于准确性:
- M3做了7个sheet,Gemini是4个
- M3额外计算了同比、利润率、各产品和地区的占比
- M3本质上是根据实际使用需要将这本账重新核对了一遍
为了进一步验证,UP主还让Claude基于苹果原始财报数据充当裁判,最终结论是首推M3生成的版本。在多模态文档理解和结构化数据转换场景中,M3完胜Gemini 3.1 Pro。
视频理解测试:M3原生多模态的独有能力
这个测试展示了M3的独有能力——直接理解长视频内容。给它一段12分钟的英伟达发布会视频,要求看完后生成一份HTML格式的新闻简报(含配图)。
关键点在于:M3是直接"看"视频本身,而不是基于语音转文字来理解。这正是原生多模态架构的优势所在——模型能够同时处理视频中的画面信息(演示文稿、产品展示、演讲者表情)和音频信息(语音内容、语气变化),形成比纯文本转写更丰富的语义理解。传统的视频理解方案通常依赖Whisper等语音识别模型先将音频转为文字,再由语言模型处理文本,这个过程中画面信息几乎完全丢失。

最终产出了一个排版完整的新闻页面,将发布会重点提炼成简报并配了图。经人工核对,内容提炼到位,简报结构客观清晰。UP主评价这是"整场测试里除了财报分析外最让人惊艳的一个环节"。
Computer Use测试:行业共同的未完成课题
最后测试了M3新出的Computer Use功能,让它直接操作电脑,去网页读取小红书账号的粉丝数。M3确实做到了,但过程很慢,体验离好用还有距离。
Computer Use(也称GUI Agent或桌面操作Agent)是指AI模型直接通过屏幕截图理解当前界面状态,并模拟鼠标点击、键盘输入等操作来完成任务。Anthropic在2024年10月率先发布了Claude的Computer Use功能,随后Google和OpenAI也推出了类似能力。其技术难点在于:模型需要在每一步都准确理解屏幕上的UI元素(按钮、输入框、下拉菜单等),规划操作序列,并处理页面加载延迟、弹窗干扰等不确定因素。
这不是M3一家的问题——Codex和Claude的Computer Use功能同样处于打磨阶段。目前所有厂商的实现都存在操作速度慢、容易在复杂界面中迷失、对动态内容处理不佳等共性问题,距离真正替代人类操作电脑还有相当距离,这是整个行业的共同课题。
MiniMax M3价格对比:性价比优势明显
按官方定价,M3大约是Claude Sonnet的两成、Opus的一成出头。API目前还有五折优惠,折后每百万Token输入2.1元、输出8.4元。
这里需要解释一下大模型的计费逻辑:Token是模型处理文本的最小单位,中文大约1.5-2个字对应一个Token,"每百万Token输入2.1元"意味着处理约50-70万字的输入文本成本为2.1元。输出Token通常比输入Token贵3-4倍,因为生成过程需要逐个Token进行推理计算,计算量远大于输入编码阶段。作为参考,Claude Sonnet的输入价格约为每百万Token 3美元(约22元人民币),Opus约为15美元(约109元人民币)。M3折后2.1元的输入价格确实仅为Sonnet的不到十分之一,这种价格差异主要来自国内算力成本优势、模型架构优化以及市场竞争策略等多重因素。
订阅方面,最低档每月49元,不仅包含M3的文字能力,还涵盖图像、语音、音乐等模型额度,更高档位每天还能生成视频。在与御三家掰手腕的同时,价格做到了非常亲民的程度。
总结:MiniMax M3已具备与第一梯队同台竞技的实力
MiniMax M3并非全面超越御三家,官方自己也承认在最难的自主科研任务上与Claude最强模型还有距离。但通过这五个真实任务的测试,可以得出以下结论:
- 多模态文档理解:M3展现了超越Gemini 3.1 Pro的严谨度,能主动发现数据错误,具备当前模型中少见的异常检测与交叉验证能力
- 代码生成能力:与Claude和Codex各有千秋,Agent Team的多智能体协作模式适合复杂项目,而Codex更适合快速原型验证
- 原生视频理解:目前的独有亮点,直接看视频而非依赖语音转写,能同时利用画面和音频信息形成更完整的语义理解
- 价格优势:API和订阅价格远低于海外竞品,输入Token价格不到Claude Sonnet的十分之一,适合AI重度使用者
国产模型能否跟第一梯队同台比较?这次测试给出的答案是肯定的。对于预算有限但需要高质量AI输出的用户,MiniMax M3是一个值得认真考虑的选择。
相关推荐

AITS实测:API+Web+App自动化测试一站式搞定
深度实测AITS智能测试平台,覆盖API接口自动化、Web自动化、App真机云测及性能压测全链路。详解智能驾驶舱、断言规则复用、脚本自动生成等核心功能,帮助测试团队告别重复劳动,提升测试效率。

Codex vs Claude Code vs Cursor:AI编程工具怎么选
深度对比Codex、Claude Code和Cursor三大AI编程工具的价格、稳定性与能力差异。Codex擅长前端UI开发,Claude Code后端逻辑更强,Cursor老牌稳定。帮你根据开发方向选出最适合的AI编程助手。

Hermes Jarvis深度解析:语音驱动的AI全能助手
深度解析Hermes Jarvis语音AI助手的核心功能与五层架构设计。从语音开发应用、系统级操控到多模型集成,全面了解这款将科幻变为现实的智能体助手的能力、局限与未来潜力。