MiniMax M3实测:7项硬核任务揭示真实编程水平

概述
MiniMax M3 今日全量发布,主打原生多模态和超长上下文能力。官方报告措辞高调,暗示性能可对标 Gemini、Claude、GPT 等顶级模型。但宣传归宣传,实际效果如何?B站UP主用7个高难度任务对其进行了系统测试,涵盖3D场景复刻、物理模拟、前端开发等多个维度,最终给出了平均58.3分的成绩单。
这个分数意味着什么?简单说:公式写得漂亮,Demo跑得拉胯。 M3展现出了不错的理论理解能力,但在工程落地层面频频翻车。



原生多模态:氛围到位,细节全丢
M3 的核心卖点是原生多模态能力。测试者给了一张景色照片,要求用 Three.js 复刻3D场景。
结果有喜有忧。三层构图被正确识别——城堡、墙、河谷、连排建筑,大关系和配色方向也接近原图,奶白墙、灰石板、暖光调等氛围要素基本还原。但问题在于:原图中最显眼的河流直接消失了,水面反射、空气透视、国旗、汽车等细节全部丢失。
最终得分62分。评价是"氛围对、几何对、细节很差"。原生多模态确实不是噱头,但也远没到惊艳的程度——看大关系可以,看小细节还得靠人工补充。
物理模拟三连:公式全对,画面全崩
旋转六边形弹球
要求用单文件HTML实现旋转六边形内的弹球效果,不引用任何外部库。M3 理解了"边在转"这个核心概念,用了刚体旋转公式,在接触点精确取线速度——比 M2.7 把边界当静止砖头强了不少。
但默认参数翻车了:空气阻力设为0.06,每秒才衰减5.8%,球会永远弹下去。作为对比,Kimi 的方案用了摩擦系数0.985,碰墙会真实消耗能量。M3把配置权限开放给用户,灵活是灵活了,但"开箱即用"这四个字跟它无缘。
3D圆锥陀螺
这是系列测试中最热门的题目,要求同时处理转动惯量、摩擦力、重力三大力学要素。M3 的物理推导没问题,contact角度和nosleep物理都做对了。
然而画面上——圆锥压根没显示出来。只有一个红点、一根白线、地面一圈弹跳轨迹。问题出在代码层面:底芯位置没错,但底环放在了H=280的位置,底芯比底环还远了76个单位,底面被拉成了延伸的锥面。再加上P5.js默认的背面剔除机制,侧面全被裁掉了。
物理做对了,但你看到的是一个隐形的陀螺。得分50。
SPH粒子流体
SPH(光滑粒子流体动力学)听起来很唬人,但M3的输出让人哭笑不得:720颗粒子全堆在屏幕底部,薄薄一层,像撒了一把黄米。屏幕80%是黑色,没有水柱、没有飞溅、没有密度梯度、没有水面波纹。
代码层面,物理公式全对。但初始化位置就直接放在了底部,重力280开局,3秒沉降完毕,没有流入源、没有初始动能、没有团流效果。
用测试者的话说:"写出了论文,但Demo连碗都画反了。" 得分50。
光学折射:最讽刺的翻车
折射光线追踪是整场测试中最讽刺的一项。要求渲染一颗玻璃球,透过球体看到背景的折射效果。
M3 交出的画面是一颗黑金属色的球体,只能看到下半部分的棋盘反射,完全看不到应该倒立反转的背景图像。本该是玻璃球,M3 做成了镀铬钢珠。
代码分析显示,Snell公式写得一个不差,但参数配置导致几乎全是反射分量,折射光线的出射方向实际打到了深色天空背景上,没有透射到地面。
物理全对,光学全错。得分38,全场最低。
亮点项目:Boids群飞与前端看板
Boids群飞——全场最佳
M3 用 Three.js 将经典的 Boids 群飞算法升级到了3D,100多个鸟实时运动,分离、对齐、聚合三条规则外加边界和鼠标力共5个力,OrbitControls拖动、速度色相映射都有,视觉完成度是全场最高的。
唯一的问题在鼠标吸引的引力场实现上:距离越近力越大,导致粒子被拉过头后反复震荡、螺旋加速——这是经典的引力场陷阱,没做距离衰减的下限保护。但总体而言,得分78,是M3发挥最好的一项。
拖拽看板
功能层面基本合格:To Do / In Progress / Done 三列增删改拖全跑通,LocalStorage 持久化,拖拽顺滑,UI风格接近 Linear / Notion 的调性。
但生产级问题一堆:用中文提示词写的需求,UI却全是英文;Add Column新建的列标题硬编码为"New Column",不接受中文输入;多列布局下列宽写死208px,超出屏幕只能横向滚动,完全没有响应式设计。
拖拽逻辑满分,i18n零分,响应式零分。 功能能跑,但生产环境拿不出手。得分60。
总结:理论强悍,工程薄弱
| 测试项目 | 得分 | 核心问题 |
|---|---|---|
| 多模态场景复刻 | 62 | 细节全丢 |
| 旋转弹球 | - | 默认参数不可用 |
| Boids群飞 | 78 | 引力场bug |
| 3D圆锥陀螺 | 50 | 几何渲染缺席 |
| 光学折射 | 38 | 玻璃变钢珠 |
| SPH流体 | 50 | 粒子全沉底 |
| 拖拽看板 | 60 | 国际化/响应式缺失 |
平均分58.3,这个成绩说明MiniMax M3在理论推导和算法理解上有明显进步,但在参数调优、几何渲染、工程细节上仍有大量短板。
M3 的典型模式是:公式写对了,但Demo跑崩了。 它能写出Snell定律、SPH方程、刚体旋转公式,但参数初始化、边界条件、渲染管线这些"最后一公里"的工程问题,频频成为致命伤。
要说对标 Gemini、Claude、GPT?以目前的实测表现来看,MiniMax M3 在复杂编程任务上还有不小的距离要追赶。但公平地说,原生多模态和超长上下文的基础能力确实在线,只是从"能理解"到"能做好"之间,还隔着不少工程打磨的功夫。
相关推荐

Claude Code是什么?与普通AI对话的五大核心区别
深入解析Claude Code与ChatGPT、DeepSeek等普通AI对话工具的五大核心区别,从交互方式、上下文理解、执行力、记忆能力到工具调用,全面了解这款AI编程助手的真正实力。

Claude Code vs Codex深度对比:技术趋同下谁更值得选
深度对比Claude Code与OpenAI Codex在先发优势、技术架构、市场份额和工程稳定性方面的差异。从18:4的创新领先到功能像素级对齐,解析AI编程工具趋同时代的终极选择标准。

Claude Code每天必用的5个技巧:让AI反过来盘问你
分享Claude Code高效编程的5个实用技巧:Grill Me逼问需求、Brainstorming方案选型、Writing Plan执行计划、TDD测试驱动、Debugging精准修复,串成完整AI编程工作流,告别模糊需求和来回返工。