哎李博,你最近有没有在自己电脑上跑过本地模型?
怎么突然问这个?你该不会又想让我帮你配环境吧。
没有没有,我是看到千问3VL出了小版本,说是旧MacBook都能跑,我就心动了。我那台M1的16G内存还能抢救一下?
嗯,这个确实是本周最实用的更新。Qwen3VL出了4B、8B和一个30B-A3B的版本,那个30B的用了MoE架构,总参数300亿但每次只激活30亿。
等会儿,MoE是啥?你用人话说。
你可以理解为一个公司有三十个专家,但每次开会只叫三个最相关的来。所以虽然公司人多,但会议室不需要很大。
哦这样!所以我那台五年前的破本也能当会议室?
对,M1的统一内存架构天然适合跑这种模型。CPU和GPU共享内存,不像传统PC那样被显存卡脖子。16G跑8B的量化模型绑绑有余。
这对我们普通用户也太友好了吧。不用花几万买显卡,家里吃灰的旧笔记本就行。
而且它是视觉语言模型,能看图能聊天。你做产品的话,拿来做个本地的图片理解demo完全够用。
说到模型更新,我还看到Claude出了个Haiku 4.5,说是便宜了但编程能力下降。你怎么看小模型写代码这事?
我跟你说,这个观点我特别想强调——编程场景下,用最好的模型反而是最省钱的。
真的假的?贵的反而省钱?
你想啊,一个80分的模型和95分的模型,差距不是线性的。80分的模型在中间步骤出个错,错误会级联放大,你可能要花三到五倍时间去调试。
调试一个逻辑bug的时间成本,远高于多花几美分的API费用。先用小模型生成再人工修补,这个工作流本身就是伪命题。
懂了懂了,这个我在工作里深有体会。我们团队之前也试过用便宜模型先出初稿,结果改来改去还不如直接上最好的。
对,省小钱花大时间,这是最经典的false economy。
诶对了,我最近刷到一篇文章,写得特别好,叙述很有温度,结果后来发现是AI写的。就很离谱。
哈哈,你也中招了。现在AI生成内容已经远超人类产出了,2024年11月的数据就证实了。
以前我还能靠看手指、看光影判断AI图片,现在连这些破绽都越来越少了。
文字加上提示词优化就很难分辨,图片破绽在消失,视频目前还能看出抖动,但你家老人肯定分不出来。
更深层的问题是——当AI生成和人类创作质量趋同时,检测本身的意义就模糊了。我们到底是在检测来源还是检测质量?
这个问题好可怕。那聊点让人兴奋的——Karpathy那个nano-chat你看了吗?100美元从零复刻ChatGPT!
看了看了,Karpathy这人就是牛。他的核心主张是:如果你不能从零写出它,你就不能说你真正懂它。
所以这项目具体做了啥?
完整复现了预训练、监督微调、再到RLHF的全流程。就是ChatGPT从一个会说话的模型变成有用的助手的那三步。租四小时GPU,大概100美元就跑完了。
他还说了个暴论对吧?今年不是智能体元年?
对,他说我们正处在智能体发展的十年当中,不是一蹴而就的事。现在Agent的错误率会随任务步骤数指数级增长,可靠性还差得远。
十年啊……我们产品经理天天喊Agent落地,结果大佬说还要十年。
哈哈,你们产品经理就知道催落地。但他说得对,渐进发展不代表没进展,只是别指望明天就能让AI帮你全自动干活。
他还说了个很有意思的——人类的遗忘不是bug是feature?
这个呼应认知科学里的主动遗忘理论。人脑通过忘掉无关信息来保持决策效率,AI的无限上下文反而可能导致信息过载式的决策退化。
好,最后必须聊那个AI炒币实验。Nof1给7个模型每个一万美元真金白银去炒加密货币?
对,24小时不间断交易,每个模型通过API接收实时数据,自己决定买卖。
结果呢?谁赢了?
DeepSeek R1大幅领先,从多赚200到2000再到4000美元,一路碾压。
就很离谱!为什么是DeepSeek?
可能跟它强化学习训练带来的长链推理能力有关。加密市场需要综合多维度信息做复杂判断,这恰好是R1的强项。当然几周数据不够下定论,随机性很大。
但这个实验本身就很有意义——AI不再只是工具了,它在做决策,在参与真实世界的运转。
嗯,某种程度上它们已经是这个世界的一部分了。模型在迭代、应用在开花、AI内容超越人类产出……这些变化的速度,可能比我们预想的都快。
所以李博你觉得,未来两年会是什么节奏?
用Karpathy的话说,近百年科技发展已经是超速了,接下来是神速。我们能做的就是保持学习,别掉队。