AI周报：Qwen3VL本地部署、Karpathy Agent观点与AI炒币实验

这是B站UP主大黑的「AI周体验」系列最后一期。虽然是告别，但信息密度依然拉满——从模型更新到行业观察，从Karpathy的Agent暴论到让AI用真金白银炒币的社会实验，每一个话题都值得展开聊聊。

本周AI模型动态速览

Claude Haiku 4.5：便宜但编程能力明显下降

Anthropic发布了Claude的小号模型Haiku 4.5，价格确实便宜了不少，但编程能力也明显下降。大黑提出了一个很实在的观点：在编程场景下，用最顶尖的模型反而是最省钱省时间的选择。那种"先用小模型生成、再人工修补"的工作流本身就是伪命题——修补的时间成本算进去，你其实什么都没省下。

这个观点我非常认同。Anthropic的Claude模型家族采用三级命名体系：Opus（最强）、Sonnet（中等）、Haiku（轻量）。Haiku定位为低延迟、低成本的推理模型，适合高频调用场景。但模型蒸馏——即将大模型的能力压缩到小模型中——本身存在能力损耗的天然瓶颈，尤其在需要长链推理的编程任务中，小模型容易在中间步骤出错，导致错误级联放大。模型能力的差距不是线性的，在复杂编程任务中，一个80分的模型和一个95分的模型之间的差距，往往意味着你需要花3-5倍的时间去调试和修正。这也是为什么编程场景下"用最好的模型反而最省钱"——因为调试一个逻辑错误的时间成本远高于多花几美分的API调用费用。

百度OCR小模型：0.9B参数的精准选手

百度发布了一个仅0.9B参数的专用OCR模型，主攻文档和发票识别。参数虽小，识别效果却相当精准。

OCR（Optical Character Recognition，光学字符识别）是将图片中的文字转化为可编辑文本的技术，广泛应用于发票识别、文档数字化、车牌识别等场景。传统OCR依赖规则引擎和模板匹配，而基于深度学习的OCR模型能处理更复杂的版式和字体。百度这个0.9B参数的模型之所以能在如此小的体量下保持高精度，关键在于"专用"二字——它不需要理解语义、不需要对话能力，只需要精准地完成"看图识字"这一件事。这说明在垂直场景下，小而专的模型依然有巨大价值——不是所有任务都需要百亿参数的通用大模型。通用大模型和垂直小模型将长期共存，各有其不可替代的价值。

Qwen3VL本地部署实测：旧MacBook也能跑

千问3VL推出了4B、8B和30B-A3B等多个小版本，这可能是本周最实用的模型更新。

我五年前买的M1的16G内存的笔记本

Qwen3VL是阿里千问团队推出的视觉语言模型（Vision-Language Model），"VL"即代表它同时具备图像理解和文本生成能力。其中30B-A3B版本采用了MoE（Mixture of Experts，混合专家）架构——虽然总参数量为300亿，但每次推理只激活约30亿参数，这大幅降低了运算需求。

大黑实测，五年前购买的M1芯片、16GB内存的MacBook就能流畅运行Qwen3VL，而且8B版本的对话效果已经相当可用。苹果M系列芯片之所以能流畅运行这类模型，得益于其统一内存架构（Unified Memory Architecture）：CPU和GPU共享同一块内存，避免了传统PC上显存不足的瓶颈。16GB内存虽然不算大，但对于8B级别的量化模型已经绑绑有余。这个尺寸的模型对普通用户极其友好，意味着你不需要花几万块买显卡，手头的旧笔记本就能体验本地大模型。

谷歌与OpenAI：互相挤牙膏的博弈

大家一直在等的Gemini 3.0虽然各种测试成绩已经曝光，但迟迟不发布，同时2.5 Pro还被曝出降质。谷歌的VEO 3.1一发布，倒是把Sora 2的能力又"逼"出来了一点。大黑的判断很到位：各家都在挤牙膏，藏着能力等对手先出招。VEO的中文效果并不好，整体也没掀起太大波澜。

AI生成内容已远超人类产出

这个趋势在2024年11月就被统计数据证实了，但大黑最近亲身经历了一件事，让他对此有了更深的体感：他刷到一篇文章，觉得写得非常好、叙述过程很人性化，结果发现是AI生成的。

已经不光是文字啊,就图片视频也都被各种AI生成的内容给充斥了

大黑总结了目前各类AI生成内容的辨识难度：

文字：直接生成有明显的"AI味"，但加上提示词优化和人工修改后就很难分辨
图片：以前看光影、看手指就能判断，但现在这些破绽越来越不明显
视频：目前还能通过画面抖动等特征一眼看出，但家里的老年人已经完全无法分辨

目前主流的AI生成内容检测方法包括：统计特征分析（如文本困惑度perplexity检测）、水印技术（在生成时嵌入不可见标记）、以及训练专门的判别模型。但这些方法面临一个根本性的"军备竞赛"困境——每当检测技术进步一步，生成技术就能针对性地绕过检测。OpenAI曾在2023年推出AI文本检测工具，但因准确率不足26%而被迫下线。更深层的问题是，当AI生成内容与人类创作在质量上趋于一致时，"检测"本身的意义也变得模糊——我们究竟是在检测来源，还是在检测质量？

这里有一个值得深思的问题：当我们完全无法分辨AI生成内容的那一天到来时，意味着什么？ 信息的可信度、创作的价值、甚至"真实"这个概念本身，都将面临根本性的重新定义。

Karpathy的两件大事

nano-chat开源项目：100美元从零复刻ChatGPT

AI界大神Andrej Karpathy开源了nano-chat项目，展示了从零构建一个类ChatGPT系统的完整过程。最终效果比GPT-2强，当然和现在的前沿模型差距还很大。

等之后我会去试一下,如果能跑得通就给大家抽视频

Karpathy是深度学习领域最具影响力的教育者之一，曾任特斯拉AI总监和OpenAI创始团队成员。他此前开源的nanoGPT项目已经成为全球AI学习者的必修课。nano-chat在nanoGPT基础上更进一步，完整复现了从预训练（Pre-training）到监督微调（SFT, Supervised Fine-Tuning）再到RLHF（基于人类反馈的强化学习）的全流程。这三个阶段正是ChatGPT从"会说话的语言模型"变成"有用的AI助手"的关键步骤。

Karpathy的核心主张是：如果你不能从零开始写出它，你就不能说你真正懂它。 这个项目有一定技术门槛，需要租用大约4小时、100美元左右的GPU服务器（通常来自Lambda、Vast.ai等云GPU租赁平台，按小时计费），所以项目简介写的是"100美元就能买到的ChatGPT"。这让个人开发者也能负担得起短时间的大规模训练，真正做到"从零理解AI"。

Karpathy谈AI Agent：我们正处在智能体发展的十年之中

在一个两小时的播客访谈中，Karpathy围绕AI Agent抛出了多个引发争议的观点：

今年不是智能体元年——现在的问题还很多，智能体是一个渐进发展的过程
我们正处在智能体发展的十年当中——不是一蹴而就，而是持续演进
人类的遗忘记忆不是bug，而是feature——AI的上下文能力虽强，但人类选择性遗忘的机制有其独特价值
AI最终会替代高达99%的人类工作

这里有必要解释一下AI Agent（智能体）与普通AI模型的核心区别——它在于"自主性"。Agent不仅能回答问题，还能自主规划任务、调用工具、与环境交互并根据反馈调整策略。当前主流的Agent框架（如LangChain、AutoGPT、CrewAI）通常采用ReAct（Reasoning + Acting）范式，让模型在"思考-行动-观察"的循环中完成复杂任务。Karpathy所说的"渐进发展"指的是：当前Agent在可靠性、长期记忆、多步骤规划等方面仍存在显著缺陷，错误率会随任务步骤数指数级增长。他关于"遗忘是feature"的观点则呼应了认知科学中的"主动遗忘"理论——人脑通过遗忘无关信息来保持决策效率，而AI的无限上下文反而可能导致"信息过载"式的决策退化。

大黑对此的感受是：如果说近百年的科技发展已经是超速的，那么未来两年、十年将是"神速"的，世界的变化将无比巨大。

Nof1的AI炒币实验：7个模型用真金白银交易

本周最有趣的项目来自Nof1——他给7个AI模型每个1万美元的真金白银，让它们自主进行加密货币交易，观察各自的盈亏表现。

就在我做视频的时候

这类AI自主交易实验通常基于以下架构：每个AI模型通过API接收实时市场数据（价格、交易量、链上指标等），在系统提示词（System Prompt）中被赋予交易者角色和风险管理规则，然后输出买入/卖出/持有的决策，由程序自动执行链上交易。加密货币市场因其24/7不间断交易、高波动性和数据完全公开的特性，成为测试AI决策能力的理想试验场。

这个AI炒币实验的局势变化非常戏剧性：

一开始DeepSeek R1领先
写稿时领先的变成了GPT-4.5
做视频时DeepSeek又直接大幅领先，从最初多赚200美元，到2000美元，再到4000美元

DeepSeek R1的领先表现可能与其强化学习训练带来的长链推理能力有关——加密市场的趋势判断需要综合多维度信息进行复杂推理，这恰好是R1相对于其他模型的优势所在。当然也需要注意，短期交易表现存在很大的随机性，几周的数据不足以得出统计显著的结论。

大黑特别称赞了这个项目的网站设计——它实时展示了每个模型的思考过程和具体操作金额。这让人想起之前让AI大模型玩宝可梦的社会实验（顺便说一句，那些AI到现在还在打，太不容易了）。

这个实验的深层意义在于：AI不再只是工具，它们正在做出自己的决策，参与真实世界的运转，某种程度上已经成为了这个世界的一部分。

写在最后

这是「AI周体验」系列的最后一期。大黑坦言，从数据反馈来看，AI的故事不适合用新闻周报的方式来讲述。但这不意味着停更，而是换一种更有意思的方式继续和大家聊AI。

三周的AI周体验虽然短暂，但它捕捉到了一个关键的时代切面：模型在快速迭代、应用在遍地开花、AI生成内容已经超越人类产出、大佬们在思考更深层的问题，而AI本身正在从工具变成世界的参与者。这些变化的速度，可能比我们任何人预想的都要快。

核心要点

千问3VL推出4B/8B等小版本，五年前的M1 MacBook即可本地运行，对普通用户极其友好
AI生成内容已远超人类产出，文字、图片、视频的AI辨识难度正在逐步降低
Karpathy开源nano-chat项目并提出暴论：今年不是智能体元年，我们正处在智能体发展的十年之中
Nof1发起AI真金白银炒币实验，7个模型各持1万美元自主交易，DeepSeek表现突出
各大厂商互相挤牙膏式发布，谷歌VEO 3.1逼出Sora 2更多能力，Gemini 3.0仍未发布

本周AI模型动态速览

Claude Haiku 4.5：便宜但编程能力明显下降

百度OCR小模型：0.9B参数的精准选手

百度发布了一个仅0.9B参数的专用OCR模型，主攻文档和发票识别。参数虽小，识别效果却相当精准。

Qwen3VL本地部署实测：旧MacBook也能跑

千问3VL推出了4B、8B和30B-A3B等多个小版本，这可能是本周最实用的模型更新。

我五年前买的M1的16G内存的笔记本

谷歌与OpenAI：互相挤牙膏的博弈

AI生成内容已远超人类产出

已经不光是文字啊,就图片视频也都被各种AI生成的内容给充斥了

大黑总结了目前各类AI生成内容的辨识难度：

文字：直接生成有明显的"AI味"，但加上提示词优化和人工修改后就很难分辨
图片：以前看光影、看手指就能判断，但现在这些破绽越来越不明显
视频：目前还能通过画面抖动等特征一眼看出，但家里的老年人已经完全无法分辨

Karpathy的两件大事

nano-chat开源项目：100美元从零复刻ChatGPT

AI界大神Andrej Karpathy开源了nano-chat项目，展示了从零构建一个类ChatGPT系统的完整过程。最终效果比GPT-2强，当然和现在的前沿模型差距还很大。

等之后我会去试一下,如果能跑得通就给大家抽视频

Karpathy谈AI Agent：我们正处在智能体发展的十年之中

在一个两小时的播客访谈中，Karpathy围绕AI Agent抛出了多个引发争议的观点：

今年不是智能体元年——现在的问题还很多，智能体是一个渐进发展的过程
我们正处在智能体发展的十年当中——不是一蹴而就，而是持续演进
人类的遗忘记忆不是bug，而是feature——AI的上下文能力虽强，但人类选择性遗忘的机制有其独特价值
AI最终会替代高达99%的人类工作

大黑对此的感受是：如果说近百年的科技发展已经是超速的，那么未来两年、十年将是"神速"的，世界的变化将无比巨大。

Nof1的AI炒币实验：7个模型用真金白银交易

本周最有趣的项目来自Nof1——他给7个AI模型每个1万美元的真金白银，让它们自主进行加密货币交易，观察各自的盈亏表现。

就在我做视频的时候

这个AI炒币实验的局势变化非常戏剧性：

一开始DeepSeek R1领先
写稿时领先的变成了GPT-4.5
做视频时DeepSeek又直接大幅领先，从最初多赚200美元，到2000美元，再到4000美元

这个实验的深层意义在于：AI不再只是工具，它们正在做出自己的决策，参与真实世界的运转，某种程度上已经成为了这个世界的一部分。

写在最后

核心要点

千问3VL推出4B/8B等小版本，五年前的M1 MacBook即可本地运行，对普通用户极其友好
AI生成内容已远超人类产出，文字、图片、视频的AI辨识难度正在逐步降低
Karpathy开源nano-chat项目并提出暴论：今年不是智能体元年，我们正处在智能体发展的十年之中
Nof1发起AI真金白银炒币实验，7个模型各持1万美元自主交易，DeepSeek表现突出
各大厂商互相挤牙膏式发布，谷歌VEO 3.1逼出Sora 2更多能力，Gemini 3.0仍未发布

AI周报：Qwen3VL本地部署、Karpathy Agent观点与AI炒币实验

本周AI模型动态速览

Claude Haiku 4.5：便宜但编程能力明显下降

百度OCR小模型：0.9B参数的精准选手

Qwen3VL本地部署实测：旧MacBook也能跑

谷歌与OpenAI：互相挤牙膏的博弈

AI生成内容已远超人类产出

Karpathy的两件大事

nano-chat开源项目：100美元从零复刻ChatGPT

Karpathy谈AI Agent：我们正处在智能体发展的十年之中

Nof1的AI炒币实验：7个模型用真金白银交易

写在最后

核心要点

相关推荐

Windsurf CEO深度访谈：速度是唯一的护城河

被低估即自由：AI时代的逆向竞争哲学

新教工作伦理如何被劫持：从保护工人到压迫工人的演变

AI周报：Qwen3VL本地部署、Karpathy Agent观点与AI炒币实验

本周AI模型动态速览

Claude Haiku 4.5：便宜但编程能力明显下降

百度OCR小模型：0.9B参数的精准选手

Qwen3VL本地部署实测：旧MacBook也能跑

谷歌与OpenAI：互相挤牙膏的博弈

AI生成内容已远超人类产出

Karpathy的两件大事

nano-chat开源项目：100美元从零复刻ChatGPT

Karpathy谈AI Agent：我们正处在智能体发展的十年之中

Nof1的AI炒币实验：7个模型用真金白银交易

写在最后

核心要点

相关推荐

Windsurf CEO深度访谈：速度是唯一的护城河

被低估即自由：AI时代的逆向竞争哲学

新教工作伦理如何被劫持：从保护工人到压迫工人的演变