开源AI桌宠小猫：Qwen 3.5 Omni+ESP32打造全模态智能伙伴

一只巴掌大的AI小猫，能看、能听、能说，还能记录你一整天做了什么——这个开源项目把全模态大模型塞进了一个可以放进口袋的硬件里，效果出乎意料地好。

项目概览：一只有灵魂的AI桌面宠物

这个开源项目打造了一只迷你AI桌面猫咪，体积小到可以放进口袋、挂在脖子上，但功能却异常丰富。硬件上，它配备了四个舵机（分布在脖子和耳朵位置）、一块超高清液晶显示屏和一个摄像头，主控板采用ESP32-S3。软件层面，项目接入了通义千问Qwen 3.5 Omni全模态模型，赋予了这只小猫真正的"感知"和"交流"能力。

AI小猫硬件展示，配备超高清液晶显示屏

最有意思的设计理念是：你甚至可以把自家猫咪的照片拍下来，让它"赛博附身"到这个硬件上，拥有一只永远不会打翻你东西的数字猫咪。

核心能力：全模态模型带来的交互质变

情感化语音交互

与传统AI硬件不同，这只小猫的语音回复是带情绪的。要理解这一点，需要先了解传统AI语音交互系统的局限：它们采用流水线（Pipeline）架构，由ASR（自动语音识别）、NLU（自然语言理解）、NLG（自然语言生成）、TTS（文本转语音）四个独立模块串联而成。这种架构的问题在于，每个模块都有独立的延迟，叠加后总延迟通常在1-3秒；更关键的是，语音中携带的情感、语气、语速等副语言信息（Paralinguistic Information）在ASR阶段被转换为纯文本时会彻底丢失，TTS再生成时只能依赖文本内容重新"猜测"情感，导致输出语音显得机械生硬。

Qwen 3.5 Omni采用端到端架构，通过统一的模型直接建立语音输入到语音输出的映射，情感特征在整个处理过程中以连续向量的形式保留，跳过了传统的"语音识别→文字理解→文字转语音"的冗长链路，直接实现了语音到语音的交互。这意味着更低的延迟，以及更自然的语气和情绪表达——这也是这只AI小猫能够真正"撒娇"的技术根基。

AI小猫与用户进行语音交互

当你让它撒娇时，它真的会用撒娇的语气回应；让它激动地打招呼，语调也会随之变化。这种细腻的情感表达在以往的AI硬件上很难做到，因为情绪信息会在多步转换中逐步损失。

视觉感知与手势互动

搭载摄像头并接入全模态模型后，这只AI桌宠能"看到"你。所谓全模态模型（Omni Model），是指能够同时处理文本、语音、图像、视频等多种输入输出形式的统一神经网络模型。与传统的多模态系统不同，全模态模型采用端到端训练范式，所有模态的理解与生成共享同一套参数和表示空间，跨模态信息能够在统一的语义空间中自然融合。因此，这只小猫的回复不仅基于你的声音，还会结合图像信息进行一体化思考，而非两套系统各自处理再拼接结果。

更有趣的是，项目设计了手势交互功能——你挥挥手，小猫就会追随你的方向与你互动，真的有一种"逗猫"的感觉。你甚至可以问它"我长得咋样"来测试它的视觉能力，虽然回答可能让你哭笑不得，但它确实已经能够看到并理解你的样子了。

一日记录与智能复盘

这是整个项目中最具实用价值的功能，本质上是一种"生命日志"（Lifelogging）应用——通过可穿戴设备持续记录个人的视觉、听觉经历，再借助AI进行结构化整理和检索。这一概念最早由微软研究院在2000年代系统性提出，但受限于当时的存储成本和AI理解能力，始终停留在学术阶段。近年来随着大视觉语言模型的突破，这类应用才真正走向普通用户，Rewind.ai、Limitless等产品都在探索类似方向。

把小猫挂在脖子上外出，它会从第一视角记录你一天的经历，大模型在后台对每一帧音视频画面进行逐帧分析。Qwen 3.5 Omni支持更长的视频理解上下文窗口，能够对连续帧画面进行时序关联分析，而非孤立地理解单帧图像，这使得跨时间段的推理成为可能。到了晚上，你可以点击"一键总结"，它会帮你复盘整理——今天去了哪里、遇到了谁、做了什么有趣的事。对于健忘的人来说，这简直是一个随身的记忆助手。

桌面监督与健康提醒

把小猫放在桌面上，它会默默观察你的行为：你是不是一直在玩手机？多久没喝水了？有没有起来活动一下？摸鱼了多长时间？这些信息都会存储在记忆中，下次对话时它会主动提醒你注意健康。

这个功能巧妙地利用了Omni模型的音视频理解能力，把一个玩具级别的桌宠变成了真正有用的生产力工具。

技术架构解析：为什么选Qwen 3.5 Omni

项目作者坦言，之前一直没想好用什么模型来"驾驭这个躯壳

开源AI桌宠小猫：Qwen 3.5 Omni+ESP32打造全模态智能伙伴

项目概览：一只有灵魂的AI桌面宠物

核心能力：全模态模型带来的交互质变

情感化语音交互

视觉感知与手势互动

一日记录与智能复盘

桌面监督与健康提醒

技术架构解析：为什么选Qwen 3.5 Omni

相关推荐

Qoder vs Cursor实测对比：同样20美金谁更强？

Cursor云Agent演示：打通软件开发全链路瓶颈

Cursor 3.0深度解析：多Agent并行、Design Mode与Best-of-N模型对比