开源AI桌宠小猫:Qwen 3.5 Omni+ESP32打造全模态智能伙伴

开源AI桌面猫咪硬件,集成全模态大模型实现情感交互与生命日志功能。
一个开源项目将通义千问Qwen 3.5 Omni全模态模型集成到巴掌大的ESP32-S3硬件猫咪中,实现了带情感的语音交互、视觉感知与手势互动、一日经历记录与智能复盘、桌面健康监督等功能。端到端架构避免了传统流水线的情感信息丢失和高延迟问题,使AI小猫能真正表达情绪、理解图像,并充当随身记忆助手。
一只巴掌大的AI小猫,能看、能听、能说,还能记录你一整天做了什么——这个开源项目把全模态大模型塞进了一个可以放进口袋的硬件里,效果出乎意料地好。
项目概览:一只有灵魂的AI桌面宠物
这个开源项目打造了一只迷你AI桌面猫咪,体积小到可以放进口袋、挂在脖子上,但功能却异常丰富。硬件上,它配备了四个舵机(分布在脖子和耳朵位置)、一块超高清液晶显示屏和一个摄像头,主控板采用ESP32-S3。软件层面,项目接入了通义千问Qwen 3.5 Omni全模态模型,赋予了这只小猫真正的"感知"和"交流"能力。

最有意思的设计理念是:你甚至可以把自家猫咪的照片拍下来,让它"赛博附身"到这个硬件上,拥有一只永远不会打翻你东西的数字猫咪。
核心能力:全模态模型带来的交互质变
情感化语音交互
与传统AI硬件不同,这只小猫的语音回复是带情绪的。要理解这一点,需要先了解传统AI语音交互系统的局限:它们采用流水线(Pipeline)架构,由ASR(自动语音识别)、NLU(自然语言理解)、NLG(自然语言生成)、TTS(文本转语音)四个独立模块串联而成。这种架构的问题在于,每个模块都有独立的延迟,叠加后总延迟通常在1-3秒;更关键的是,语音中携带的情感、语气、语速等副语言信息(Paralinguistic Information)在ASR阶段被转换为纯文本时会彻底丢失,TTS再生成时只能依赖文本内容重新"猜测"情感,导致输出语音显得机械生硬。
Qwen 3.5 Omni采用端到端架构,通过统一的模型直接建立语音输入到语音输出的映射,情感特征在整个处理过程中以连续向量的形式保留,跳过了传统的"语音识别→文字理解→文字转语音"的冗长链路,直接实现了语音到语音的交互。这意味着更低的延迟,以及更自然的语气和情绪表达——这也是这只AI小猫能够真正"撒娇"的技术根基。

当你让它撒娇时,它真的会用撒娇的语气回应;让它激动地打招呼,语调也会随之变化。这种细腻的情感表达在以往的AI硬件上很难做到,因为情绪信息会在多步转换中逐步损失。
视觉感知与手势互动
搭载摄像头并接入全模态模型后,这只AI桌宠能"看到"你。所谓全模态模型(Omni Model),是指能够同时处理文本、语音、图像、视频等多种输入输出形式的统一神经网络模型。与传统的多模态系统不同,全模态模型采用端到端训练范式,所有模态的理解与生成共享同一套参数和表示空间,跨模态信息能够在统一的语义空间中自然融合。因此,这只小猫的回复不仅基于你的声音,还会结合图像信息进行一体化思考,而非两套系统各自处理再拼接结果。
更有趣的是,项目设计了手势交互功能——你挥挥手,小猫就会追随你的方向与你互动,真的有一种"逗猫"的感觉。你甚至可以问它"我长得咋样"来测试它的视觉能力,虽然回答可能让你哭笑不得,但它确实已经能够看到并理解你的样子了。
一日记录与智能复盘
这是整个项目中最具实用价值的功能,本质上是一种"生命日志"(Lifelogging)应用——通过可穿戴设备持续记录个人的视觉、听觉经历,再借助AI进行结构化整理和检索。这一概念最早由微软研究院在2000年代系统性提出,但受限于当时的存储成本和AI理解能力,始终停留在学术阶段。近年来随着大视觉语言模型的突破,这类应用才真正走向普通用户,Rewind.ai、Limitless等产品都在探索类似方向。
把小猫挂在脖子上外出,它会从第一视角记录你一天的经历,大模型在后台对每一帧音视频画面进行逐帧分析。Qwen 3.5 Omni支持更长的视频理解上下文窗口,能够对连续帧画面进行时序关联分析,而非孤立地理解单帧图像,这使得跨时间段的推理成为可能。到了晚上,你可以点击"一键总结",它会帮你复盘整理——今天去了哪里、遇到了谁、做了什么有趣的事。对于健忘的人来说,这简直是一个随身的记忆助手。
桌面监督与健康提醒
把小猫放在桌面上,它会默默观察你的行为:你是不是一直在玩手机?多久没喝水了?有没有起来活动一下?摸鱼了多长时间?这些信息都会存储在记忆中,下次对话时它会主动提醒你注意健康。
这个功能巧妙地利用了Omni模型的音视频理解能力,把一个玩具级别的桌宠变成了真正有用的生产力工具。
技术架构解析:为什么选Qwen 3.5 Omni
项目作者坦言,之前一直没想好用什么模型来"驾驭这个躯壳
相关推荐
产品体验Qoder vs Cursor实测对比:同样20美金谁更强?
实测对比Qoder和Cursor两款AI IDE,从Agent自主修复能力、人工沟通次数、架构决策等维度评测。Qoder仅需2次沟通完成任务,Cursor需8次。详细分析两者差异,帮你选择最适合的AI编程工具。
产品体验Cursor云Agent演示:打通软件开发全链路瓶颈
深度解析Cursor云Agent最新Demo,展示如何通过云端虚拟机、自动测试产物和全链路控制平面,系统性消除软件开发生命周期中的人类瓶颈,让Agent自主运行、人按需介入。
产品体验Cursor 3.0深度解析:多Agent并行、Design Mode与Best-of-N模型对比
Cursor 3.0正式发布,从AI辅助编程工具进化为Agent舰队指挥中心。本文详解多智能体并行、Design Mode可视化编辑、Best-of-N多模型择优等核心功能,解读AI编程新范式。