播客频道 | Meta Ray-Ban智能眼镜隔空手写功能全面开放：空中比划即可发消息

今天想跟你聊一个我觉得挺有意思的事儿。你有没有想过，有一天你骑着自行车，收到一条紧急消息，不用停车、不用掏手机，就这么在空中比划几下，消息就发出去了？哈哈，听起来像科幻片对吧？但这事儿还真就发生了。Meta最近把他们Ray-Ban Display智能眼镜上的一个叫「虚拟手写」的功能全面开放了，之前只是小范围测试，现在所有用户都能用。简单说就是，你戴着眼镜，用手指在空中写字，系统就能把你写的东西变成文字消息发出去。等等，这个我得追问一下。空中写字这事儿，它怎么知道我写的是什么？我在空气里又没有笔迹留下来。对，这是个好问题。其实核心靠两个技术——计算机视觉和手部姿态估计。眼镜上有摄像头和传感器，它会实时追踪你手指上的21个关键节点，指尖、关节、掌根这些位置，然后根据这些点在三维空间里的运动轨迹，推断出你写了什么。你可以理解为，系统在你手指经过的路径上「脑补」出了一条虚拟的笔迹。 21个关键节点，这个精度还挺高的。但我好奇的是，这种计算量应该不小吧？智能眼镜那么小一个东西，算力够用吗？你说到点子上了。这其实是整个功能最有技术含量的地方之一。正常来说，这种深度学习模型是要在GPU集群上跑的，但眼镜是个低功耗的边缘设备，所以Meta用了模型压缩、量化推理这些技术，把一个很重的模型「瘦身」到能在小芯片上流畅运行。而且他们在第一人称视角的手部追踪上已经积累了很多年的研究，发过不少论文，这个技术底子还是很扎实的。嗯，理解了。那这个功能现在能在哪些App里用呢？如果只能在Meta自己的应用里用，那感觉还是有点受限。这点Meta做得还挺聪明的。目前支持WhatsApp、Messenger、Instagram，这是他们自家的，同时也兼容安卓和iOS的原生短信应用。基本上你日常高频用的通讯工具都覆盖了。这个策略很关键——你不需要改变现有的聊天习惯，只是多了一种输入方式，使用门槛一下子就降下来了。说到这儿我想到一个场景。比如在地铁上，你用语音回消息吧，旁边人都能听到，挺尴尬的。但隔空手写的话，别人可能都注意不到你在干嘛。对对对，隐私性其实是这个功能一个很容易被忽视的优势。你在会议间隙、在公共场合，轻轻比划几下就完成了，不用大声念出消息内容。还有做饭的时候手上全是面粉，骑车的时候不方便停下来，这些场景其实都挺刚需的。好，那我们把视角拉远一点。现在做智能眼镜的可不止Meta一家，苹果有Vision Pro，Google也一直在探索。你怎么看这三家的路线差异？这三家其实走的是三条很不一样的路。苹果Vision Pro走的是「空间计算」路线，强调沉浸感，搭载了LiDAR深度传感器、Micro-OLED显示屏、M2芯片，体验确实震撼，但代价是设备又大又重，售价3499美元，普通人很难日常佩戴。Meta呢，优先考虑的是你愿不愿意戴——轻便、好看、价格相对亲民，复杂的计算任务丢给配对的手机去处理。Google则在中间找平衡，他们的Project Astra项目想把Gemini大模型的多模态能力塞进轻量级眼镜里。所以本质上是在「沉浸感」和「便携性」之间做取舍。没错。而Meta的策略我觉得挺务实的——先让用户愿意戴上，再逐步丰富功能。你看它的产品演进，初代就是个带摄像头的墨镜，能拍照能放音乐，现在已经有AI助手、实时翻译、虚拟手写了。这种「低门槛、高迭代」的打法，从培养用户习惯的角度来说，可能反而是最有效的。不过说实话，我对这个隔空手写还是有些疑虑。比如我写字本来就潦草，它能认出来吗？还有中文那么复杂，笔画那么多，识别难度应该比英文大很多吧？你这个担心非常合理。英文就26个字母，笔画简单，现在主流算法识别准确率已经超过95%了。但中文就完全是另一个量级的挑战——光常用汉字就超过6000个，Unicode里CJK统一表意文字更是超过9万个。而且还有大量形近字，比如「己」「已」「巳」，差一点点意思就完全不同。更麻烦的是，在空中写字你没有纸面的触觉反馈，笔画的起止点、连笔方式都会有更大的变异性。嗯，这确实是个硬骨头。现在有什么解决思路吗？业界主流的方案是用循环神经网络或者Transformer架构做序列识别，再结合语言模型做上下文纠错。比如你写了一个看起来像「己」又像「已」的字，系统可以根据前后文判断你到底想写哪个。但在智能眼镜上，怎么在有限算力下同时保证速度和准确率，这个工程问题还没有完全解决。另外还有环境适应性的问题——强光、弱光、复杂背景，都会影响摄像头的捕捉效果。还有一个很现实的问题，长时间抬手在空中写字，手臂是真的会酸。哈哈，这倒是，写个长消息估计胳膊先投降了。所以你觉得隔空手写最终会是什么定位？我觉得它不会是唯一的交互方式，而是拼图中的一块。未来成熟的智能眼镜一定是多模态交互——语音输入适合私密环境写长文本，手势识别适合公共场合快速回复，眼动追踪适合做选择和确认。当这些方式融合在一起，系统能同时理解你说的话、你的手势指向、你的眼神注视，那才是真正成熟的形态。比如你说「发给他」，同时手指一指某个方向，系统要同时理解语音里的「他」和手势的空间指向，这就是多模态融合的魅力。这个例子特别好，一下子就能感受到多模态交互和单一输入方式的本质区别。Meta在这方面投入大吗？非常大。他们的Reality Labs部门在这个方向上已经砸了超过百亿美元的研发资金，Codec Avatars、Project Aria这些项目都在为未来的多模态AR交互打基础。所以虚拟手写这个功能，与其说是一个终点，不如说是一个起点。嗯，我觉得有一个趋势确实越来越清晰了——智能眼镜正在从一个概念性的东西，变成真正能补充甚至部分替代手机的日常设备。当你不用掏手机就能完成消息回复的时候，那个所谓「随身计算」的时代，可能真的比我们想象的要近。对，而且关键是这次不是PPT发布会上的演示，是真的全面推送给用户了。能不能用、好不好用，很快就会有大量真实反馈。我其实挺期待看到用户在各种奇怪场景下使用它的——毕竟技术最终好不好，得靠真实世界来检验。

Meta Ray-Ban智能眼镜隔空手写功能全面开放：空中比划即可发消息

更多播客

AI热点风向标·06月07日午间版

AI热点风向标·06月07日早间版

每日AI新鲜事·06月07日早间播报