今天想跟你聊一个我觉得挺有意思的事儿。你有没有想过,有一天你骑着自行车,收到一条紧急消息,不用停车、不用掏手机,就这么在空中比划几下,消息就发出去了?
哈哈,听起来像科幻片对吧?但这事儿还真就发生了。Meta最近把他们Ray-Ban Display智能眼镜上的一个叫「虚拟手写」的功能全面开放了,之前只是小范围测试,现在所有用户都能用。简单说就是,你戴着眼镜,用手指在空中写字,系统就能把你写的东西变成文字消息发出去。
等等,这个我得追问一下。空中写字这事儿,它怎么知道我写的是什么?我在空气里又没有笔迹留下来。
对,这是个好问题。其实核心靠两个技术——计算机视觉和手部姿态估计。眼镜上有摄像头和传感器,它会实时追踪你手指上的21个关键节点,指尖、关节、掌根这些位置,然后根据这些点在三维空间里的运动轨迹,推断出你写了什么。你可以理解为,系统在你手指经过的路径上「脑补」出了一条虚拟的笔迹。
21个关键节点,这个精度还挺高的。但我好奇的是,这种计算量应该不小吧?智能眼镜那么小一个东西,算力够用吗?
你说到点子上了。这其实是整个功能最有技术含量的地方之一。正常来说,这种深度学习模型是要在GPU集群上跑的,但眼镜是个低功耗的边缘设备,所以Meta用了模型压缩、量化推理这些技术,把一个很重的模型「瘦身」到能在小芯片上流畅运行。而且他们在第一人称视角的手部追踪上已经积累了很多年的研究,发过不少论文,这个技术底子还是很扎实的。
嗯,理解了。那这个功能现在能在哪些App里用呢?如果只能在Meta自己的应用里用,那感觉还是有点受限。
这点Meta做得还挺聪明的。目前支持WhatsApp、Messenger、Instagram,这是他们自家的,同时也兼容安卓和iOS的原生短信应用。基本上你日常高频用的通讯工具都覆盖了。这个策略很关键——你不需要改变现有的聊天习惯,只是多了一种输入方式,使用门槛一下子就降下来了。
说到这儿我想到一个场景。比如在地铁上,你用语音回消息吧,旁边人都能听到,挺尴尬的。但隔空手写的话,别人可能都注意不到你在干嘛。
对对对,隐私性其实是这个功能一个很容易被忽视的优势。你在会议间隙、在公共场合,轻轻比划几下就完成了,不用大声念出消息内容。还有做饭的时候手上全是面粉,骑车的时候不方便停下来,这些场景其实都挺刚需的。
好,那我们把视角拉远一点。现在做智能眼镜的可不止Meta一家,苹果有Vision Pro,Google也一直在探索。你怎么看这三家的路线差异?
这三家其实走的是三条很不一样的路。苹果Vision Pro走的是「空间计算」路线,强调沉浸感,搭载了LiDAR深度传感器、Micro-OLED显示屏、M2芯片,体验确实震撼,但代价是设备又大又重,售价3499美元,普通人很难日常佩戴。Meta呢,优先考虑的是你愿不愿意戴——轻便、好看、价格相对亲民,复杂的计算任务丢给配对的手机去处理。Google则在中间找平衡,他们的Project Astra项目想把Gemini大模型的多模态能力塞进轻量级眼镜里。
所以本质上是在「沉浸感」和「便携性」之间做取舍。
没错。而Meta的策略我觉得挺务实的——先让用户愿意戴上,再逐步丰富功能。你看它的产品演进,初代就是个带摄像头的墨镜,能拍照能放音乐,现在已经有AI助手、实时翻译、虚拟手写了。这种「低门槛、高迭代」的打法,从培养用户习惯的角度来说,可能反而是最有效的。
不过说实话,我对这个隔空手写还是有些疑虑。比如我写字本来就潦草,它能认出来吗?还有中文那么复杂,笔画那么多,识别难度应该比英文大很多吧?
你这个担心非常合理。英文就26个字母,笔画简单,现在主流算法识别准确率已经超过95%了。但中文就完全是另一个量级的挑战——光常用汉字就超过6000个,Unicode里CJK统一表意文字更是超过9万个。而且还有大量形近字,比如「己」「已」「巳」,差一点点意思就完全不同。更麻烦的是,在空中写字你没有纸面的触觉反馈,笔画的起止点、连笔方式都会有更大的变异性。
嗯,这确实是个硬骨头。现在有什么解决思路吗?
业界主流的方案是用循环神经网络或者Transformer架构做序列识别,再结合语言模型做上下文纠错。比如你写了一个看起来像「己」又像「已」的字,系统可以根据前后文判断你到底想写哪个。但在智能眼镜上,怎么在有限算力下同时保证速度和准确率,这个工程问题还没有完全解决。另外还有环境适应性的问题——强光、弱光、复杂背景,都会影响摄像头的捕捉效果。还有一个很现实的问题,长时间抬手在空中写字,手臂是真的会酸。
哈哈,这倒是,写个长消息估计胳膊先投降了。所以你觉得隔空手写最终会是什么定位?
我觉得它不会是唯一的交互方式,而是拼图中的一块。未来成熟的智能眼镜一定是多模态交互——语音输入适合私密环境写长文本,手势识别适合公共场合快速回复,眼动追踪适合做选择和确认。当这些方式融合在一起,系统能同时理解你说的话、你的手势指向、你的眼神注视,那才是真正成熟的形态。比如你说「发给他」,同时手指一指某个方向,系统要同时理解语音里的「他」和手势的空间指向,这就是多模态融合的魅力。
这个例子特别好,一下子就能感受到多模态交互和单一输入方式的本质区别。Meta在这方面投入大吗?
非常大。他们的Reality Labs部门在这个方向上已经砸了超过百亿美元的研发资金,Codec Avatars、Project Aria这些项目都在为未来的多模态AR交互打基础。所以虚拟手写这个功能,与其说是一个终点,不如说是一个起点。
嗯,我觉得有一个趋势确实越来越清晰了——智能眼镜正在从一个概念性的东西,变成真正能补充甚至部分替代手机的日常设备。当你不用掏手机就能完成消息回复的时候,那个所谓「随身计算」的时代,可能真的比我们想象的要近。
对,而且关键是这次不是PPT发布会上的演示,是真的全面推送给用户了。能不能用、好不好用,很快就会有大量真实反馈。我其实挺期待看到用户在各种奇怪场景下使用它的——毕竟技术最终好不好,得靠真实世界来检验。