李博!上周我们项目组开了个会,讨论要不要把办公区的监控视频做智能分析,结果发现一个特别扎心的数据。
什么数据?
企业产生的视频数据里,真正被分析利用的不到5%。就是说95%的视频拍了等于白拍,存一阵子就删了。
哈哈,这个数据我一点都不意外。你想啊,一个中等城市光监控摄像头就几十万路,每路每天产生几十个GB的数据。这数据量,让人去看?开玩笑呢。
对,我们安防部门的同事也吐槽过,说他们最痛苦的事就是盯监控墙,盯到眼睛都花了也不一定能发现问题。
所以NVIDIA最近搞的这个方案我觉得挺有意思的。他们用AI Agent加上一套叫Skills的技能模块,本质上就是要把视频变成一个可以搜索的数据库。
等等,AI Agent这个词我天天听,但用在视频分析上,跟以前那些传统的视频分析工具到底有啥本质区别?
区别大了。传统工具就是个规则引擎嘛,你告诉它'画面里出现红色就报警',它就只会干这一件事。但AI Agent不一样,它有一个完整的'思考-行动-观察'的闭环。
打个比方,传统工具就像一个只会按按钮的门卫,而AI Agent更像一个经验丰富的安全分析师。它不光能看到画面里发生了什么,还能判断为什么会发生,甚至预测接下来可能发生什么。
这也太玄乎了吧,它怎么做到'理解'的?视频不就是一帧一帧的图片吗?
这就是关键了!它背后其实是把大语言模型的推理能力和计算机视觉做了深度融合,学术上叫Vision-Language Model,视觉语言模型。
简单说就是用一个视觉编码器,通常是Vision Transformer架构,把视频画面编码成一串token,然后跟文字token一起丢给大语言模型做联合推理。这样模型就能同时理解画面内容和语言指令了。
哦我懂了,就是让大模型既能'看'又能'说'。
对,而且不只是看和说,它还能推理因果关系。比如它看到一个人在仓库里鬼鬼祟祟地走,能结合上下文判断这个人可能是未授权进入。
诶但是我更好奇的是那个Skills的设计。你刚才说是技能模块,这个具体怎么理解?
这个设计我真的要夸一下,特别聪明。你知道微服务架构吧?
知道知道,我们做产品天天跟微服务打交道。
Skills就是这个思路。每个Skill就是一个封装好的AI微服务,专注干一件事。目标检测是一个Skill,行为分析是一个Skill,异常检测又是一个。你可以像搭积木一样随便组合。
这不就是我们产品经理最爱的'即插即用'嘛!安防场景拼一套,零售场景拼另一套。
就是这个意思。不用从零搭流水线了。
等一下,你刚才提到语义搜索这个Skill,我特别感兴趣。你是说我可以直接用中文问视频内容?
我跟你说,这个才是整套方案里最炸裂的部分。你可以直接问系统——'昨天下午3点到5点,B区域有没有未授权人员进入',它几秒钟就能从几个小时的视频里给你找到对应片段。
真的假的?!这不就是把视频变成了搜索引擎?
没错!本质上就是'视频即数据库'。它背后靠三件事:第一,AI自动给每一帧生成语义描述建索引;第二,用向量数据库做毫秒级检索;第三,把你的自然语言查询和视频内容做语义对齐。
向量数据库这个我知道,Milvus那些对吧?我们之前做RAG的时候用过。
对对对,原理一样的。把视频片段编码成高维向量存进去,查询的时候算余弦相似度。只不过这次编码的不是文本,是视频内容。
你们搞技术的就爱说余弦相似度,说人话就是'找最像的'嘛。
得了吧,你们产品经理不也天天说'用户心智'吗,谁也别嫌谁。
哈哈好好好,扯回来。那这套东西实际落地的话,哪些行业最先能用上?
安防肯定是第一个。你想想,安全人员再也不用死盯监控墙了,直接跟系统对话就行。'过去一小时有没有异常聚集',系统自动汇总给你。
这个对我们做智慧园区的同事来说简直是刚需。
还有工业质检,7×24小时盯生产线,自动识别产品缺陷和设备异常,比人工抽检覆盖率高太多了。零售也是,分析顾客动线、评估货架效果,把监控视频变成商业决策依据。
诶你说到零售我想到一个事,我之前跟一个做线下零售的客户聊,他们每个月花大几万存监控视频,但从来没人看过。这不就是典型的'暗数据'嘛。
你这个词用得好。Gartner估计企业数据里80%都是非结构化的暗数据,视频是信息密度最高的那种。每一帧里面的人、车、物、行为、关系,信息量远超文本。
所以这套方案的本质,其实是一场非结构化数据的结构化革命。从像素里抽取实体、属性、关系、事件,变成结构化数据,让传统BI工具也能用。
这么说的话,这个事情的想象空间确实很大。那你觉得离大规模商用还有多远?
我个人判断两到三年。多模态大模型能力还在快速提升,推理成本也在往下降。而且NVIDIA这个Agent加Skills的框架确实把开发门槛降低了不少,垂直行业的开发者上手会快很多。
嗯,说到底就是让那95%沉睡的视频数据醒过来。
对,视频不再只是被动记录了。它正在变成一双永不疲倦的智能之眼——能理解、能推理、能主动预警。这个转变,我觉得意义比很多人想象的要大得多。
行,今天算是被你科普了一把。回头我得把这个方案推荐给我们智慧园区那个团队研究研究。
去吧去吧,到时候搞不定再来找我,技术顾问费另算啊。
得了吧你,上次请你吃饭的钱还没还呢。