今天想跟你聊一个人和一场会。人呢,是Databricks的联合创始人Andy Konwinski;会呢,是即将召开的首届CAIS大会。Andy Konwinski刚刚确认会在这场大会上做主题演讲,消息一出来AI社区就挺热闹的。我想先从这个人聊起——你怎么看Andy Konwinski在整个大数据和AI领域的位置?
嗯,Andy Konwinski这个人其实挺有代表性的。他是那种从学术界走出来、最终做出了一家估值数百亿美元公司的技术创业者。他早年在UC Berkeley的AMPLab做研究,那个实验室你可能听说过,基本上是21世纪大数据技术革命的摇篮之一。Apache Spark就是从那儿出来的,Andy深度参与了Spark和Mesos这些开源项目的早期开发。
对,AMPLab确实是传奇。不过可能有些听众对Spark的意义没那么直观的感受,你能简单说说它为什么重要吗?
好,打个比方吧。在Spark之前,大家处理大规模数据主要靠Hadoop MapReduce,那个东西的核心逻辑是把数据写到磁盘上再读出来,一步一步地算。你可以想象成每做一步计算都要把中间结果存到硬盘里,然后再从硬盘读回来继续算——效率很低。Spark的突破在于它引入了内存计算模型,数据尽量留在内存里,速度一下子提升了几十倍甚至上百倍。这个东西后来基本成了全球企业大数据处理的事实标准。Andy在这些项目里的深度参与,让他对大规模分布式系统有非常第一手的理解。
所以后来他和其他几位AMPLab的同事一起创立了Databricks,对吧?这家公司现在做的事情,用一句话概括的话——
用一句话说就是:帮企业把数据和AI这两件事在同一个平台上搞定。他们最核心的创新是所谓的数据湖仓架构,英文叫Lakehouse。这个概念其实很巧妙——传统上企业的数据架构分两条路线:数据仓库擅长结构化查询和商业智能分析,但贵而且不够灵活;数据湖呢,能便宜地存海量非结构化数据,但数据治理和查询性能又不行。Lakehouse就是把两者的优势合在一起,在数据湖的开放存储层上面,叠加数据仓库级别的事务管理和高性能查询。
这个我理解,有点像你既想要仓库的整洁有序,又想要湖的包容万象,Databricks说我都要。
对,就是这个意思。而且他们通过开源项目Delta Lake把这个愿景落地了,企业在同一个平台上就能同时跑BI分析、数据工程和机器学习,不用再维护好几套系统。这个对企业来说,降低的不只是技术复杂度,还有实实在在的成本。
好,聊完了人,我们来聊聊这场会。首届CAIS大会,能请到Andy Konwinski这个级别的嘉宾做主题演讲,说明定位确实不低。但我想问一个更根本的问题:现在AI领域的会议其实已经不少了,为什么我们还需要一场新的?
你看,其实现在AI行业正处在一个非常微妙的阶段。2022年底ChatGPT出来之后,大家都知道生成式AI很厉害,但从技术演示到企业真正大规模用起来,中间的鸿沟其实比很多人想象的要大。
这个鸿沟具体体现在哪些方面?
至少三个层面。第一是数据准备,企业内部的数据往往散落在各种系统里,质量参差不齐,而AI模型的效果高度依赖高质量数据,这是个脏活累活。第二是部署和运维,大模型推理成本很高,延迟控制、模型版本管理、持续监控,这些都需要成熟的MLOps基础设施。第三是治理和合规,尤其在金融、医疗这些受监管的行业,数据隐私、模型可解释性、输出安全性,每一项都是硬门槛。所以你会发现,像Databricks这种同时掌握数据基础设施和AI能力的平台型公司,在当前阶段的战略价值特别突出。
嗯,这就解释了为什么CAIS大会请Andy来讲是很有针对性的选择。虽然他的演讲内容还没正式公布,但你觉得大概率会讲什么?
我猜大概率会围绕数据平台和AI模型的深度融合来讲。Databricks最近在生成式AI方面动作很多,比如他们去年发布了开源大语言模型DBRX,用的是混合专家架构,就是MoE。这个架构的核心思想是把模型参数分成多个专家子网络,推理的时候只激活一部分,这样模型整体容量很大,但实际计算成本大幅降低。DBRX发布时在多项基准测试上超过了同期的Llama 2 70B和Mixtral。
但Databricks做模型的意图应该不只是跟Meta、Mistral他们比跑分吧?
对,这正是关键。DBRX背后体现的是Databricks「数据加模型」一体化的战略。他们的Mosaic AI平台把模型训练、微调、评估、部署全都整合到了数据湖仓平台上。企业可以在自己的数据不出平台的前提下,安全合规地构建定制化AI应用。你想想,在数据隐私和AI治理越来越被重视的今天,这个能力有多重要。
确实。而且Andy本人的经历也很有说服力——从伯克利做学术研究,到参与改变行业格局的开源项目,再到联合创立一家数百亿美元的公司,这个从学术到产业的完整路径,本身就是一个很好的故事。
是的,所以他的分享往往能同时兼顾技术深度和商业洞察。对于正在探索AI落地路径的企业决策者和开发者来说,这种来自一线实践者的经验是非常稀缺的。不是纯学术的理论推演,也不是纯商业的PPT愿景,而是真正把技术做成产品、把产品做成平台的人在跟你讲他怎么想的。
好,最后帮大家总结一下。首届CAIS大会即将召开,Andy Konwinski作为Databricks联创受邀做主题演讲,这场大会的定位是连接AI研究前沿和产业实践。在AI从技术突破走向大规模商业化落地的这个关键节点上,不管你是AI从业者、技术管理者还是行业观察者,这场大会确实值得放进你的关注清单里。
嗯,我补充一句。其实一场会议好不好,很大程度上取决于它能不能把对的人聚到一起。从目前曝光的嘉宾阵容来看,CAIS大会的起点很高。至于它能不能成为AI领域一个持续有影响力的平台,我们拭目以待吧。