Baseten融资15亿美元,AI推理基础设施为何成资本宠儿

推理赛道的又一笔巨额融资
AI推理基础设施初创公司Baseten据报道正接近完成一轮15亿美元的融资,估值将达到130亿美元。这距离其上一轮大规模融资仅过去数月,再次印证了业界所说的"推理淘金热"正在加速推进。

推理赛道为何如此火热
从训练到推理的重心转移
过去几年,AI行业的资本和关注度主要集中在模型训练环节——谁能训练出更大、更强的基础模型,谁就能占据制高点。然而,随着GPT-4、Claude、Llama等大模型逐步成熟,行业的瓶颈正在从"如何训练模型"转向"如何高效部署和运行模型"。
推理(Inference)是指将训练好的AI模型投入实际使用、处理用户请求的过程。每一次你向ChatGPT提问、每一次AI生成一张图片,背后都是一次推理计算。随着AI应用的爆发式增长,推理需求正以指数级速度攀升,这催生了一个庞大的基础设施市场。
从技术本质上看,推理与训练在计算特征上有着根本区别。训练是一个批量化、高吞吐的过程,模型在海量数据上反复迭代更新参数,通常可以容忍较高的延迟,追求的是总体计算效率。而推理则是一个实时性要求极高的过程,每个用户请求都需要在毫秒到秒级的时间窗口内返回结果。更关键的是,推理的负载模式高度不可预测——可能在某一时刻涌入数百万并发请求,下一刻又骤降为零。这种"尖峰"特性使得推理基础设施的弹性伸缩能力、资源调度效率和成本控制成为核心技术挑战。
此外,大语言模型的推理还涉及一系列专门的优化技术,这些都是推理基础设施公司需要深度攻克的工程难题。其中,KV Cache(Key-Value Cache)管理是最为关键的技术之一。在Transformer架构的自回归生成过程中,模型每生成一个新token时,需要对之前所有token的注意力键值对进行计算。KV Cache将已计算的键值对缓存起来避免重复计算,从而将生成复杂度从O(n²)降低到O(n)。然而,KV Cache的显存占用随序列长度和并发请求数线性增长,对于支持128K甚至更长上下文窗口的模型,单个请求的KV Cache可能占用数GB显存。如何在有限的GPU显存中高效管理数千个并发请求的KV Cache——包括分页管理(PagedAttention)、跨请求共享前缀缓存、以及将冷数据卸载到CPU内存或SSD——是推理基础设施公司的核心技术壁垒之一。
投机解码(Speculative Decoding)是另一项重要的推理加速技术。其核心思想是用一个轻量级的"草稿模型"快速生成多个候选token,然后由大模型并行验证这些候选token的正确性。由于验证的并行化效率远高于逐token生成,当草稿模型的预测准确率足够高时,可以实现2-3倍的推理加速而不损失输出质量。连续批处理(Continuous Batching)则解决了传统静态批处理中的"短板效应"——在静态批处理中,一批请求必须等最长的那个生成完毕才能释放资源。连续批处理允许已完成的请求随时退出批次、新请求随时加入,极大提升了GPU利用率,是现代推理引擎的标配技术。
Baseten的定位与核心价值
Baseten专注于为企业提供AI模型推理的基础设施服务,帮助开发者和企业更高效地部署和运行AI模型。在AI应用加速落地的大背景下,这类"卖铲子"的公司正成为资本竞相追逐的标的。
具体而言,Baseten的核心产品是一个名为Truss的开源模型服务框架,以及基于此构建的托管推理平台。Truss允许开发者将任意机器学习模型打包为标准化的可部署单元,屏蔽底层GPU资源管理、容器编排和网络配置的复杂性。其平台支持包括Llama、Mistral、Stable Diffusion等主流开源模型的一键部署,同时也支持企业自有的私有模型。Baseten的差异化优势在于其对GPU资源的精细化调度能力——通过自研的调度引擎,实现多租户环境下的GPU共享和动态分配,从而在保证推理延迟SLA的同时最大化硬件利用率。这种"模型即服务"(Model-as-a-Service)的模式,本质上是在GPU云和终端AI应用之间构建了一个专业化的中间层。
130亿美元的估值意味着投资者对推理基础设施赛道的长期前景抱有极高期待。你可能没注意到,Baseten在短短数月内就再次启动大规模融资,这种融资节奏在科技行业中也属罕见,反映出该领域竞争的激烈程度和市场窗口期的紧迫性。
"推理淘金热"的行业格局
当前,AI推理基础设施赛道已经聚集了多个重量级玩家。除了Baseten之外,Fireworks AI、Together AI、Groq等公司也在这一领域积极布局,各自主打不同的技术路线和差异化优势——有的强调低延迟,有的主打成本效率,有的则聚焦于特定硬件架构的优化。
这些竞争者的技术切入点各有独到之处。Groq最为激进,自研了名为LPU(Language Processing Unit)的专用推理芯片,完全绕开了NVIDIA GPU生态,通过确定性计算架构实现了极低延迟的推理性能。LPU采用TSP(Tensor Streaming Processor)架构,将计算流程编译为确定性的指令序列,消除了运行时调度的不确定性,从而实现极低且稳定的推理延迟。这种确定性架构的代价是灵活性较低,对模型架构的适配需要更多编译器层面的工作。除Groq外,还有Cerebras、SambaNova、d-Matrix等公司也在探索专用AI推理芯片,试图挑战NVIDIA在推理市场的主导地位。这场"推理芯片之战"的结果将深刻影响整个推理基础设施的竞争格局。
Fireworks AI由前Meta工程师创立,其核心优势在于对开源模型生态的深度优化,特别是在模型量化、LoRA适配器热切换等技术上有独到积累。模型量化是将模型权重从高精度浮点数(如FP16/BF16)压缩为低精度表示(如INT8、INT4甚至更低)的技术,可以显著减少显存占用和计算量,从而降低推理成本。主流量化方法包括GPTQ、AWQ、GGUF等,它们在压缩率和精度损失之间做出不同权衡。LoRA(Low-Rank Adaptation)则是一种参数高效微调技术,通过在预训练模型的注意力层中注入低秩矩阵来实现模型定制化,微调参数量仅为全量微调的千分之一。在推理场景中,LoRA适配器的"热切换"能力尤为关键——同一个基础模型可以搭配不同客户的LoRA适配器,在不重新加载模型的情况下快速切换,这使得多租户场景下的GPU利用率大幅提升。
Together AI则走了一条"训练+推理"一体化的路线,同时提供分布式训练和推理服务,试图覆盖模型全生命周期。此外,还有Modal、Replicate、Anyscale等公司从不同角度切入这一市场。
值得注意的是,vLLM、TensorRT-LLM、SGLang等开源推理引擎的快速发展也在重塑竞争格局,迫使所有玩家不断提升技术壁垒。vLLM是由UC Berkeley团队开发的开源LLM推理引擎,其核心创新PagedAttention借鉴了操作系统虚拟内存管理的思想,将KV Cache分页管理,解决了显存碎片化问题,使GPU显存利用率提升了2-4倍。TensorRT-LLM是NVIDIA官方推出的推理优化库,深度利用NVIDIA GPU的硬件特性(如Tensor Core、FP8计算等),在NVIDIA硬件上通常能达到最优性能。SGLang则由Stanford团队开发,其创新点在于RadixAttention——一种基于基数树的KV Cache共享机制,特别适合多轮对话和复杂提示工程场景。这些开源引擎的快速迭代意味着推理优化的技术门槛在持续降低,商业推理平台必须在开源引擎之上构建更高层次的差异化价值,如自动弹性伸缩、多模型编排、企业级SLA保障等。
另一边,AWS、Google Cloud和Azure等云计算巨头也在持续加强自身的AI推理服务能力,试图在这一新兴市场中守住阵地。AWS的SageMaker和Bedrock、Google Cloud的Vertex AI、Azure的AI Studio都在大力投入推理服务能力建设。这些巨头拥有现成的客户关系、全球数据中心网络和充裕的GPU库存,看似具有压倒性优势。然而,初创公司的生存空间恰恰来自于巨头"大而全"策略所带来的效率损失——云巨头的推理服务通常是通用化设计,难以针对特定模型架构或工作负载进行极致优化。而Baseten等专业玩家可以将全部工程资源聚焦在推理这一个环节,实现更低的推理成本和更优的性能表现。此外,许多企业出于多云策略、避免供应商锁定等考虑,也倾向于选择独立的推理基础设施提供商。初创公司与巨头之间的竞合关系,将是未来这一赛道最值得关注的看点之一。
融资背后的深层信号
15亿美元的融资规模本身就是一个强烈信号:资本市场认为AI推理基础设施将是一个赢家通吃、或至少头部集中度极高的市场。
这一判断背后有着清晰的市场逻辑。据多家分析机构估算,到2027年,全球AI推理市场规模可能达到数百亿甚至上千亿美元,远超训练市场。这是因为一个模型只需训练一次(或少数几次),但推理是持续性的——每一个终端用户的每一次交互都会产生推理需求。从商业模式看,推理基础设施具有典型的网络效应和规模经济特征:服务的客户越多,GPU集群的利用率越高,单位推理成本越低,从而吸引更多客户,形成正向飞轮。这种"规模即壁垒"的特性使得资本愿意在早期以高估值大量注入,帮助头部公司尽快达到临界规模。
在这样的市场中,先发优势和规模效应至关重要,这也解释了Baseten为何选择在如此短的时间内再次大规模融资——快速扩张基础设施、抢占客户和市场份额,可能比短期盈利更为重要。
不过,如此高的估值也引发了一些业内人士的担忧。AI基础设施领域的竞争日趋白热化,技术迭代速度极快,今天的领先优势未必能持续到明天。如果NVIDIA推出更高效的推理芯片大幅降低硬件门槛,或者开源社区持续降低推理优化的技术壁垒,现有玩家的护城河可能迅速被侵蚀。特别是NVIDIA即将推出的Blackwell架构GPU(B200/GB200),其推理性能相比上一代Hopper架构有数倍提升,并原生支持FP4精度计算,这可能从根本上改变推理基础设施的成本结构。同时,苹果、Google等公司也在加速自研AI推理芯片的部署,硬件层面的变局可能传导至整个推理基础设施生态。Baseten能否将融资转化为持久的竞争壁垒,仍有待市场检验。
总结
Baseten的这轮融资是AI行业从"训练时代"全面迈入"推理时代"的又一标志性事件。随着AI应用渗透到越来越多的场景,推理基础设施的重要性只会持续上升。对于整个AI生态而言,这场"推理淘金热"才刚刚开始。
核心要点
核心要点
相关推荐

DeepSeek识图模式实测:截图转代码还原度高达80%
实测DeepSeek识图模式的界面复刻能力,通过Ant Design官网、百度、B站、苹果官网等多个案例,展示其截图转代码的实际效果,分析核心应用场景与局限性。

Elastic 8500万美元收购Deductive AI,AI自动化调试赛道加速爆发
Elastic以最高8500万美元收购AI调试初创公司Deductive AI,强化可观测性与安全平台能力。本文解析这笔交易的战略意图、AI自动化Bug检测赛道的竞争格局,以及对软件开发行业的深远影响。

ASML最先进EUV光刻机是否流入中国?美荷争议始末
美国声称ASML最顶级EUV光刻机可能已流入中国,ASML坚决否认。本文深度解析这场争议背后的商业逻辑、出口管控灰色地带及半导体地缘政治博弈。