播客频道 | LocalAI教程：无需GPU本地部署大模型，Docker一键搞定

最近我身边好多朋友都在问一个问题——我想在自己电脑上跑大模型，但买不起好显卡怎么办？今天咱们就来聊一个特别对症下药的开源项目，叫LocalAI，GitHub上已经拿了四万四千多颗Star了。我请到的嘉宾对本地部署这块特别有研究，先给大家说说，这个LocalAI到底是个什么东西？"}, {"speaker": "guest", "text": "嗯，简单来说，LocalAI就是一个完全跑在你本地的AI推理引擎。你可以把它理解成一个"翻译官"，它把已经训练好的大模型加载起来，然后接收你的问题，返回结果。关键是，它不需要联网，不需要把数据发到云端，所有计算都在你自己的机器上完成。而且它最大的卖点就是——纯CPU就能跑，不需要显卡。"}, {"speaker": "host", "text": "等等，这个我得追问一下。我们都知道大模型通常是很吃GPU的，动不动就要几十G显存。它怎么做到纯CPU也能跑的？"}, {"speaker": "guest", "text": "这个问题特别好。其实核心秘密在于它底层集成了llama.cpp这样的推理框架。llama.cpp做了一件很关键的事情，就是量化。你可以这样理解：原来模型里每个参数是用32位浮点数存的，精度很高但特别占空间。量化就是把它压缩成4位、5位或者8位的整数，相当于把一本精装书变成了口袋书，内容核心还在，但体积小了很多。举个具体的例子，一个13B参数的模型，原本可能需要26GB显存，4位量化之后大概只要7GB内存就能加载。"}, {"speaker": "host", "text": "哦，这个类比很形象。精装书变口袋书，内容还在但轻便多了。那速度呢？CPU跑起来会不会慢到没法用？"}, {"speaker": "guest", "text": "坦白说，肯定比GPU慢。但是"能用"和"好用"是两个层次嘛。7B参数的模型在现代多核CPU上大概能跑到每秒5到15个token，日常对话是够用的，虽然不像ChatGPT那样秒回，但你问一个问题，几秒钟之内就能开始看到回复了。不过如果是70B这种大家伙，可能就只有每秒1到3个token，那确实更适合离线跑批量任务。当然如果你手头有NVIDIA显卡，装上对应的加速镜像，7B模型可以飙到每秒50到100个token以上，体验完全不一样。"}, {"speaker": "host", "text": "明白了。那还有一个点我觉得挺重要的，就是它说兼容OpenAI的API接口，这个对开发者意味着什么？"}, {"speaker": "guest", "text": "这个其实是LocalAI非常聪明的设计。它对外暴露的接口格式跟OpenAI官方的API完全一样，比如那个经典的 /v1/chat/completions 端点。这意味着什么呢？如果你之前写了一个应用是调用OpenAI云服务的，你现在只需要把请求地址从OpenAI的服务器改成你本地LocalAI的地址，其他代码一行都不用动，就能跑起来。迁移成本几乎为零。"}, {"speaker": "host", "text": "对开发者来说这太友好了，等于是无缝切换。那部署难不难？我看文章里说Docker一键搞定？"}, {"speaker": "guest", "text": "对，这也是我觉得LocalAI做得特别好的地方。Docker你可以理解成一个"打包好的盒子"，里面把所有运行需要的环境、依赖库全都装好了。你不需要自己去装Python、编译C++库、处理各种版本冲突，就一条docker run命令，几分钟就能把服务跑起来。如果你连命令行都不太熟，还可以用OnePanel这种可视化面板，在网页上点点鼠标就完成了——填个镜像地址，设个端口号8080，点确认，等它拉取完镜像就好了。"}, {"speaker": "host", "text": "这门槛确实低。那跑起来之后能干什么？不会只是聊天吧？"}, {"speaker": "guest", "text": "远不止聊天！这是LocalAI另一个让我觉得很惊艳的地方。它支持近千种模型，而且是多模态的。除了文本对话，它还能做文生图，就是你输入一段文字描述，它给你生成图片，用的是Stable Diffusion那套技术。还有语音识别，集成了OpenAI开源的Whisper模型，能把语音转成文字；反过来也行，文字转语音也支持。甚至还有视频处理相关的功能。所有这些能力统一在一个平台下，不用分别部署好几个服务。"}, {"speaker": "host", "text": "这就相当于一个本地版的AI全家桶了。那模型方面呢，主流的那些开源模型都支持吗？"}, {"speaker": "guest", "text": "基本上你能叫得出名字的都有。Meta的Llama系列，从Llama 2到Llama 3，各种参数规模都有；法国Mistral AI的模型，那个以小参数量打大模型的狠角色；还有阿里的通义千问Qwen系列，中文支持特别好。这些模型一般都是GGUF格式的，在LocalAI的界面里点Install Models就能直接浏览和下载，下完就能用。"}, {"speaker": "host", "text": "你提到了一个词我想展开一下——AI Agent。LocalAI也支持这个？"}, {"speaker": "guest", "text": "支持的。你可以在LocalAI里创建定制化的AI Agent，给它设定角色、写好系统提示词，甚至让它调用外部工具。比如你可以搞一个"数据分析师"Agent，它能自动读取文件、写分析代码、生成报告。更厉害的是它还支持工作流编排，就是把多个AI处理步骤串起来。举个例子，先用语音识别把会议录音转成文字，再用大语言模型提取关键信息，最后自动生成会议纪要。这就不只是一个模型运行工具了，而是一个完整的AI应用平台。"}, {"speaker": "host", "text": "听起来功能确实很全。那最后给想尝试的朋友一些实际建议吧，硬件上有什么要求？"}, {"speaker": "guest", "text": "内存是最关键的。有一个简单的估算公式：4位量化模型需要的内存大约等于参数量乘以0.5再加2个GB。所以7B模型大概需要5.5GB，13B大概8.5GB。我建议内存至少16GB起步，如果想跑13B以上的模型，32GB会更稳妥。CPU的话，现代的多核处理器就行，支持AVX2指令集的会更快。如果你是隐私敏感型用户，比如处理企业内部文档、个人数据，或者是开发者想在本地做API测试，又或者就是预算有限但想玩AI的爱好者，LocalAI都特别合适。"}, {"speaker": "host", "text": "嗯，总结一下就是：不需要显卡，Docker几分钟部署，兼容OpenAI接口，近千种模型随便选，数据还完全不出本地。四万多Star确实不是白拿的。对这个方向感兴趣的朋友，真的可以去试试，门槛比你想象的低得多。"} ],

LocalAI教程：无需GPU本地部署大模型，Docker一键搞定

更多播客

AI热点风向标·06月07日午间版

AI热点风向标·06月07日早间版

每日AI新鲜事·06月07日早间播报