播客频道 | WhichLLM：一键检测你的电脑最适合跑哪个本地大模型

诶李博，你今天这个T恤什么风格，极简程序员风吗？得了吧，你上次说我穿格子衬衫太刻板，我这不换了嘛。倒是你，手边那杯又是什么新品？新出的燕麦拿铁，别岔开话题。我今天找你是有正事的，最近我们组在搞本地大模型部署的需求，我选模型选到头秃。选模型选到头秃这个我太理解了。你是不是算显存、查量化版本、翻评测帖，折腾一圈最后还是不确定选得对不对？对对对，就是这样！我之前想当然觉得参数越大越好嘛，直接上70B的模型，结果我那台机器跑得跟蜗牛一样，一个字一个字往外蹦。这就是典型的踩坑了。你看啊，70B的模型光权重就要140GB，你显卡才多大显存？装不下的部分就会被卸载到系统内存里。问题是GPU显存带宽能到1TB每秒，但普通DDR5内存带宽才五六十GB每秒，差了十几倍。所以一旦模型溢出显存，推理速度直接从每秒三十多Token掉到个位数。怪不得体验那么差。所以其实跑一个高质量的小一点的模型，反而比硬塞一个大模型体验好？没错，关键是质量、量化精度和推理速度的综合平衡。然后我最近发现一个工具，专门解决这个问题，叫WhichLLM。 WhichLLM？这名字倒是简单粗暴，哪个LLM嘛。它具体干什么的？一句话概括就是，它自动检测你的硬件配置，然后从Hugging Face上拉最新的模型数据，结合多个权威评测基准，直接告诉你你的电脑最适合跑哪个模型。而且不只是推荐模型本身，还会推荐具体的量化版本。比如同一个模型，Q4量化和Q5量化差别挺大的，它会帮你选到最合适的那个档位。等一下，你说的量化我大概懂，就是把模型参数从高精度压缩成低精度对吧。但Q4、Q5这些到底差多少啊？这么说吧，原始模型每个参数占2字节，Q5量化之后大小大概只有原来的三分之一，但性能损失通常就百分之一到三。社区公认Q5是甜蜜点。但如果你为了省显存选了Q2或者Q3，有些模型输出质量会断崖式下降，直接不能用那种。所以选对量化等级真的很关键。真的假的，差这么多？那这工具光看能不能装下显存肯定不够吧？对，这就是WhichLLM比较厉害的地方。它不是简单算你显存够不够，而是综合了MMLU、HumanEval、GSM8K这些权威评测基准的真实数据来排序。但是评测数据靠谱吗？我记得之前看到有人说很多模型刷榜，分数虚高。你这个问题问到点子上了。刷榜确实是行业顽疾，有些开发者会把评测题混进训练数据里，分数好看但实际用起来不行。 WhichLLM专门做了处理，交叉验证多个评测基准的一致性，检测异常高分，还会根据模型发布时间加时间衰减因子，给旧模型降权。这个设计我喜欢，做产品的人都知道数据清洗有多重要。诶说到这个，我想起一个场景，我上周帮同事看要不要升级显卡。他纠结4060的8GB版和4060Ti的16GB版，差价将近两千块。当时我就想，要是能提前知道这两张卡分别能跑什么模型就好了。你说的这个场景WhichLLM刚好能解决。它支持模拟任意硬件配置，你不需要真有那张卡，输入参数就能看推荐结果。这也行？那岂不是买显卡之前先模拟一下，就知道这钱花得值不值了？就是这个意思。8GB显存大概只能跑7到8B的模型，16GB就能上到14到15B，质量差距非常明显。提前模拟一下，心里就有数了。行，那推荐完之后呢？我还得自己去下载模型、配环境、调参数吧？光这些我上次就折腾了一晚上。这就是它最狠的地方了。推荐完之后一条命令直接开聊，自动下载模型、自动配置环境，全程不用你操心。一条命令就开聊？对，真正的开箱即用。你想想以前的流程，选模型、下载GGUF文件、配置llama.cpp的GPU层数、设上下文长度，哪一步不折腾？别说了别说了，我上次光配n_gpu_layers那个参数就试了好几次。那安装这个工具本身复杂吗？ pip install whichllm，搞定。或者用uvx whichllm一行命令，连安装都不用，临时环境直接跑，不污染你系统。这也太省心了。不过我得问一个产品经理该问的问题，它有什么局限性吗？有，它没法完全了解你的具体使用场景。你是写代码还是写文章，需要长上下文还是快速响应，这些细分需求还得自己判断。嗯，这个可以理解。不同任务对模型能力的侧重确实不一样，代码生成看逻辑推理，创意写作看语言流畅度，RAG场景又需要长上下文窗口。对，但作为一个快速筛选的起点，它已经帮你排除了百分之九十的无效选项。剩下的微调就简单多了。这么一聊我觉得这工具确实解决了一个很实在的痛点。以前选模型全靠在论坛里问人，现在一条命令用数据说话。而且本地模型生态只会越来越繁荣，模型数量爆炸式增长，量化版本五花八门。没有这种自动化工具，选择困难症只会越来越严重。行，回头我先拿自己的机器跑一下，然后再模拟一下那个4060Ti的配置帮同事参谋参谋。对，与其到处问人，不如自己跑一下WhichLLM。诶你帮同事选完显卡记得让他请你喝咖啡。那必须的，这种专业咨询服务怎么也值一杯手冲吧。好了，今天就聊到这儿，我先去装工具了。

WhichLLM：一键检测你的电脑最适合跑哪个本地大模型

更多播客

AI热点风向标·06月07日午间版

AI热点风向标·06月07日早间版

每日AI新鲜事·06月07日早间播报