#量化加速

共 2 篇相关文章

Qwen3.6实验性MTP-GGUF版本实测，单GPU将35B-A3B模型推理速度提升至220 token/s，比原版快1.4倍且精度零损失。详解MTP原理、最优Draft Tokens策略及RTX 5090实测数据。

Unsloth 是 GitHub 6.3万星标的开源大模型训练工具，支持 Gemma 4、Qwen3、DeepSeek 等主流模型的本地微调与部署。提供 Web UI 界面，显存占用降低50%，训练速度提升2-5倍，适合企业和个人开发者使用。