#小模型

共 157 篇相关文章

Harness Engineering详解：驾驭AI Agent的底层原理与实战方法

深度解读

2026年5月22日·5 分钟

Harness Engineering详解：驾驭AI Agent的底层原理与实战方法

深入解析Harness Engineering（驾驭工程）的核心概念，涵盖AI Agent的三大控制维度：规则控制、工具配置与工作流程设计，以及反馈机制和Lifelong AI Agent的前沿实践。

阅读全文 →

Claude Code总写出垃圾代码？CLAUDE.md和AGENTS.md配置指南

教程攻略

2026年5月21日·6 分钟

Claude Code总写出垃圾代码？CLAUDE.md和AGENTS.md配置指南

深度解析Claude Code两个关键配置文件CLAUDE.md和AGENTS.md的作用与写法。实战案例证明，正确配置后可将上下文解释时间从60%降至几乎为零，让AI真正理解你的项目架构和业务逻辑。

阅读全文 →

产品体验

2026年5月21日·4 分钟

Qwen3.6-27B开源模型评测：27B参数实现旗舰级代码与多模态能力

阿里Qwen3.6-27B开源模型深度解析：270亿参数稠密架构，单卡即可部署，代码生成能力超越前代旗舰。本文详解其技术优势、基准测试成绩、硬件配置方案及实际部署建议，助你低成本获得旗舰级AI编程与多模态理解能力。

阅读全文 →

产品体验

2026年5月21日·4 分钟

Qwen3.6量化版本地部署实测：NVFP4、APEX、Q4、Q6哪个最值得选

实测Qwen3.6系列7-8个量化模型在工具调用、命令行操作、Bug修复、数学推理等8大维度的表现，对比NVFP4、APEX、Q4、Q6量化方案，附总分排名与选购建议，帮你找到最适合本地部署的量化版本。

阅读全文 →

Qwen3.6 27B三大邪修量化模型实测：代码暴增15.8PP、40B蒸馏、16GB适配

产品体验

2026年5月21日·4 分钟

Qwen3.6 27B三大邪修量化模型实测：代码暴增15.8PP、40B蒸馏、16GB适配

实测对比三款基于Qwen3.6 27B的社区邪修量化模型：OmniMerge V4代码能力提升15.8个百分点，40B OPUS蒸馏版支持角色扮演与创意写作，16GB特化版让小显存也能跑稠密模型。附显存要求、参数设置与选型建议。

阅读全文 →

悟空2.2P开源：35B MOE模型性能超越Qwen3.6-27B，速度快3-5倍

科技前沿

2026年5月21日·2 分钟

悟空2.2P开源：35B MOE模型性能超越Qwen3.6-27B，速度快3-5倍

悟空2.2P 35B MOE模型正式开源，采用对抗式杂交蒸馏技术，综合性能超越Qwen3.6-27B。4090显卡Q5量化达158 tokens/s，仅需8.9G显存即可运行，支持256K上下文。详解核心技术、硬件配置与实测数据。

阅读全文 →

科技前沿

2026年5月21日·4 分钟

Qwen3.6 MTP加速实测：单GPU推理飙到220 token/s

Qwen3.6实验性MTP-GGUF版本实测，单GPU将35B-A3B模型推理速度提升至220 token/s，比原版快1.4倍且精度零损失。详解MTP原理、最优Draft Tokens策略及RTX 5090实测数据。

阅读全文 →

本地部署DeepSeek+RAG知识库教程：Ollama+RAGFlow保姆级指南

教程攻略

2026年5月21日·6 分钟

本地部署DeepSeek+RAG知识库教程：Ollama+RAGFlow保姆级指南

手把手教你用Ollama本地部署DeepSeek大模型，结合RAGFlow搭建RAG私有知识库。涵盖环境配置、Docker部署、Embedding原理讲解，支持离线运行，保障数据隐私，轻松实现企业级智能问答。

阅读全文 →

教程攻略

2026年5月21日·5 分钟

Hermes Agent配置教程：六步搭建AI自动化工作流

详解Hermes Agent六步配置法：Graphify知识图谱节省71倍Token、Smart Model Router降低70%成本、爬虫矩阵实现全网感知、Browser Use浏览器自动操控，手把手教你搭建拥有记忆和执行力的AI自动化工作流系统。

阅读全文 →

产品体验

2026年5月21日·4 分钟

Gemini 3 Flash深度评测：编码、多模态、写作全面实测

深度评测Google Gemini 3 Flash在编码、多模态理解、写作翻译等方面的真实表现。涵盖Flash反超Pro的基准跑分解析、搭配Cursor的编程实战、视频音频图像识别全面测试，附实用建议与使用技巧。

阅读全文 →

教程攻略

2026年5月21日·4 分钟

Token自由实现指南：低成本使用Codex与GPT的5个省钱策略

详解如何实现Token自由，涵盖模型选择、中转API、Prompt优化、免费额度利用等5大策略，帮助开发者大幅降低GPT和Codex的API调用成本，轻松节省Token开支。

阅读全文 →

Step 3.5 Flash深度解析：1960亿参数开源模型击败Gemini的秘密

科技前沿

2026年5月19日·10 分钟

Step 3.5 Flash深度解析：1960亿参数开源模型击败Gemini的秘密

深度解析阶跃星辰Step 3.5 Flash开源模型：1960亿参数MoE架构仅激活110亿，编码速度350 token/秒，支持256K上下文窗口，可本地部署。详解其如何在Agent和编码任务中击败Gemini 3 Flash。

阅读全文 →

深度解读

2026年5月17日·7 分钟

MARVIS项目：嵌入式AI Agent赋能太空自主探索全解析

深入解析MARVIS项目如何将大语言模型Agent部署到太空飞行器，涵盖Agent架构设计、边缘硬件Token性能实测、专家评估结果及太空通用智能基准测试规划，探索从POC到深空自主探索的完整技术路线。

阅读全文 →

教程攻略

2026年5月17日·8 分钟

语法约束解码：让小模型生成可靠Bash代码的实战指南

深入解析语法约束解码（Grammar-Constrained Decoding）技术，探讨如何在推理阶段为小型语言模型施加Bash语法约束，大幅提升代码生成的正确率与可执行性，助力AI Agent边缘部署与自动化运维场景。

阅读全文 →

产品体验

2026年5月17日·8 分钟

GitHub 8K Star：最全LLM大模型资源宝库深度解析

深度解析GitHub热门项目awesome-LLM-resources，涵盖多模态生成、AI Agent、MCP协议、模型训练推理、o1模型、小语言模型等LLM核心方向，8200+ Star社区验证的大语言模型学习资源一站式导航。

阅读全文 →

产品体验

2026年5月17日·10 分钟

GitHub 8K星：最全LLM资源宝库深度解析

深度解析GitHub 8200+星的awesome-LLM-resources项目，涵盖多模态、AI Agent、MCP协议、模型训练推理、o1模型、小语言模型等十大核心板块，为LLM从业者提供最全面的中文学习资源索引。

阅读全文 →

产品体验

2026年5月17日·13 分钟

DeepClaude开源解析：DeepSeek+Claude双模型协同代码生成

深度解析GitHub 2800+ Star开源项目DeepClaude的技术架构。通过DeepSeek R1推理+Claude 3.7 Sonnet代码生成的双模型协同方案，实现更高质量的AI代码输出，附工程实现亮点与局限性分析。

阅读全文 →

Hugging Face Transformers：16万星开源AI框架全面解析

深度解读

2026年5月17日·13 分钟

Hugging Face Transformers：16万星开源AI框架全面解析

全面解析GitHub 16万星的Hugging Face Transformers框架，从核心架构、多模态模型支持到大模型量化推理优化，帮助开发者快速掌握预训练模型的加载、微调与高效部署。

阅读全文 →

产品体验

2026年5月16日·9 分钟

GPT-OSS 120B/20B开源模型深度测评：幻觉、推理、代码全面实测

OpenAI开源GPT-OSS 120B和20B模型全面测评，涵盖幻觉测试、逻辑推理、代码生成、SQL查询、文档分析等多维度实测，附部署方式与选型建议，助你选择最适合的开源大模型。

阅读全文 →

深度解读

2026年5月16日·10 分钟

Agentic AI爆发：2026年从生成式到代理式的范式转变全解读

2026年AI行业正从生成式AI迈向Agentic AI代理式时代。深度解读GPT-5.5代理能力、Claude自主学习、Physical AI部署、DeepSeek V4开源突破，以及推理优化、多模态模型与全球AI竞争格局的最新趋势。

阅读全文 →