#推理速度

共 143 篇相关文章

科技前沿

2026年5月21日·4 分钟

Qwen3.6 MTP加速实测：单GPU推理飙到220 token/s

Qwen3.6实验性MTP-GGUF版本实测，单GPU将35B-A3B模型推理速度提升至220 token/s，比原版快1.4倍且精度零损失。详解MTP原理、最优Draft Tokens策略及RTX 5090实测数据。

阅读全文 →

深度解读

2026年5月21日·4 分钟

Qwen3.5深度解析：混合注意力架构实现19倍长上下文加速

深入解析阿里开源Qwen3.5模型的混合注意力架构创新，详解Gated Delta Net如何实现256K上下文19倍加速，多模态视觉反超Gemini 3 Pro和GPT-5.2的评测数据，以及RL后训练策略与实际应用Demo。

阅读全文 →

深度解读

2026年5月21日·5 分钟

LLM每秒10个Token有多快？直观感受Token生成速度的开源工具

通过开源工具直观体验LLM不同Token生成速度（5-800 TPS）的实际效果，帮助开发者理性选择模型、优化推理性能，告别对TPS数字的盲目追求。

阅读全文 →

教程攻略

2026年5月21日·11 分钟

Windsurf下载安装配置教程：5分钟搞定全流程(2025最新)

2025最新Windsurf编辑器下载安装配置全流程教程，涵盖Windows安装包下载、VS Code设置一键导入、GitHub账号登录、主题配置等详细步骤，5分钟快速上手这款AI编程工具。

阅读全文 →

教程攻略

2026年5月21日·6 分钟

MoS-TTS-Nano部署教程：0.1B超轻量TTS模型CPU即可运行

经实战验证的MoS-TTS-Nano本地部署教程，0.1B参数超轻量TTS语音合成模型无需GPU，四核CPU即可流畅运行。涵盵Conda环境配置、pynini安装踩坑解决、模型下载及Gradio WebUI启动全流程。

阅读全文 →

教程攻略

2026年5月21日·8 分钟

Codex接入DeepSeek教程：中转脚本三步搞定

手把手教你通过CC Switch和本地API中转脚本，让OpenAI Codex成功接入DeepSeek V4 Pro等国产大模型。解决API格式不兼容问题，三步完成配置，低成本享受AI编程辅助。

阅读全文 →

Step 3.5 Flash深度解析：1960亿参数开源模型击败Gemini的秘密

科技前沿

2026年5月19日·10 分钟

Step 3.5 Flash深度解析：1960亿参数开源模型击败Gemini的秘密

深度解析阶跃星辰Step 3.5 Flash开源模型：1960亿参数MoE架构仅激活110亿，编码速度350 token/秒，支持256K上下文窗口，可本地部署。详解其如何在Agent和编码任务中击败Gemini 3 Flash。

阅读全文 →

科技前沿

2026年5月19日·7 分钟

GPT Image 2凭空画出APP界面，AI前端开发迎来范式革命

GPT Image 2在LM Arena灰度测试中表现炸裂，能零乱码生成中韩文字、复刻游戏截图，甚至凭空画出可用APP界面。配合Codex端到端编码，AI前端开发迎来范式革命。本文还涵盖高德ABOT开源、大模型可解释性突破、黄仁勋回击TPU威胁论等重磅AI动态。

阅读全文 →

教程攻略

2026年5月17日·11 分钟

NVIDIA Model Optimizer训练后量化(PTQ)实战指南

深入解析NVIDIA Model Optimizer训练后量化(PTQ)工作流，涵盖INT8/INT4量化原理、校准方法、RTX GPU优化策略及大语言模型量化部署最佳实践，助你在消费级显卡上高效运行大模型。

阅读全文 →

教程攻略

2026年5月17日·6 分钟

AI大模型入门指南：显卡配置要求与核心技术栈详解

2025年AI大模型入门完整指南，详解本地部署显卡显存配置要求（4090/24GB），以及提示词工程、Agent智能体、MCP协议、LangGraph工作流等核心技术栈的学习路径。

阅读全文 →

深度解读

2026年5月17日·8 分钟

AI模型部署流水线摩擦：TensorRT如何系统性消除推理优化瓶颈

深入解析AI模型从训练到生产部署中的流水线摩擦问题，详解TensorRT自动化优化、ONNX模型导出、Triton推理服务器等关键技术，提供消除部署瓶颈的最佳实践方案。

阅读全文 →

深度解读

2026年5月16日·10 分钟

Agentic AI爆发：2026年从生成式到代理式的范式转变全解读

2026年AI行业正从生成式AI迈向Agentic AI代理式时代。深度解读GPT-5.5代理能力、Claude自主学习、Physical AI部署、DeepSeek V4开源突破，以及推理优化、多模态模型与全球AI竞争格局的最新趋势。

阅读全文 →

教程攻略

2026年5月16日·10 分钟

Codex+Ollama本地部署教程：零成本搭建AI编程助手

手把手教你用Codex搭配Ollama在本地部署免费AI编程助手，涵盖硬件检测、Ollama安装、Gemma/Qwen模型下载与接入配置全流程，轻松实现隐私安全的本地AI编程工作流。

阅读全文 →

产品体验

2026年5月16日·11 分钟

MiniMax智能体测评：免费AI Agent实测三大场景效果

深度测评MiniMax AI智能体，实测商业计划书、深度调研报告、PPT制作三大场景表现。搭载MiniMax M1模型，支持100万token上下文，注册送1000积分。对比Manus、GenSpark，这款免费AI Agent实力被严重低估。

阅读全文 →

Ollama+OpenCode本地部署AI编程：零成本替代Cursor的完整方案

教程攻略

2026年5月15日·9 分钟

Ollama+OpenCode本地部署AI编程：零成本替代Cursor的完整方案

详细教程：通过Ollama本地部署千问3 Coder大模型，配合OpenCode开源编程工具，实现零成本AI编程。涵盖环境搭建、代码生成、自动调试全流程，附硬件配置建议。

阅读全文 →

产品体验

2026年5月15日·9 分钟

GPT-OSS 120B本地部署实测：代码生成、推理能力全面对比O4 Mini

实测OpenAI首个开源推理模型GPT-OSS 120B，通过Ollama本地部署，从代码生成、逻辑推理、UI设计等维度全面评测，与O4 Mini深度对比，揭示这款开源模型的真实水平与部署踩坑经验。

阅读全文 →

教程攻略

2026年5月15日·8 分钟

GPT-OSS开源模型本地部署教程：实测效果与显存占用分析

详细介绍OpenAI开源GPT-OSS模型的本地部署全流程，使用Ollama在RTX 4090上实测20B版本的中文理解、逻辑推理等能力表现，分析MoE架构下的显存占用与硬件需求。

阅读全文 →

教程攻略

2026年5月15日·12 分钟

Whisper本地部署教程：手把手搭建免费语音转文字工具

详细图文教程教你在本地部署OpenAI Whisper语音识别工具，涵盖Conda环境配置、PyTorch安装、模型选择到实际转录操作全流程，支持近百种语言，免费生成SRT字幕文件。

阅读全文 →

教程攻略

2026年5月15日·8 分钟

GPT-OSS本地部署教程：Ollama一键运行OpenAI开源模型

详解OpenAI开源模型GPT-OSS的本地部署方法，涵盖20B/120B版本对比、Ollama安装配置、硬件要求及实测效果，助你在家用电脑上离线运行接近ChatGPT水平的AI模型。

阅读全文 →

教程攻略

2026年5月15日·8 分钟

LocalAI教程：无需GPU本地部署大模型，Docker一键搞定

详解LocalAI本地部署教程，无需GPU即可运行近千种开源大模型。通过Docker一键部署，兼容OpenAI API接口，支持对话、文生图、语音等多模态功能，数据完全本地化，隐私安全有保障。

阅读全文 →