首页分类热门播客标签关于

关于

控场AI是一个科技深度阅读平台，聚焦前沿技术趋势、工具评测与行业洞察，为科技从业者提供高质量的内容体验。

导航

首页
分类
热门
播客
标签
关于

声明

本站内容基于公开信息整理编辑，仅供参考。引用内容版权归原作者所有。

© 2026 控场AI kongchang.com. All rights reserved.

#本地推理

共 64 篇相关文章

KeyType：macOS免费开源的系统级AI自动补全工具

2026年6月6日·5 分钟

KeyType：macOS免费开源的系统级AI自动补全工具

KeyType是一款基于MIT协议的macOS系统级AI文本补全工具，支持本地LLM推理和自选模型。覆盖浏览器、备忘录、邮件等所有输入框，按Tab即可补全，数据完全不出本机，是Cotypist的免费开源替代方案。

阅读全文 →

Google混合推理登陆iOS：端侧AI跨平台部署全解析

2026年6月4日·11 分钟

Google混合推理登陆iOS：端侧AI跨平台部署全解析

Google混合推理正式支持iOS平台，Android端新增Gemma 4模型，Chrome本地Web推理即将全面开放。深入解析混合推理技术原理、跨平台优势及开发者机遇。

阅读全文 →

OpenClaw本地部署教程：10分钟接入微信飞书钉钉

2026年6月3日·7 分钟

OpenClaw本地部署教程：10分钟接入微信飞书钉钉

详解OpenClaw（小龙虾）本地部署全流程，涵盖Windows安装、云部署、微信/飞书/钉钉多平台接入及自定义Skills编写，零基础用户10分钟即可完成部署上手。

阅读全文 →

Ollama+Gemma 4本地运行Codex：零成本AI编程完整指南

2026年6月3日·9 分钟

Ollama+Gemma 4本地运行Codex：零成本AI编程完整指南

详解如何用Ollama本地部署Gemma 4模型运行Codex，实现零成本AI编程。涵盖安装配置、模型选择、实际效果演示，替代每月20-200美元的付费方案，适合独立开发者和预算有限的团队。

阅读全文 →

Google Gemma 4实测：手机离线运行+Ollama部署教程

2026年6月3日·9 分钟

Google Gemma 4实测：手机离线运行+Ollama部署教程

实测Google Gemma 4开源模型在三台手机上的离线运行表现，详解Dense与MOE架构区别，附Ollama + Claude Code完整部署教程。从1B到31B四款模型覆盖手机到工作站全场景，4GB显存即可运行。

阅读全文 →

WhichLLM：一键检测你的电脑最适合跑哪个本地大模型

2026年6月3日·8 分钟

WhichLLM：一键检测你的电脑最适合跑哪个本地大模型

WhichLLM 是一款开源工具，能自动检测电脑硬件配置，结合权威评测数据推荐最适合本地运行的大语言模型。支持模拟任意显卡配置、过滤虚假评测、一键下载开聊，帮你告别选模型的纠结。

阅读全文 →

llama.cpp MTP加速部署指南：配置步骤与性能实测

2026年6月2日·10 分钟

llama.cpp MTP加速部署指南：配置步骤与性能实测

详解llama.cpp如何启用MTP多Token预测加速技术，涵盖CUDA环境配置、桌面端设置、模型选择及实测性能数据，Qwen3 27B实测近60 Token/s。

阅读全文 →

Mac本地批量AI生图实战：万张插画踩坑与最佳实践

2026年6月2日·8 分钟

Mac本地批量AI生图实战：万张插画踩坑与最佳实践

分享Mac本地使用Draw Things批量AI生图的完整实战经验，涵盖提示词迭代策略、负向提示词陷阱、性能优化技巧，以及从本地方案转向Replicate云平台的决策过程，适合需要批量生成插画的开发者参考。

阅读全文 →

Hertzman木马人：免费免安装的本地大模型部署工具评测

2026年6月2日·7 分钟

Hertzman木马人：免费免安装的本地大模型部署工具评测

详细评测Hertzman木马人本地推理引擎，涵盖一键部署、智能硬件推荐、OpenAI兼容API接口等核心功能，并与LM Studio进行性能对比，帮你快速上手本地大模型。

阅读全文 →

PyCharm配置本地DeepSeek模型实现AI辅助编程完整教程

2026年6月2日·7 分钟

PyCharm配置本地DeepSeek模型实现AI辅助编程完整教程

详细介绍如何通过Ollama在PyCharm中配置本地DeepSeek模型，实现免费、隐私安全的AI辅助编程。包含安装步骤、插件配置、使用技巧及硬件建议。

阅读全文 →

oMLX+MTP+Qwen3.6：本地AI编程速度突破新极限

2026年6月1日·9 分钟

oMLX+MTP+Qwen3.6：本地AI编程速度突破新极限

使用oMLX推理引擎结合MTP多令牌预测技术和Qwen3.6 35B模型，在Apple Silicon Mac上实现86.7 tokens/s的本地编程速度，5分钟内完成全栈应用开发的完整实战解析。

阅读全文 →

pnpm Monorepo全栈AI工程化实战：搭建多模态对话系统

2026年6月1日·7 分钟

pnpm Monorepo全栈AI工程化实战：搭建多模态对话系统

详解如何用pnpm Monorepo架构搭建全栈AI多模态对话系统，涵盖本地模型集成、图片理解、流式对话等核心功能，提供工程化最佳实践与落地方案。

阅读全文 →

DeepSeek V4 Flash MTP推测解码实测：本地推理提速20%指南

2026年5月29日·8 分钟

DeepSeek V4 Flash MTP推测解码实测：本地推理提速20%指南

实测DeepSeek V4 Flash开启MTP推测解码后的性能表现：代码生成场景提速约20%，文本生成提升有限。详解内存开销、准确性差异、Q4与Q3量化对比，以及通过Inference应用和OpenAI兼容API的完整部署教程。

阅读全文 →

Dyad：免费开源的AI全栈构建器，Lovable平替方案深度体验

2026年5月29日·7 分钟

Dyad：免费开源的AI全栈构建器，Lovable平替方案深度体验

深度体验Dyad开源AI全栈应用构建器，支持本地运行、多模型接入、组件级编辑。对比Lovable、Bolt.new等付费工具，Dyad完全免费且数据私有，适合快速原型设计与独立开发者使用。

阅读全文 →

Spring AI框架全攻略：Java工程师AI应用开发完整路径

2026年5月29日·8 分钟

Spring AI框架全攻略：Java工程师AI应用开发完整路径

系统讲解Spring AI框架，涵盖大模型接入、提示词工程、RAG知识库、AI Agent五种模式等核心技术，通过三大企业级实战项目，帮助Java工程师快速掌握AI应用开发的工程化落地能力。

阅读全文 →

Claude Agent SDK+LiteLLM+本地大模型：零成本搭建智能体平台

2026年5月28日·9 分钟

Claude Agent SDK+LiteLLM+本地大模型：零成本搭建智能体平台

详解如何通过LiteLLM Proxy将Claude Agent SDK的API请求重定向到本地大模型，在保留完整Agent框架能力的同时将推理成本降为零。含架构设计、实战演示与企业级部署方案。

阅读全文 →

npcpy：用软件工程思维重构AI Agent开发的开源框架

2026年5月28日·6 分钟

npcpy：用软件工程思维重构AI Agent开发的开源框架

深入解析npcpy开源框架的四层架构设计、多智能体协同机制、知识图谱生命周期管理以及工程部署方案，帮助开发者用软件工程思维构建稳定可控的AI Agent系统。

阅读全文 →

AI编程一体机vs在线大模型：48万年费能换4套本地方案？

2026年5月28日·7 分钟

AI编程一体机vs在线大模型：48万年费能换4套本地方案？

深度对比AI编程一体机与在线大模型API的成本差异。以20人开发团队为例，年均Token费用高达48万元，而OnePanel AI编程一体机仅需9.9万元，两个半月即可回本。从成本、安全、延迟、合规四大维度分析本地化AI编程部署方案的实际价值。

阅读全文 →

P106矿卡跑AI大模型：几十块搭建本地AI工作站

2026年5月28日·6 分钟

P106矿卡跑AI大模型：几十块搭建本地AI工作站

用几十块钱的P106矿卡搭建本地AI工作站，运行Live Portrait等AI模型实现照片动态化。详解硬件成本、部署流程、隐私优势与性能局限，低成本体验AI创作的极致性价比方案。

阅读全文 →

DLSS 4.5深度集成UE5与多语言AI角色：NVIDIA RTX游戏开发重大更新

2026年5月28日·7 分钟

DLSS 4.5深度集成UE5与多语言AI角色：NVIDIA RTX游戏开发重大更新

NVIDIA发布RTX技术重大更新，DLSS 4.5深度集成虚幻引擎5带来帧生成性能飞跃，多语言AI角色支持动态对话与实时语音合成，全面革新游戏开发流程与玩家交互体验。

阅读全文 →

1 2 3 4 下一页