#模型压缩

共 44 篇相关文章

郭宇谈AI Agent时代：软件的终结与知识工作者的命运

2026年6月6日·7 分钟

郭宇谈AI Agent时代：软件的终结与知识工作者的命运

前字节跳动工程师郭宇深度解析AI Agent变革：Claude Code的Skill功能如何终结传统软件，SaaS行业面临崩塌，知识工作者的未来出路，以及中美AI差距的真实现状。

阅读全文 →

Claude Opus 4.8自称DeepSeek翻车事件：语料污染还是蒸馏…

2026年6月6日·7 分钟

Claude Opus 4.8自称DeepSeek翻车事件：语料污染还是蒸馏？技术真相解析

Anthropic新模型Claude Opus 4.8上线不到两小时翻车，用中文提问竟自称DeepSeek和通义千问。本文深度分析语料污染与蒸馏假说，揭示中文对齐缺失的技术根因及AI行业蒸馏技术的正确理解。

阅读全文 →

Cursor设计模式发布与OpenAI Codex更新：AI编程工具最新动态

2026年6月6日·7 分钟

Cursor设计模式发布与OpenAI Codex更新：AI编程工具最新动态

Cursor推出设计模式实现可视化开发，OpenAI Codex多项改进及安全锁定模式发布，Anthropic限额翻倍，AI智能体排行榜出炉，Google DeepMind模型压缩突破，全面解读AI领域最新进展。

阅读全文 →

2026年6月6日·9 分钟

vLLM深度解析：PagedAttention如何实现高吞吐量LLM推理

深入解析vLLM高吞吐量LLM推理引擎的核心技术，包括PagedAttention内存管理、连续批处理机制、分布式部署方案，以及与TensorRT-LLM等方案的对比和适用场景建议。

阅读全文 →

2026年6月4日·11 分钟

Google混合推理登陆iOS：端侧AI跨平台部署全解析

Google混合推理正式支持iOS平台，Android端新增Gemma 4模型，Chrome本地Web推理即将全面开放。深入解析混合推理技术原理、跨平台优势及开发者机遇。

阅读全文 →

2026年6月4日·7 分钟

Claude Opus 4.8发布：判断力、诚实度与自主工作能力全面升级

Anthropic发布Claude Opus 4.8，带来更敏锐的判断力、更诚实的自我认知和更长的独立工作时长三大核心升级，价格保持不变。本文详解Opus 4.8的关键改进及其对AI Agent应用的影响。

阅读全文 →

教程攻略

2026年6月3日·7 分钟

Ollama入门指南：本地部署开源大模型的最佳工具

详解Ollama本地大模型管理工具的核心功能与特点，包括免费开源、跨平台支持、智能GPU/CPU调度、API集成等能力，帮助你零成本在本地运行DeepSeek等开源大模型。

阅读全文 →

教程攻略

2026年6月3日·7 分钟

Ollama本地部署大模型：三步完成安装到对话

详细介绍如何使用Ollama在本地电脑部署大语言模型，涵盖下载安装、模型选择、一键部署到对话的完整流程，无需编程基础，支持离线运行且完全免费。

阅读全文 →

Gemini 3.5 Pro泄露解析：编程追平GPT 5.5，Spark Agent引发隐私争议

科技前沿

2026年6月3日·8 分钟

Gemini 3.5 Pro泄露解析：编程追平GPT 5.5，Spark Agent引发隐私争议

Gemini 3.5 Pro内部泄露信息解析：编程能力正面追平GPT 5.5，轻量版Flash达到92%性能却便宜20倍。Gemini Spark作为24小时AI Agent引发权限与隐私争议，深度分析谷歌在AI三巨头格局中的生态飞轮战略。

阅读全文 →

教程攻略

2026年6月3日·7 分钟

Z-Image模型实战：3分钟生成电影级古风美女

详解Z-Image模型四大变体及ComfyUI工作流搭建，结合豆包大模型反推提示词，新手也能快速生成电影级画质的古风写实人物图像，附关键参数配置与批量生成技巧。

阅读全文 →

科技前沿

2026年6月3日·8 分钟

GPT-5.6内测启动，AI行业一周重磅动态全解析

GPT-5.6启动内测引入UltraFast模式，Codex目标驱动模式革新AI编程，MiniMax模型压缩成本降360倍，Anthropic与OpenAI估值攻防战升级，Cerebras IPO募资55.5亿美元，Figure机器人8小时自主作业验证，谷歌Vio 3.1领跑AI视频生成。

阅读全文 →

产品体验

2026年6月3日·9 分钟

Google Gemma 4实测：手机离线运行+Ollama部署教程

实测Google Gemma 4开源模型在三台手机上的离线运行表现，详解Dense与MOE架构区别，附Ollama + Claude Code完整部署教程。从1B到31B四款模型覆盖手机到工作站全场景，4GB显存即可运行。

阅读全文 →

科技前沿

2026年6月2日·5 分钟

Opus 4.7快速模式登陆Windsurf：速度提升2.5倍，智能不减

Claude Opus 4.7快速模式正式上线Windsurf编程工具，输出速度提升约2.5倍且保持完整智能水平。本文解析该更新对AI辅助编程体验的实际影响及Windsurf的竞争策略。

阅读全文 →

产品体验

2026年6月2日·11 分钟

OpenHuman深度解析：上下文优先的开源私人AI Agent

深度解析OpenHuman开源私人AI Agent，详解其上下文优先架构、Rust+React混合方案、内存树记忆系统、Token Juice压缩引擎及多模型动态路由，全面评估其安全设计与竞品优势。

阅读全文 →

教程攻略

2026年5月28日·7 分钟

PyCharm AI助手深度体验：本地补全、Edit模式与实用技巧

详解PyCharm AI Assistant新特性：免费本地AI补全、云端增强生成、Chat与Edit双模式切换、上下文精准管理等功能，帮助Python开发者快速上手并提升编码效率。

阅读全文 →

产品体验

2026年5月26日·5 分钟

GLM 5.1满血旗舰模型实测400 TPS，两分钟从草图到完整应用

实测智谱GLM 5.1 High Speed API，满血旗舰模型输出速度达400 Token/s。从草图还原页面到零基础生成完整解谜游戏，验证速度与能力兼得的AI编程新体验。

阅读全文 →

科技前沿

2026年5月25日·5 分钟

Gemini 3.5 Flash深度解析：AI如何可视化复杂学术论文

Google Gemini 3.5 Flash展示了对复杂学术论文的深度理解与个性化可视化能力，能将高级数学论文转化为直观图形。本文解析其技术突破、应用场景及对学术研究的深远影响。

阅读全文 →

教程攻略

2026年5月24日·5 分钟

Ollama本地部署大模型教程：安装配置到API调用全流程

详解Ollama本地部署开源大模型的完整流程，涵盖安装配置、模型选择与量化策略、Python代码调用API、性能优化等实战技巧，帮你快速在本地运行Qwen、Llama等大模型。

阅读全文 →

产品体验

2026年5月23日·5 分钟

免魔法使用DeepSeek、GPT、Claude等AI模型实测体验

实测免魔法AI聚合平台，验证满血DeepSeek 671B、Gemini文件分析、音视频识别及联网搜索功能，一站式访问GPT、Claude等热门模型的真实体验报告。

阅读全文 →

教程攻略

2026年5月21日·4 分钟

Token自由实现指南：低成本使用Codex与GPT的5个省钱策略

详解如何实现Token自由，涵盖模型选择、中转API、Prompt优化、免费额度利用等5大策略，帮助开发者大幅降低GPT和Codex的API调用成本，轻松节省Token开支。

阅读全文 →