#CUDA

共 119 篇相关文章

产品体验

2026年6月2日·7 分钟

腾讯Marvis深度体验：系统级AI助手如何重新定义人机交互

深度体验腾讯Marvis系统级AI助手，解析其本地知识库、语义搜索、隐私模式等核心功能，探讨Agent从工具到操作系统融合的产品演进方向。

阅读全文 →

深度解读

2026年6月2日·10 分钟

Transformer架构核心原理：自注意力机制与工程优化深度解析

深度解析Transformer架构核心原理，涵盖自注意力机制QKV本质、Encoder-Decoder结构、Flash Attention显存优化、RoPE位置编码、GQA推理加速等工程落地方案，助你从面试到实战全面掌握大模型底层架构。

阅读全文 →

教程攻略

2026年6月2日·8 分钟

Stable Diffusion本地部署教程：8GB内存免费运行AI绘画

详解Stable Diffusion本地部署完整流程，包括硬件要求、一键安装步骤、模型配置方法。8GB内存即可零成本运行AI图像生成，附优势局限分析与配置建议。

阅读全文 →

教程攻略

2026年6月2日·7 分钟

Stable Diffusion本地部署教程：免费无限制的AI绘画方案

详解Stable Diffusion本地部署方法，包括硬件要求、一键整合包安装流程和模型管理技巧。零成本、无次数限制、完全离线运行，适合高频创作者和隐私敏感用户的开源AI绘画替代方案。

阅读全文 →

教程攻略

2026年6月2日·7 分钟

PyCharm配置本地DeepSeek模型实现AI辅助编程完整教程

详细介绍如何通过Ollama在PyCharm中配置本地DeepSeek模型，实现免费、隐私安全的AI辅助编程。包含安装步骤、插件配置、使用技巧及硬件建议。

阅读全文 →

教程攻略

2026年5月30日·6 分钟

AMD GPU部署PD分离式SGLang多节点推理集群教程

详解如何在AMD GPU上部署PD分离式SGLang推理集群，通过单一配置文件实现Prefill-Decode解耦的多节点部署，提升大模型推理吞吐量与延迟表现，附架构原理与适用场景分析。

阅读全文 →

SGLang v0.5.12.post1发布：DeepSeek V4稳定性修复与Blackwell适配

科技前沿

2026年5月30日·6 分钟

SGLang v0.5.12.post1发布：DeepSeek V4稳定性修复与Blackwell适配

SGLang v0.5.12.post1稳定性补丁详解，包含12项关键修复，涵盖DeepSeek V4乱码与崩溃问题、NIXL PD分离式推理逻辑修复、Blackwell B300架构适配及冷启动性能优化。

阅读全文 →

前沿研究

2026年5月30日·7 分钟

Agent Loops实战：从CUDA内核到自动化研究的Token生产力转化

深入解析Humanize框架如何通过Agent Loop将LLM Token转化为工程生产力。涵盖KDA自动编写CUDA内核获竞赛冠军、虚拟硬件优化、研究成本削减50%三大实战案例，探讨Agent-Centric研究的未来方向。

阅读全文 →

AMD MI355X击败B200：DeepSeek-R1推理TCO低5%的全栈优化解析

行业洞察

2026年5月30日·7 分钟

AMD MI355X击败B200：DeepSeek-R1推理TCO低5%的全栈优化解析

AMD Instinct MI355X通过SGLang+MoRI全栈优化，在DeepSeek-R1分离式推理中实现TCO比NVIDIA B200低5%，每GPU吞吐量高1.25倍。深度解析MoRI量化通信、KV Cache优化及推测解码等核心技术突破。

阅读全文 →

行业洞察

2026年5月29日·9 分钟

大模型三大岗位深度解析：门槛、技术栈与职业前景

深度解析大模型应用工程师、研发工程师、算法工程师三大核心岗位的技术要求、薪资门槛与发展前景，涵盖RAG、模型微调、推理部署等关键技术栈，助你制定清晰的AI职业规划路径。

阅读全文 →

Optimize Anything：一个API统一优化代码、提示词和Agent架构

前沿研究

2026年5月29日·6 分钟

Optimize Anything：一个API统一优化代码、提示词和Agent架构

UC Berkeley与Stanford联合提出Optimize Anything通用文本优化框架，通过一个声明式API统一优化CUDA内核、智能体架构、系统提示词等六大领域，全面超越专用工具。深度解析其三种优化模式、辅助信息机制与Pareto搜索策略。

阅读全文 →

教程攻略

2026年5月28日·9 分钟

Claude Code安装与Agent实战教程：文科生也能轻松上手

详细讲解Claude Code安装配置全流程，结合火山引擎GLM5.1国产大模型，演示B站数据采集、ComfyUI安装等Agent实战案例。零编程基础也能跟着做，Windows和Mac双平台覆盖。

阅读全文 →

产品体验

2026年5月28日·8 分钟

AIStarter与PanelAI架构升级详解：一站式AI工具箱的进化之路

深入解析AIStarter与PanelAI两款AI工具的架构升级计划，涵盖项目市场、模型管理、AI助理等核心功能更新，以及定价策略与商业模式分析。了解这个一站式AI工具箱如何降低AI使用门槛。

阅读全文 →

产品体验

2026年5月28日·7 分钟

WaLiCode v0.2.0：自研AI IDE新增多工程对话与任务拆解功能

独立开发者自研AI IDE WaLiCode发布v0.2.0版本，新增多工程跨项目对话、任务拆解执行模式、Ollama本地模型接入等功能，解决主流AI IDE单工程对话的痛点，为开发者提供更灵活可控的AI编程体验。

阅读全文 →

NVIDIA Dynamo Snapshot：GPU推理冷启动问题的快照恢复方案

行业洞察

2026年5月28日·6 分钟

NVIDIA Dynamo Snapshot：GPU推理冷启动问题的快照恢复方案

深入解析NVIDIA Dynamo Snapshot如何通过GPU状态快照与恢复机制，将大模型推理服务的冷启动时间从分钟级降至秒级，涵盖Kubernetes集成、技术实现挑战及弹性推理等实际应用场景。

阅读全文 →

教程攻略

2026年5月28日·6 分钟

P106矿卡跑AI大模型：几十块搭建本地AI工作站

用几十块钱的P106矿卡搭建本地AI工作站，运行Live Portrait等AI模型实现照片动态化。详解硬件成本、部署流程、隐私优势与性能局限，低成本体验AI创作的极致性价比方案。

阅读全文 →

教程攻略

2026年5月28日·7 分钟

PyTorch高效入门：源码驱动的学习方法论

分享一套经过验证的PyTorch高效学习方法：用2-3天速览基础概念，再通过逐行阅读U-Net、ViT等开源项目源码快速进阶。告别低效刷文档和冗长教程，用源码驱动的方式真正掌握PyTorch核心能力。

阅读全文 →

教程攻略

2026年5月28日·7 分钟

大模型学习路线：七大板块从入门到项目实战全解析

系统梳理大模型学习的七大核心板块，涵盖环境搭建、提示词工程、RAG检索增强生成、Agent智能体、开发框架、模型微调部署及实战项目，帮助开发者快速构建完整的大模型技能体系。

阅读全文 →

教程攻略

2026年5月28日·8 分钟

PyTorch入门教程：张量操作与神经网络构建完全指南

PyTorch入门核心概念详解，涵盖张量操作基础、动态计算图、GPU加速原理，手把手教你用nn.Module构建第一个神经网络，附学习路径建议与实战代码示例。

阅读全文 →

教程攻略

2026年5月28日·7 分钟

Vibe Coding入门：产品经理零基础氛围编程指南

Vibe Coding（氛围编程）让产品经理无需学编程，用自然语言描述需求即可驱动AI开发产品原型。本文详解Vibe Coding核心理念、环境搭建步骤及产品经理的天然优势，助你从零开始掌握AI编程新范式。

阅读全文 →