#NVIDIA CUDA

共 9 篇相关文章

实测Google Gemma 4开源模型在三台手机上的离线运行表现，详解Dense与MOE架构区别，附Ollama + Claude Code完整部署教程。从1B到31B四款模型覆盖手机到工作站全场景，4GB显存即可运行。

摩尔线程推出AI Coding Plan智能编程服务，基于自研MTT S5000 GPU和GLM-4代码模型，实现全栈国产化。兼容VS Code、Cursor等主流IDE，提供30天免费体验和梯度化套餐，为开发者提供国产AI编程替代方案。

详解如何在AMD GPU上部署PD分离式SGLang推理集群，通过单一配置文件实现Prefill-Decode解耦的多节点部署，提升大模型推理吞吐量与延迟表现，附架构原理与适用场景分析。

深入解析NVIDIA最新发布的CUDA Tile编程模型，了解其基于瓦片的GPU内核开发方式如何融合C++生态、优化数据局部性并加速Tensor Core计算，适用于HPC、深度学习和AI推理等场景。

详解Ollama本地部署开源大模型的完整流程，涵盖安装配置、模型选择与量化策略、Python代码调用API、性能优化等实战技巧，帮你快速在本地运行Qwen、Llama等大模型。

详解Ollama开源工具的安装使用方法，支持DeepSeek、Qwen、Kimi-K2.5、GLM-5等主流大模型本地部署，17万Star的最受欢迎本地大模型运行框架，助你实现离线AI推理与隐私保护。

深度解析AnythingLLM开源AI平台：支持本地部署、零配置开箱即用、内置RAG文档问答和向量数据库。了解这款6万Star项目如何实现隐私优先的一站式AI生产力体验，以及企业知识库、个人研究等实际应用场景。

Ollama是GitHub 17万Star的开源工具，支持一行命令本地运行DeepSeek、Qwen、Kimi-K2.5等主流大模型。本文详解Ollama的模型生态、核心优势、应用场景及为何它成为本地LLM部署的事实标准。

深度解析腾讯音乐开源的Cube Studio云原生AI平台，涵盖分布式训练、DeepSeek大模型微调、vLLM推理部署、VGPU算力管理等核心功能，支持华为昇腾国产化生态，助力企业构建私有AI基础设施。