#模型训练

共 355 篇相关文章

DeepSeek-V3.2-Exp发现RoPE实现Bug：交错格式不匹配导致推理性能下降

科技前沿

2026年5月12日·6 分钟

DeepSeek-V3.2-Exp发现RoPE实现Bug：交错格式不匹配导致推理性能下降

DeepSeek-V3.2-Exp推理演示中发现RoPE旋转位置编码的交错格式不匹配Bug，Indexer模块与MLA注意力模块的输入格式不一致导致隐性性能退化。本文详解问题根源、技术细节及修复方案。

阅读全文 →

科技前沿

2026年5月12日·7 分钟

模拟仿真重塑AI测试：系统化验证AI应用可靠性的新范式

探讨模拟仿真如何解决AI应用测试难题，涵盖场景模拟、大规模回归测试、多智能体交互验证等关键方向，解析MLOps社区推动的AI质量保障新范式，助力团队构建可靠的AI系统。

阅读全文 →

Karpathy开源autoresearch：8万Star的AI自动化科研工具解析

科技前沿

2026年5月11日·8 分钟

Karpathy开源autoresearch：8万Star的AI自动化科研工具解析

Andrej Karpathy发布开源项目autoresearch，利用AI Agent在单GPU环境下自动运行nanochat训练实验，GitHub已获8万+Star。本文深度解析其技术架构、核心理念及对AI科研自动化的深远影响。

阅读全文 →

教程攻略

2026年5月11日·9 分钟

MLflow完全指南：从实验跟踪到LLM部署的开源AI工程平台

深入解析MLflow开源AI工程平台的核心功能，涵盖实验跟踪、LLM评估、模型部署与监控等模块，帮助团队高效管理机器学习生命周期，降低AI应用生产化复杂度。

阅读全文 →

产品体验

2026年5月10日·8 分钟

Agentica开源框架评测：轻量异步AI Agent开发新选择

深度解析Agentica开源AI Agent框架，涵盖异步优先架构、工具调用、RAG检索增强生成、多智能体协作及MCP协议支持等核心特性，并与LangChain等主流框架对比，帮助开发者选择合适的Agent开发工具。

阅读全文 →

深度解读

2026年5月9日·9 分钟

开源复刻OpenAI Operator：48小时打造计算机操控AI Agent

开发者48小时内基于Anthropic Computer Use开源复刻OpenAI Operator，打造全栈Docker化的计算机操控AI Agent。本文深入分析项目技术架构、实现路径及Computer Use Agent的行业趋势与未来潜力。

阅读全文 →

workers-research：用Cloudflare Workers构建AI深度研究代理实战解析

科技前沿

2026年5月9日·8 分钟

workers-research：用Cloudflare Workers构建AI深度研究代理实战解析

详解开源项目workers-research如何结合Cloudflare Workers无服务器架构与Google Gemini 2.5，构建自动化深度研究AI代理，涵盖技术架构、工作原理及实际应用场景。

阅读全文 →

SAP AI Core LLM Proxy：统一接入GPT-5等主流大模型的企业级代理方案

深度解读

2026年5月9日·6 分钟

SAP AI Core LLM Proxy：统一接入GPT-5等主流大模型的企业级代理方案

深入解析SAP AI Core LLM Proxy开源项目，了解如何通过OpenAI兼容接口统一接入GPT-5、Claude 4.6、Gemini 2.5 Pro等主流大模型，解决企业多模型管理难题。

阅读全文 →

Swarm IDE：开源多智能体协作开发环境，1500 Star的Agent编排利器

科技前沿

2026年5月9日·9 分钟

Swarm IDE：开源多智能体协作开发环境，1500 Star的Agent编排利器

Swarm IDE 是专为 Agent Swarm 多智能体协作打造的开源 IDE，支持 Kimi-2.5、GLM-4.7 等模型，提供可视化编排、调试和管理能力，GitHub 短时间内收获近 1500 Star。本文深度解析其技术特点与应用前景。

阅读全文 →

产品体验

2026年5月8日·9 分钟

AnythingLLM完全指南：本地部署的隐私AI助手

深度解析AnythingLLM开源项目，一款隐私优先、零配置的本地AI生产力工具。支持RAG知识库、多模型切换、文档对话，GitHub近6万Star，适合企业和个人本地部署使用。

阅读全文 →

教程攻略

2026年5月8日·6 分钟

Unsloth教程：本地微调大模型省显存提速5倍

详解Unsloth开源工具如何通过LoRA优化和Web UI界面，让消费级显卡也能高效微调Gemma 4、Qwen3、DeepSeek等主流大模型，训练速度提升2-5倍，显存降低50%-70%。

阅读全文 →

教程攻略

2026年5月8日·7 分钟

Unsloth教程：本地微调大模型速度提升数倍，显存节省60%

Unsloth是GitHub 63K星标的开源大模型微调工具，支持Gemma 4、Qwen3、DeepSeek等模型。通过底层内核优化实现训练加速数倍、显存大幅降低，消费级GPU即可完成微调，提供Web UI图形界面，适合个人开发者和企业私有化部署。

阅读全文 →

产品体验

2026年5月8日·8 分钟

Cube Studio：腾讯开源一站式AI平台，MLOps全流程深度解析

深度解析腾讯音乐开源的Cube Studio云原生AI平台，涵盖Notebook开发、Pipeline编排、分布式训练、大模型微调、推理部署及国产化适配等核心能力，助力企业快速构建MLOps全流程基础设施。

阅读全文 →

教程攻略

2026年5月8日·7 分钟

Unsloth教程：本地微调大模型省显存加速训练指南

详解Unsloth开源工具如何在本地高效微调大模型，支持Gemma 4、Qwen3、DeepSeek等主流模型，通过LoRA优化显著降低显存占用，提供Web UI界面降低训练门槛，适合个人开发者和中小团队使用。

阅读全文 →

产品体验

2026年5月8日·5 分钟

Unsloth：本地微调大模型的高效开源工具

Unsloth是GitHub上超63000星的开源项目，提供Web UI界面支持本地训练和微调Gemma 4、Qwen3、DeepSeek等主流大模型，大幅降低硬件门槛和技术难度，适合个人开发者和企业私有化部署。

阅读全文 →

GitHub 8000+ Star：awesome-LLM-resources最全大语言模型资源库解析

产品体验

2026年5月7日·7 分钟

GitHub 8000+ Star：awesome-LLM-resources最全大语言模型资源库解析

深度解析GitHub万星项目awesome-LLM-resources，涵盖LLM模型训练、多模态生成、AI Agent、MCP协议、辅助编程等十余个方向，为开发者提供最全面的大语言模型学习资源地图。

阅读全文 →

英国AISI评估报告：GPT-5.5网络安全能力与Claude Mythos相当

前沿研究

2026年5月7日·9 分钟

英国AISI评估报告：GPT-5.5网络安全能力与Claude Mythos相当

英国AI安全研究所(AISI)发布GPT-5.5网络安全能力评估报告，结果显示其漏洞发现能力与Claude Mythos相当，但关键区别在于GPT-5.5已向公众开放。本文解读评估核心发现及对AI安全治理的影响。

阅读全文 →

英国AI安全研究所评估GPT-5.5：网络安全能力比肩Claude Mythos

前沿研究

2026年5月7日·6 分钟

英国AI安全研究所评估GPT-5.5：网络安全能力比肩Claude Mythos

英国AI安全研究所(AISI)发布GPT-5.5网络安全能力评估报告，结果显示其漏洞发现能力与Claude Mythos相当，但GPT-5.5已面向公众开放。本文解读评估结果及其对AI安全行业的深远影响。

阅读全文 →

产品体验

2026年5月7日·3 分钟

GitHub万星项目：最全LLM学习资源库深度解析

阅读全文 →

产品体验

2026年5月7日·2 分钟

Unsloth：本地训练开源大模型的利器

阅读全文 →