#语音转文字

共 34 篇相关文章

Hugging Face Transformers：16万星开源AI框架全面解析

深度解读

2026年5月17日·13 分钟

Hugging Face Transformers：16万星开源AI框架全面解析

全面解析GitHub 16万星的Hugging Face Transformers框架，从核心架构、多模态模型支持到大模型量化推理优化，帮助开发者快速掌握预训练模型的加载、微调与高效部署。

阅读全文 →

教程攻略

2026年5月15日·9 分钟

DIY蓝牙翻页器+语音遥控Vibe Coding：随时随地语音编程实战方案

用蓝牙翻页器和无线麦克风DIY语音编程遥控器，结合豆包语音输入、TMUX多窗口管理和Claude Code，实现脱离键盘的Vibe Coding工作流。详解硬件改造、按键映射、多Agent切换的完整技术架构。

阅读全文 →

教程攻略

2026年5月15日·12 分钟

Whisper本地部署教程：手把手搭建免费语音转文字工具

详细图文教程教你在本地部署OpenAI Whisper语音识别工具，涵盖Conda环境配置、PyTorch安装、模型选择到实际转录操作全流程，支持近百种语言，免费生成SRT字幕文件。

阅读全文 →

Step Audio 2.5深度评测：对比GPT Realtime 2，国产语音AI差距多大？

产品体验

2026年5月15日·9 分钟

Step Audio 2.5深度评测：对比GPT Realtime 2，国产语音AI差距多大？

实测阶跃星辰Step Audio 2.5与OpenAI GPT Realtime 2的语音对话能力，从推理能力、角色扮演、中文理解、API定价等维度全面对比，帮助开发者选择合适的实时语音AI方案。

阅读全文 →

Hugging Face Transformers：16万Star开源AI框架深度解析

深度解读

2026年5月13日·14 分钟

Hugging Face Transformers：16万Star开源AI框架深度解析

深度解析Hugging Face Transformers开源框架，涵盖核心架构、Pipeline API、Auto Classes机制、多模态模型支持及社区生态。了解这个16万Star项目如何成为AI开发事实标准，助你快速上手预训练模型的推理与训练。

阅读全文 →

教程攻略

2026年5月13日·9 分钟

GPT-Realtime-2站会自动化：语音驱动工单管理实战指南

探索如何用GPT-Realtime-2实现站会自动化，通过语音AI和Function Calling将口头汇报自动转化为Jira、Linear工单操作，涵盖技术架构、实现路径与核心挑战分析。

阅读全文 →

科技前沿

2026年5月13日·6 分钟

Android 17正式发布：九大新功能详解，AI与实用性如何兼得？

Google正式发布Android 17，带来AI语音输入、vibe-coded小组件、Emoji改版、屏幕时间管理等九大新功能。本文详细解析Android 17在AI能力与日常实用性之间的平衡策略，以及对开发者和用户的实际影响。

阅读全文 →

深度解读

2026年5月9日·7 分钟

WebRTC为何不适合AI语音？延迟优先设计的致命缺陷

深入分析WebRTC在AI语音交互场景中的设计缺陷：丢包优先策略导致用户prompt残缺、LLM响应质量下降。探讨MoQ等替代协议如何更好地平衡数据完整性与低延迟需求。

阅读全文 →

深度解读

2026年5月9日·5 分钟

视频转文字开源工具：字幕提取+Gemini AI听写双模式方案

介绍开源项目claude-skill-video-transcribe，支持YouTube、B站和本地视频转文字。采用优先提取字幕、无字幕时Gemini 2.5 Flash AI听写的双路策略，Python开发，高效实现视频内容转录。

阅读全文 →

产品体验

2026年5月8日·8 分钟

Speak2Prompt：语音转AI提示词开源工具，打破编程语言壁垒

Speak2Prompt是一款开源工具，可将越南语语音实时转换为结构化英文AI提示词，适用于Claude、Cursor等编程助手。本文解析其设计理念、技术架构及对中文开发者的启发。

阅读全文 →

Hugging Face Transformers：16万星AI模型框架深度解析与实战指南

教程攻略

2026年5月7日·13 分钟

Hugging Face Transformers：16万星AI模型框架深度解析与实战指南

深入解析Hugging Face Transformers开源框架的核心特性、技术架构与生态系统。涵盖多框架支持、50万+预训练模型调用、全模态任务覆盖及快速上手代码示例，助你高效构建AI应用。

阅读全文 →

Hugging Face Transformers：16万Star背后的技术架构与实战指南

产品体验

2026年5月7日·13 分钟

Hugging Face Transformers：16万Star背后的技术架构与实战指南

深入解析Hugging Face Transformers开源框架，涵盖核心架构、Pipeline API、模型微调、多模态支持等关键技术，帮助开发者快速掌握这个拥有16万GitHub Star的AI模型定义框架。

阅读全文 →

产品体验

2026年5月7日·15 分钟

OpenAI PHP Client：在PHP项目中快速接入GPT等AI能力

详解openai-php/client库的核心功能与使用场景。这个GitHub 5700+ Star的PHP客户端支持GPT-4对话、DALL·E图像生成、Whisper语音识别等OpenAI API，提供Laravel无缝集成、流式响应和类型安全，是PHP开发者接入AI的首选方案。

阅读全文 →

Hugging Face Transformers：16万Star开源框架深度解析

产品体验

2026年5月6日·17 分钟

Hugging Face Transformers：16万Star开源框架深度解析

深度解析Hugging Face Transformers开源框架，涵盖核心功能、API设计、模型生态及实战代码示例。了解这个16万Star项目如何降低AI使用门槛，推动大语言模型、计算机视觉和多模态AI的民主化发展。

阅读全文 →