xAI招聘中文训练师时薪45美元，OpenAI重建机器人团队

概述

2025年6月1日，AI领域多条重磅消息集中释放：OpenAI正式组建机器人团队、xAI面向中文母语者开放远程训练岗位、微软即将发布自研编程模型，以及一家美国公司因缺乏管控单月误花5亿美元云AI费用等。以下是各条消息的详细解读。

报道显示,这笔投资约合870亿美元,聚焦AI基础设施

XAI上线Grok Imagine Video 1.5 Preview,该预览版支持720P视频生成榜单,以超越Sedans 2.0升至第一

Copilot竞争力

OpenAI成立机器人团队，重新布局具身智能

OpenAI宣布正式成立 OpenAI Robotics 团队，并同步启动工程师招聘。该团队将围绕硬件与机器学习协同设计推进机器人研究，标志着OpenAI在具身智能（Embodied AI）方向的重新布局。

具身智能是指将AI系统嵌入物理实体（如机器人）中，使其能够感知、理解并与物理世界进行交互的技术方向。与纯粹的数字AI不同，具身智能需要解决感知-决策-执行的闭环问题，包括视觉理解、力觉反馈、运动规划等多维度挑战。这一领域长期以来面临的核心瓶颈在于：传统机器人控制依赖手工编写的规则和有限的感知能力，难以应对开放环境中的复杂任务。2023年以来，随着多模态大模型在视觉理解和推理能力上的突破，业界普遍认为将大模型作为机器人的"大脑"已具备可行性。具体而言，视觉语言模型（VLM）能够理解场景语义，大语言模型能够进行任务分解和推理规划，两者结合为机器人提供了前所未有的环境理解和决策能力。

有意思的是，OpenAI早期曾有机器人研究部门，后于2021年解散。当时解散的原因主要是硬件迭代成本高昂且模型能力尚不足以支撑复杂的物理交互任务——彼时的模型在空间推理、物理直觉和长序列规划方面存在明显短板。此次重建团队，显然是看到了大模型能力提升后在机器人控制领域的巨大潜力。结合近期业界对人形机器人的热潮——包括Figure（已获得微软、英伟达等投资，估值超26亿美元）、1X Technologies（获OpenAI基金投资）、特斯拉Optimus（计划2025年小批量生产）等公司的快速进展——OpenAI此举可能意在将其强大的多模态模型能力落地到物理世界，形成从感知到决策再到执行的完整技术闭环。值得注意的是，具身智能的商业化路径通常从工业场景（如仓储物流、制造装配）起步，逐步向家庭服务等开放场景拓展，这一进程的加速将深刻改变劳动力市场格局。

xAI招聘中文AI Tutor：Grok多语言训练岗位详解

xAI（马斯克旗下AI公司）发布远程岗位，招聘中文母语AI Tutor，用于训练Grok的多语言音频能力。岗位关键信息如下：

工作形式：远程，支持全职、兼职或合同制
时薪：35-45美元（约合人民币250-325元/小时）
核心职责：训练Grok的中文语音能力

AI Tutor岗位的本质是参与模型的人类反馈强化学习（RLHF）流程。RLHF是当前对齐大语言模型与人类偏好的核心技术路线，最早由OpenAI在InstructGPT论文中系统化提出，后成为ChatGPT成功的关键因素之一。在这一流程中，人类标注员对模型的输出进行评估、排序或直接提供高质量示范数据，帮助模型学习人类偏好。对于多语言音频能力训练，AI Tutor需要评估模型的中文语音识别准确度、语调自然度、方言适应性等维度，并提供修正指导。这类岗位要求标注员既具备目标语言的母语水平，又对AI系统的能力边界有清晰认知，因此时薪显著高于普通数据标注工作（后者通常时薪在5-15美元区间）。

这一招聘动作表明xAI正在积极拓展Grok的多语言生态，尤其是中文市场。中文作为全球使用人数最多的语言之一（母语使用者超过9亿），其语音处理面临声调辨识（四声变化直接影响语义）、同音字消歧（普通话中约有400个音节对应数千个汉字）、方言多样性（七大方言区之间互通性极低）等独特挑战，需要大量母语者参与训练数据的质量把控。此外，中文的语音合成还需处理儿化音、轻声、语气词等细微语言现象，这些都需要母语者的精细判断。对于国内具备AI领域知识的中文母语者而言，这是一个值得关注的远程工作机会。

微软Build大会将发布自研编程模型

微软计划在即将举行的Build开发者大会上发布自研编程模型，新模型将直接用于提升GitHub Copilot的竞争力。

GitHub Copilot是目前市场占有率最高的AI编程助手，月活跃用户已超过1500万，覆盖代码补全、聊天式编程辅助、代码审查等多个场景。自2021年以技术预览形式推出以来，Copilot已深度集成到VS Code、Visual Studio、JetBrains等主流IDE中，并推出了面向企业的Copilot Enterprise版本。其核心能力依赖底层语言模型对代码的理解和生成能力——模型需要理解代码上下文、项目结构、编程范式，并生成语法正确且逻辑合理的代码片段。目前GitHub Copilot主要依赖OpenAI的模型（包括GPT-4和专门微调的Codex系列），微软推出自研编程模型意味着其在AI编程工具领域寻求更大的自主权。

微软虽然是OpenAI的最大投资者（累计投资超过130亿美元），但在商业竞争中过度依赖单一模型供应商存在战略风险——包括成本控制（OpenAI API调用费用直接影响Copilot的利润率）、定制化需求响应速度（自研模型可针对代码场景做极致优化而无需等待供应商排期）和供应链安全（避免因合作关系变化导致核心产品受影响）等方面。自研编程模型使微软能够针对代码补全、调试、重构、测试生成等特定场景进行深度优化，例如通过在海量开源代码库上进行领域特化训练，使模型对编程语言语法、API用法、设计模式的理解更加精准，同时降低对OpenAI API的调用成本。这也反映出一个更广泛的行业趋势：大型科技公司越来越倾向于掌握核心模型能力，而非完全依赖第三方供应商——谷歌拥有Gemini、Meta开源了Llama系列、亚马逊投资Anthropic并自研Titan模型，均在走类似路线。AI编程助手赛道的竞争也日趋激烈，Cursor、Windsurf、Tabnine等新兴工具正在快速蚕食市场份额。

xAI视频生成模型登顶，苹果设备端AI升级在即

Grok Imagine Video 1.5 Preview超越Sora

xAI上线了Grok Imagine Video 1.5 Preview，该预览版支持720P视频生成，在相关榜单上已超越Sora 2.0升至第一位。

视频生成是当前生成式AI最具挑战性的前沿方向之一。与图像生成相比，视频生成的难度呈指数级增长，因为模型需要同时处理时间一致性（确保帧与帧之间的连贯性，避免物体突然消失或变形）、物理规律模拟（如重力作用下的抛物线运动、碰撞后的反弹、流体的自然流动）、运动连贯性（人物动作自然流畅，符合人体运动学规律）以及光影一致性（光源方向和阴影在时间轴上保持稳定）等复杂问题。当前主流的视频生成技术路线包括基于扩散模型（Diffusion Model）的逐帧去噪方法和基于Transformer的自回归生成方法，两者各有优劣。Sora在2024年初发布时以其对物理世界的模拟能力震惊业界，但此后Runway Gen-3、Kling（快手）、Pika、Minimax等多家公司快速跟进。视频生成模型的评估通常涵盖画面质量、运动流畅度、文本对齐度（生成内容与提示词的匹配程度）、时间一致性等多个维度，720P分辨率的支持意味着模型已具备一定的商业应用潜力，可用于广告创意、短视频制作、影视预览等场景。视频生成领域的竞争正在白热化。

苹果WWDC将展示本地AI模型

苹果下月WWDC或将展示设备端AI升级，据报道其本地模型技术源自与谷歌的合作（Gemini技术流转），复杂查询则转至谷歌云端处理。

这种"端云协同"的架构设计兼顾了隐私保护和计算能力，是移动端AI部署的主流技术方案。具体而言，设备本地运行轻量级模型（通常参数量在数十亿级别，经过量化压缩后可在移动芯片上高效运行）处理常规任务（如文本摘要、简单问答、图片理解、邮件分类等），仅将超出本地算力的复杂查询（如长文档分析、复杂推理、多步骤任务规划等）上传云端处理。这种设计的核心优势在于：本地处理可确保用户敏感数据不离开设备，满足苹果一贯强调的隐私保护承诺，同时本地推理的响应延迟极低（毫秒级），不受网络状况影响；云端处理则提供本地芯片（如A18 Pro/M4系列，其Neural Engine算力约为38 TOPS）算力无法支撑的复杂推理能力。苹果此前在WWDC 2024上推出的Apple Intelligence框架和Private Cloud Compute（PCC）技术已为这种架构奠定了安全基础——PCC确保即使数据上云也在专用Apple Silicon服务器的加密环境中处理，不被持久化存储，且代码经过独立安全审计，从而在功能与隐私之间取得平衡。与谷歌Gemini的合作则使苹果无需从零训练大模型，可快速获得强大的基础模型能力。

企业AI成本失控：单月误花5亿美元的警示

据Axios报道，一家未具名的美国公司单月误花5亿美元使用云端AI服务，原因竟是未给员工设置使用限制。这一案例引发了企业AI成本管控的广泛讨论。

企业AI成本失控的根源通常包括多个层面：缺乏API调用量上限设置、未建立部门级预算分配、员工无节制使用高成本模型（如GPT-4级别，单次调用成本可达低端模型的数十倍）处理低价值任务（如用最强模型回答简单格式转换问题）、以及自动化流程中的无限循环调用（如AI Agent在遇到错误时反复重试而无熔断机制）等。以具体数据为例，GPT-4o的API定价约为每百万输入token 2.5美元、每百万输出token 10美元，而Claude 3.5 Sonnet约为每百万输入token 3美元、每百万输出token 15美元；若企业部署了数百个自动化AI工作流，每个工作流每天处理数万次请求，且部分流程因异常陷入循环调用，费用确实可能在短时间内呈指数级增长。据McKinsey估计，2024年企业AI支出中有20%-40%属于低效或浪费性支出。

随着AI工具在企业中的普及，缺乏使用策略和预算管控可能导致天文数字的账单。成熟的企业AI治理框架应包含四个层面：使用策略（明确哪些业务场景适合使用AI、使用哪个级别的模型——简单任务用轻量模型，复杂任务才调用高端模型）、权限分级（不同岗位对应不同模型和调用额度，如普通员工每日限额100次调用，开发团队可申请更高额度）、实时监控（设置费用阈值告警，超出预算自动熔断，并建立异常调用检测机制识别循环调用等问题）、以及定期审计（分析使用效率和投入产出比，识别高成本低价值的使用模式并优化）。主流云服务商如AWS、Azure、GCP均已提供AI成本管理工具，包括预算告警、用量仪表盘和自动缩放策略。企业在拥抱AI的同时，必须将AI成本管理纳入IT治理和财务管控的核心议程，建立与传统IT资源管理同等严格的管控体系。

其他动态

软银集团计划在法国投资最高750亿欧元（约870亿美元），用于建设AI数据中心基础设施。这一投资规模反映出全球AI算力需求的爆发式增长——训练和运行大模型需要海量GPU集群（训练一个前沿大模型通常需要数万张H100/H200 GPU运行数月），而数据中心的建设周期通常需要2-3年（包括选址、电力接入、冷却系统设计、网络架构部署等），各国正在展开激烈的算力基础设施竞赛。法国作为欧洲AI发展的重要据点，拥有相对充裕的核电供应（AI数据中心是极度耗电的设施，单个大型数据中心功耗可达数百兆瓦），这可能是软银选择法国的重要考量因素之一。
Open Cloud发布2026.5.31 Beta 1版本，强化异常中断后的恢复能力，改善工具调用中断、画布绑定和多渠道投递等功能

小结

从今日消息可以看出几个明确趋势：一是AI巨头纷纷向机器人和具身智能方向延伸，试图将数字智能的能力边界拓展到物理世界——这被许多业内人士视为AI发展的"最后一公里"，也是AI真正创造物理世界价值的关键一步；二是多语言能力建设成为模型竞争的新战场，中文市场因其规模和复杂性成为各家必争之地；三是企业AI治理和成本管控已成为不可忽视的现实问题，技术部署的速度远超管理制度的建设速度。技术进步与管理规范需要同步演进，否则AI带来的价值可能被失控的成本和风险所吞噬。

xAI招聘中文训练师时薪45美元，OpenAI重建机器人团队

概述

OpenAI成立机器人团队，重新布局具身智能

xAI招聘中文AI Tutor：Grok多语言训练岗位详解

微软Build大会将发布自研编程模型

xAI视频生成模型登顶，苹果设备端AI升级在即

Grok Imagine Video 1.5 Preview超越Sora

苹果WWDC将展示本地AI模型

企业AI成本失控：单月误花5亿美元的警示

其他动态

小结

核心要点

相关推荐

Claude Code Skills详解：AI自动生成测试用例实战指南

独立开发者晒账单：花2366元做的小程序，零收入

Trae自定义模型与智能体配置完全指南