吴恩达×OpenAI提示词工程课精华：两大核心原则详解

课程背景与价值

吴恩达（Andrew Ng）联合OpenAI技术人员Iza Fulford推出的《ChatGPT Prompt Engineering for Developers》课程，是目前公认最系统的提示词工程入门教程之一。Iza Fulford曾构建了广受欢迎的ChatGPT检索插件，长期致力于教授开发者如何在产品中运用大语言模型（LLM）技术。

值得一提的是，Iza构建的ChatGPT检索插件（ChatGPT Retrieval Plugin）是OpenAI早期插件生态中的标志性项目。该插件允许ChatGPT实时检索外部知识库中的信息，突破了LLM训练数据截止日期的限制。其技术核心是将外部文档通过嵌入向量（Embedding）存储在向量数据库中，当用户提问时，系统先通过语义搜索找到最相关的文档片段，再将其作为上下文注入提示词中供模型参考。这一架构后来演变为业界广泛采用的RAG（Retrieval-Augmented Generation，检索增强生成）范式，成为企业级LLM应用的基础设施之一。

这门课程的核心定位非常明确：它不是教你记住"30个万能提示词"，而是面向开发者，讲解如何通过API调用LLM来快速构建软件应用。 吴恩达在课程开篇就指出，互联网上大量的提示词技巧文章聚焦于ChatGPT网页端的一次性任务，但LLM作为开发者工具的真正威力——通过API调用快速构建应用——仍然被严重低估。

这里需要理解API调用与网页端使用的本质差异。通过API调用LLM，开发者可以精确控制系统提示词（System Prompt）、温度参数（Temperature）、最大输出长度（Max Tokens）等关键参数，还能将LLM嵌入自动化工作流中，实现批量处理、链式调用和与其他系统的集成。网页端本质上是一个预设好参数的单轮/多轮对话界面，而API则将LLM变成了一个可编程的推理引擎，开发者可以围绕它构建任意复杂的应用逻辑。

课程介绍

吴恩达的AI Fund团队已经与众多初创公司合作，将这些技术应用于各种场景，亲眼见证了LLM API能让开发者以极快速度构建出什么样的产品。课程内容涵盖提示词最佳实践、常见用例（摘要、推理、转换、扩展）以及使用LLM构建聊天机器人等核心模块。

Base LLM与指令微调模型有什么区别

理解提示词工程的第一步，是搞清楚你在和什么样的模型对话。吴恩达将LLM分为两大类：

Base LLM：基于文本续写的基础模型

Base LLM的训练目标是预测下一个词。它在海量互联网文本上训练，学会了"什么词最可能跟在当前文本后面"。

从技术角度来说，这种训练范式被称为自回归语言建模（Autoregressive Language Modeling）。模型在训练时，会将一段文本的前N个词作为输入，尝试预测第N+1个词的概率分布，然后通过反向传播不断调整参数以提高预测准确率。这个看似简单的目标函数，在足够大的数据集和模型规模下，涌现出了令人惊叹的语言理解和生成能力。GPT系列模型的名称中，"G"代表Generative（生成式），"P"代表Pre-trained（预训练），"T"代表Transformer（变换器架构），完整描述了这一技术路线的三个核心要素。

举个例子：如果你输入"从前有一只独角兽"，它可能会续写出"住在一片魔法森林里，和所有独角兽朋友在一起"——这是合理的文本延续。但如果你问"法国的首都是什么？"，Base LLM很可能不会直接回答"巴黎"，而是续写出"法国最大的城市是什么？法国的人口是多少？"——因为互联网上确实存在大量这样的问答列表。

Base LLM的续写行为

Instruction Tuned LLM：能遵循指令的微调模型

这是当前LLM研究和实践的主流方向。指令微调模型经过专门训练来遵循指令。同样问"法国的首都是什么？"，它会直接回答"法国的首都是巴黎"。

其训练流程通常分三步：

基础预训练：在海量文本数据上训练Base LLM
指令微调：用"指令-优质回答"配对数据进一步训练
RLHF优化：通过人类反馈强化学习（Reinforcement Learning from Human Feedback），让模型更善于遵循指令

其中，RLHF是将Base LLM转变为实用助手的关键技术环节。其具体流程是：首先由人类标注员对模型的多个输出进行排序，标注哪个回答更好；然后用这些排序数据训练一个奖励模型（Reward Model），让它学会预测人类的偏好；最后使用PPO（Proximal Policy Optimization，近端策略优化）等强化学习算法，以奖励模型的评分为信号，进一步优化语言模型的输出策略。OpenAI的InstructGPT论文首次系统性地展示了这一流程的效果——经过RLHF训练的1.3B参数模型，在人类评估中甚至优于未经RLHF的175B参数模型，证明了对齐训练的巨大价值。

指令微调模型的优势

指令微调模型被训练为有帮助的（helpful）、诚实的（honest）、无害的（harmless），因此相比Base LLM，它输出有毒内容的概率大大降低。这三个原则通常被称为"HHH"对齐标准，最早由Anthropic公司在其研究论文中系统化提出。值得注意的是，这三个维度之间有时存在张力：例如，一个"有帮助的"模型可能会尽力回答所有问题，但这可能与"无害"原则冲突（如回答危险物品制造方法）；一个"诚实的"模型可能会指出用户观点中的错误，但这可能降低其"有帮助"的感知度。如何在这三个维度之间取得平衡，是当前AI对齐（AI Alignment）研究的核心挑战之一，也直接影响着提示词工程的实践——开发者需要理解模型的安全边界在哪里。

吴恩达明确建议：对于绝大多数实际应用，开发者应该使用指令微调模型。

提示词工程的核心思维模型

课程中最具启发性的一个类比是：把使用指令微调LLM想象成给一个聪明但不了解你具体任务的人下达指令。 你可以把对方想象成一个刚毕业的优秀大学生——聪明、有能力，但需要你把任务说清楚。

核心思维模型

原则一：指令要清晰具体

当LLM的输出不符合预期时，问题往往不在模型，而在于指令不够清晰。

以"请写一段关于Alan Turing的内容"为例，这个指令的问题在于模糊性太强：

聚焦方向不明：你想要的是他的科学成就、个人生活，还是他在历史中的角色？
语气风格不明：应该像专业记者的报道，还是像写给朋友的随意便签？
背景信息缺失：如果你能指定对方应该先阅读哪些参考材料，效果会更好

每一层信息的补充，都在帮助模型缩小"可能的回答空间"，从而更精准地命中你的需求。

原则二：给模型充足的思考时间

吴恩达在课程中强调的第二个核心原则是——给LLM时间去思考（Give the LLM time to think）。这个原则由Iza在后续课程中详细展开，其核心思想是：对于复杂任务，不要期望模型一步到位给出答案，而是引导它分步推理。

这与后来广为人知的"Chain of Thought"（CoT，思维链）技术一脉相承。思维链技术由Google Brain团队的Jason Wei等人在2022年的论文中正式提出。研究发现，当在提示词中加入"Let's think step by step"（让我们一步步思考）这样的引导语，或者提供包含中间推理步骤的示例时，LLM在数学推理、逻辑推理和常识推理等任务上的表现会显著提升。这背后的直觉是：复杂问题需要多步推理，而直接要求模型输出最终答案，相当于要求它在一次前向传播中完成所有计算；而引导它输出中间步骤，则让每一步的推理负担大大减轻。后续的研究进一步发展出了Tree of Thought（思维树）、Self-Consistency（自一致性）等更高级的推理策略，形成了一个日益丰富的LLM推理增强技术体系。

课程带来的实践启示

这门课程的价值不仅在于技术知识本身，更在于它建立了一套系统化的提示词工程思维框架：

从"记模板"到"理解原理"：不再依赖网上流传的固定提示词模板，而是理解LLM的工作机制，从原理层面优化提示词
从"网页聊天"到"API开发"：将LLM从聊天工具升级为开发者的核心生产力工具
从"一次性任务"到"系统化应用"：通过摘要、推理、转换、扩展等标准化用例，构建可复用的LLM应用模式

有意思的是，吴恩达特别提到互联网上一些流行的提示词技巧可能更适用于Base LLM，而非当前主流的指令微调模型。这意味着，如果你还在使用一些"老派"的提示词技巧（比如过度的角色扮演前缀），可能需要重新审视其在现代模型上的实际效果。

总结

吴恩达与OpenAI联合推出的这门提示词工程课程，为开发者提供了一个从入门到进阶的完整学习路径。其核心理念可以浓缩为两句话：把指令写清楚，给模型留时间。 看似简单，但真正在开发实践中贯彻这两个原则，需要对LLM的工作方式有深入理解。对于希望将AI能力融入产品开发的工程师来说，这门课程仍然是最值得投入时间的基础课程之一。

吴恩达×OpenAI提示词工程课精华：两大核心原则详解

课程背景与价值

Base LLM与指令微调模型有什么区别

Base LLM：基于文本续写的基础模型

Instruction Tuned LLM：能遵循指令的微调模型

提示词工程的核心思维模型

原则一：指令要清晰具体

原则二：给模型充足的思考时间

课程带来的实践启示

总结

核心要点

相关推荐

Claude Code安装教程与AI编程工具五大发展阶段全解析

企业级AI项目Rules文件：5条硬规矩+6个写法门道

旧手机组建云计算集群：谷歌联合UCSD探索可持续计算新路径