吴恩达×OpenAI提示词工程课精华:两大核心原则详解

课程背景与价值
吴恩达(Andrew Ng)联合OpenAI技术人员Iza Fulford推出的《ChatGPT Prompt Engineering for Developers》课程,是目前公认最系统的提示词工程入门教程之一。Iza Fulford曾构建了广受欢迎的ChatGPT检索插件,长期致力于教授开发者如何在产品中运用大语言模型(LLM)技术。
值得一提的是,Iza构建的ChatGPT检索插件(ChatGPT Retrieval Plugin)是OpenAI早期插件生态中的标志性项目。该插件允许ChatGPT实时检索外部知识库中的信息,突破了LLM训练数据截止日期的限制。其技术核心是将外部文档通过嵌入向量(Embedding)存储在向量数据库中,当用户提问时,系统先通过语义搜索找到最相关的文档片段,再将其作为上下文注入提示词中供模型参考。这一架构后来演变为业界广泛采用的RAG(Retrieval-Augmented Generation,检索增强生成)范式,成为企业级LLM应用的基础设施之一。
这门课程的核心定位非常明确:它不是教你记住"30个万能提示词",而是面向开发者,讲解如何通过API调用LLM来快速构建软件应用。 吴恩达在课程开篇就指出,互联网上大量的提示词技巧文章聚焦于ChatGPT网页端的一次性任务,但LLM作为开发者工具的真正威力——通过API调用快速构建应用——仍然被严重低估。
这里需要理解API调用与网页端使用的本质差异。通过API调用LLM,开发者可以精确控制系统提示词(System Prompt)、温度参数(Temperature)、最大输出长度(Max Tokens)等关键参数,还能将LLM嵌入自动化工作流中,实现批量处理、链式调用和与其他系统的集成。网页端本质上是一个预设好参数的单轮/多轮对话界面,而API则将LLM变成了一个可编程的推理引擎,开发者可以围绕它构建任意复杂的应用逻辑。

吴恩达的AI Fund团队已经与众多初创公司合作,将这些技术应用于各种场景,亲眼见证了LLM API能让开发者以极快速度构建出什么样的产品。课程内容涵盖提示词最佳实践、常见用例(摘要、推理、转换、扩展)以及使用LLM构建聊天机器人等核心模块。
Base LLM与指令微调模型有什么区别
理解提示词工程的第一步,是搞清楚你在和什么样的模型对话。吴恩达将LLM分为两大类:
Base LLM:基于文本续写的基础模型
Base LLM的训练目标是预测下一个词。它在海量互联网文本上训练,学会了"什么词最可能跟在当前文本后面"。
从技术角度来说,这种训练范式被称为自回归语言建模(Autoregressive Language Modeling)。模型在训练时,会将一段文本的前N个词作为输入,尝试预测第N+1个词的概率分布,然后通过反向传播不断调整参数以提高预测准确率。这个看似简单的目标函数,在足够大的数据集和模型规模下,涌现出了令人惊叹的语言理解和生成能力。GPT系列模型的名称中,"G"代表Generative(生成式),"P"代表Pre-trained(预训练),"T"代表Transformer(变换器架构),完整描述了这一技术路线的三个核心要素。
举个例子:如果你输入"从前有一只独角兽",它可能会续写出"住在一片魔法森林里,和所有独角兽朋友在一起"——这是合理的文本延续。但如果你问"法国的首都是什么?",Base LLM很可能不会直接回答"巴黎",而是续写出"法国最大的城市是什么?法国的人口是多少?"——因为互联网上确实存在大量这样的问答列表。

Instruction Tuned LLM:能遵循指令的微调模型
这是当前LLM研究和实践的主流方向。指令微调模型经过专门训练来遵循指令。同样问"法国的首都是什么?",它会直接回答"法国的首都是巴黎"。
其训练流程通常分三步:
- 基础预训练:在海量文本数据上训练Base LLM
- 指令微调:用"指令-优质回答"配对数据进一步训练
- RLHF优化:通过人类反馈强化学习(Reinforcement Learning from Human Feedback),让模型更善于遵循指令
其中,RLHF是将Base LLM转变为实用助手的关键技术环节。其具体流程是:首先由人类标注员对模型的多个输出进行排序,标注哪个回答更好;然后用这些排序数据训练一个奖励模型(Reward Model),让它学会预测人类的偏好;最后使用PPO(Proximal Policy Optimization,近端策略优化)等强化学习算法,以奖励模型的评分为信号,进一步优化语言模型的输出策略。OpenAI的InstructGPT论文首次系统性地展示了这一流程的效果——经过RLHF训练的1.3B参数模型,在人类评估中甚至优于未经RLHF的175B参数模型,证明了对齐训练的巨大价值。

指令微调模型被训练为有帮助的(helpful)、诚实的(honest)、无害的(harmless),因此相比Base LLM,它输出有毒内容的概率大大降低。这三个原则通常被称为"HHH"对齐标准,最早由Anthropic公司在其研究论文中系统化提出。值得注意的是,这三个维度之间有时存在张力:例如,一个"有帮助的"模型可能会尽力回答所有问题,但这可能与"无害"原则冲突(如回答危险物品制造方法);一个"诚实的"模型可能会指出用户观点中的错误,但这可能降低其"有帮助"的感知度。如何在这三个维度之间取得平衡,是当前AI对齐(AI Alignment)研究的核心挑战之一,也直接影响着提示词工程的实践——开发者需要理解模型的安全边界在哪里。
吴恩达明确建议:对于绝大多数实际应用,开发者应该使用指令微调模型。
提示词工程的核心思维模型
课程中最具启发性的一个类比是:把使用指令微调LLM想象成给一个聪明但不了解你具体任务的人下达指令。 你可以把对方想象成一个刚毕业的优秀大学生——聪明、有能力,但需要你把任务说清楚。

原则一:指令要清晰具体
当LLM的输出不符合预期时,问题往往不在模型,而在于指令不够清晰。
以"请写一段关于Alan Turing的内容"为例,这个指令的问题在于模糊性太强:
- 聚焦方向不明:你想要的是他的科学成就、个人生活,还是他在历史中的角色?
- 语气风格不明:应该像专业记者的报道,还是像写给朋友的随意便签?
- 背景信息缺失:如果你能指定对方应该先阅读哪些参考材料,效果会更好
每一层信息的补充,都在帮助模型缩小"可能的回答空间",从而更精准地命中你的需求。
原则二:给模型充足的思考时间
吴恩达在课程中强调的第二个核心原则是——给LLM时间去思考(Give the LLM time to think)。这个原则由Iza在后续课程中详细展开,其核心思想是:对于复杂任务,不要期望模型一步到位给出答案,而是引导它分步推理。
这与后来广为人知的"Chain of Thought"(CoT,思维链)技术一脉相承。思维链技术由Google Brain团队的Jason Wei等人在2022年的论文中正式提出。研究发现,当在提示词中加入"Let's think step by step"(让我们一步步思考)这样的引导语,或者提供包含中间推理步骤的示例时,LLM在数学推理、逻辑推理和常识推理等任务上的表现会显著提升。这背后的直觉是:复杂问题需要多步推理,而直接要求模型输出最终答案,相当于要求它在一次前向传播中完成所有计算;而引导它输出中间步骤,则让每一步的推理负担大大减轻。后续的研究进一步发展出了Tree of Thought(思维树)、Self-Consistency(自一致性)等更高级的推理策略,形成了一个日益丰富的LLM推理增强技术体系。
课程带来的实践启示
这门课程的价值不仅在于技术知识本身,更在于它建立了一套系统化的提示词工程思维框架:
- 从"记模板"到"理解原理":不再依赖网上流传的固定提示词模板,而是理解LLM的工作机制,从原理层面优化提示词
- 从"网页聊天"到"API开发":将LLM从聊天工具升级为开发者的核心生产力工具
- 从"一次性任务"到"系统化应用":通过摘要、推理、转换、扩展等标准化用例,构建可复用的LLM应用模式
有意思的是,吴恩达特别提到互联网上一些流行的提示词技巧可能更适用于Base LLM,而非当前主流的指令微调模型。这意味着,如果你还在使用一些"老派"的提示词技巧(比如过度的角色扮演前缀),可能需要重新审视其在现代模型上的实际效果。
总结
吴恩达与OpenAI联合推出的这门提示词工程课程,为开发者提供了一个从入门到进阶的完整学习路径。其核心理念可以浓缩为两句话:把指令写清楚,给模型留时间。 看似简单,但真正在开发实践中贯彻这两个原则,需要对LLM的工作方式有深入理解。对于希望将AI能力融入产品开发的工程师来说,这门课程仍然是最值得投入时间的基础课程之一。
核心要点
相关推荐

Claude Code安装教程与AI编程工具五大发展阶段全解析
详解Claude Code安装配置全流程,梳理AI编程工具从手动编码到智能体的五个发展阶段,分析0到1项目构建优势与1到100迭代挑战,帮助开发者快速上手AI编程。

企业级AI项目Rules文件:5条硬规矩+6个写法门道
AI编程项目总被AI乱改代码?本文分享企业级Rules文件的5条硬规矩和6个写法门道,涵盖Claude Code、Cursor等工具的规则文档写法,附三类项目Rules模板,让AI按你的规矩稳定交付。

旧手机组建云计算集群:谷歌联合UCSD探索可持续计算新路径
谷歌与UCSD合作探索将旧手机组建为云计算集群,利用手机的ARM芯片高能效比优势,减少电子废弃物和数据中心碳足迹。本文分析手机集群的技术可行性、环境效益及在边缘计算、联邦学习等场景的应用前景。