HTML正在取代Markdown？AI输出格式之争深度解析

引言：Markdown的统治地位正在动摇

长期以来，Markdown一直是AI Agent与人类沟通的默认格式。它简洁、可移植、易于编辑，几乎成了开发者的第二语言。Markdown由John Gruber于2004年创建，最初设计目标是让人们能用易读易写的纯文本格式编写文档，然后可选地转换为HTML。它的语法借鉴了电子邮件中的纯文本标记惯例，如用星号表示强调、用井号表示标题。GitHub Flavored Markdown（GFM）的普及使其成为开发者生态的事实标准，几乎所有代码托管平台、文档系统和AI聊天界面都默认支持Markdown渲染。然而，Markdown的设计哲学本质上是"够用就好"——它从未打算成为一个完整的文档格式系统。

但随着AI能力的飞速提升，越来越多的声音开始质疑：Markdown是否已经成为了限制AI表达能力的瓶颈？

AI输出格式对比：HTML vs Markdown

近期，Anthropic Claude Code团队的Thorik发表了一篇引发热议的文章《The Unreasonable Effectiveness of HTML》，宣称自己已经几乎完全停止编写Markdown文件，转而让Claude生成HTML。紧接着，AI领域大佬Andrej Karpathy也公开表示"这确实效果很好"。知名开发者Theo（t3.gg）对此进行了深度解析和实测对比。

为什么HTML比Markdown更适合AI输出？

信息密度的碾压性优势

Thorik在文章中指出，一个自包含的HTML文件可以承载的信息类型远超Markdown。所谓自包含HTML文件（Self-contained HTML），是指将CSS样式、JavaScript脚本、SVG图形甚至Base64编码的图片全部内嵌在单个.html文件中的做法。这种方式不依赖外部资源，可以像分享PDF一样分享一个完整的交互式文档。技术上，它利用了<style>标签内嵌CSS、<script>标签内嵌JS、以及data URI scheme内嵌二进制资源的能力。这种模式在数据科学领域已有先例——Jupyter Notebook导出的HTML报告就是类似的自包含文档。

具体而言，HTML能承载的信息类型包括：

表格数据：原生HTML表格比Markdown表格灵活得多，支持合并单元格、嵌套表格、条件样式等
设计展示：通过CSS实现丰富的视觉呈现，包括渐变、阴影、动画等
图表插图：SVG内嵌矢量图形，可缩放且不失真
代码片段：带语法高亮的script标签
交互式工作流：JavaScript驱动的动态内容
空间布局：绝对定位和Canvas

相比之下，Markdown在面对复杂信息时往往力不从心。Theo举了一个典型例子：Claude在Markdown中用ASCII画图时经常出现对齐错误，边框偏移、行数不对等问题屡见不鲜。这是因为Markdown本质上是等宽字符的线性排列，任何需要二维空间表达的信息都会遇到根本性限制。

可视化清晰度与可读性

随着AI能力增强，它生成的规格文档和计划越来越长。Theo坦言："我发现自己实际上很少真正阅读超过100行的Markdown文件。"而HTML文档可以通过标签页、折叠面板、链接导航等方式组织内容，大幅提升阅读体验。

更关键的是分享便利性——Markdown文件在大多数浏览器中无法原生渲染（需要专门的渲染器如GitHub或VS Code预览），而HTML只需上传到S3就能通过链接分享给任何人，无需安装任何工具即可在浏览器中完美呈现。

交互能力是HTML的杀手锏

HTML最大的差异化优势在于交互性。你可以让Claude生成带有滑块、旋钮、可调参数的界面，实时调整设计方案或算法参数。更巧妙的是，可以在HTML中添加"复制为Prompt"按钮，将交互结果直接导回Claude继续迭代。这种人机协作的闭环在纯Markdown环境中完全无法实现——Markdown是静态的，而HTML天然支持事件驱动的动态交互。

AI生成HTML的实际应用场景

探索与规划阶段

Thorik展示了一个典型工作流：让Claude生成六种截然不同的设计方向，以网格布局呈现在单个HTML文件中，标注每种方案的取舍。Theo对此高度认可："让模型在一次生成中产出多个截然不同的选项，比逐个询问能获得更大的多样性。"这种方法利用了大语言模型在单次推理中保持内部一致性的特点——当模型被要求同时生成多个不同方案时，它会主动寻求差异化，而逐次询问则容易陷入相似的思维模式。

代码审查与PR说明

Thorik声称自己现在每个PR都会附带一个HTML代码解释器。Theo对此持保留态度——他认为VS Code中的Markdown已经能很好地做语法高亮，但承认diff渲染确实是Markdown的痛点。HTML可以用颜色编码标注严重程度、内联注释、流程图等，这些在Markdown中几乎不可能实现。传统的unified diff格式虽然在终端中可读，但面对跨文件重构、复杂的代码移动等场景时，纯文本diff的可读性急剧下降。

一次性工具的革命性思维

这是Theo最推崇的用法之一：让Claude生成一个专门为当前任务定制的一次性编辑器。不是产品，不是可复用工具，就是一个为这一块数据量身定做的HTML文件。

"代码现在很便宜了。写一堆代码只是为了玩弄数据、做出更好的决策，然后立刻扔掉——这绝对值得。我现在写的代码中，70%以上在运行一次后就被丢弃了。"

这种思维方式代表了软件开发范式的根本转变。传统上，编写代码的成本（人力时间）远高于运行代码的成本（计算资源），因此我们追求代码复用和抽象。但当AI将代码编写成本降低到接近零时，"一次性代码"变得完全合理——就像我们不会把草稿纸上的计算过程装订成册一样。

关键技巧是始终以导出功能结尾——一个"复制为JSON"或"复制为Prompt"的按钮，将UI中的操作结果转化为可以粘贴回Agent的格式。

职场实用技巧：自动化周报生成

Theo分享了一个有趣的职场hack：给Agent接入Jira API，让它每周自动生成一个精美的HTML页面展示团队完成的工作，在站会上展示。"管理层会为此疯狂，"他说，"这是一个用简单Prompt就能让你看起来很专业的方法。"

HTML替代Markdown的局限性与反对意见

Token效率问题

HTML确实比Markdown消耗更多token。在大语言模型中，token是文本处理的基本单位，通常一个英文单词对应1-2个token，中文一个字约1-2个token。以GPT-4o为例，输出token的价格约为输入token的3-4倍。一个典型的HTML文档由于包含标签名、属性、CSS属性名、JavaScript语法等结构性冗余，相比等效的Markdown内容可能多消耗2-5倍的token。

但Thorik认为，在Claude提供200K上下文窗口、GPT-4o提供128K窗口的今天，几千个额外token的成本确实变得微不足道——更大的瓶颈往往是输出速度而非费用。更重要的是，HTML的高可读性意味着你更可能真正阅读它，从而获得更好的整体输出质量。一份被认真阅读的HTML文档，其价值远超一份被忽略的Markdown文件。

版本控制的噩梦

Thorik自己也承认这是HTML最大的缺点——HTML的diff极其嘈杂，难以审查。相比之下，Markdown的纯文本特性天然适合Git版本控制。HTML中一个简单的样式调整可能导致数十行diff变化，而内容的实质性修改却淹没在结构性噪音中。这对于需要代码审查流程的团队协作来说是一个严重的实际障碍。

新鲜感偏差

Theo提出了一个尖锐的问题："HTML让人更愿意阅读，有多少是因为Markdown太臃肿而HTML更可读，又有多少是因为HTML足够新颖所以更容易吸引注意力？如果所有人都从大段Markdown切换到HTML链接轰炸，我们真的会读更多吗？"这个问题触及了认知心理学中的"新奇效应"（Novelty Effect）——新事物本身就能激发更多注意力和参与度，但这种效应会随时间衰减。

移动端适配挑战

Theo实测发现Thorik分享的示例在移动端表现不佳。虽然HTML理论上可以做响应式设计（通过媒体查询、弹性布局等CSS技术），但这会增加更多输出token，某种程度上违背了初衷。而且要求AI同时生成桌面端和移动端都表现良好的布局，会显著增加Prompt的复杂度和输出的不确定性。

Karpathy的远见：从文本到视觉的AI输出进化

Karpathy将这一趋势放在了更宏大的框架中思考。他认为人类与AI的信息交换正在经历一个进化过程：

纯文本 → 费力阅读
Markdown → 有结构，当前默认
HTML → 灵活图形和交互，正在形成新默认
未来 → 交互式视频和神经网络直接生成的模拟

"人类大脑约三分之一是大规模并行视觉处理器，这是信息进入大脑的十车道高速公路。音频是人类偏好的AI输入方式，但视觉——图像、动画、视频——才是AI偏好的输出方式。"

Karpathy这一论断有坚实的神经科学基础。人类视觉皮层占据大脑皮层面积约20-30%，视觉信息的带宽远超其他感官——视觉通道每秒可处理约10^7比特信息，而听觉仅约10^4比特，相差三个数量级。这解释了为什么数据可视化、信息图表和交互式界面比纯文本更容易被人类快速理解和记忆。认知负荷理论（Cognitive Load Theory）也支持这一观点：良好的视觉设计可以将信息的外在认知负荷降到最低，让工作记忆专注于内容本身，而非解码格式。

未来展望：MDX可能是下一站

Theo在视频结尾提出了一个有趣的观点：MDX（Markdown + JSX）可能是一个尚未被充分开发的中间地带。MDX是一种将Markdown与JSX（JavaScript XML，React的模板语法）结合的格式，由Compositor团队于2018年首次发布。它允许在Markdown文档中直接导入和使用React组件，例如在文档中嵌入交互式图表、可折叠代码块或实时编辑器。Next.js、Gatsby、Docusaurus等主流框架都原生支持MDX。

相比纯HTML，MDX的优势在于组件可复用性——你可以定义一套设计系统组件库，然后在所有文档中一致地使用它们，同时保持Markdown部分的可读性和Git友好性。它或许能在可读性、token效率和表达力之间找到更好的平衡。

Theo还计划开发一个专门的Claude技能（skill），定义HTML输出的结构、设计系统和目录规范，避免污染Git历史。这个方向值得持续关注。

结语

从Markdown到HTML的转变，本质上反映的是AI能力提升后对输出格式的新需求。当AI不再只是生成文本，而是能够创建完整的交互式文档时，我们需要重新思考人机协作的界面。

正如Theo所说："我们作为一个行业，在输出格式上还有大量工作要做。我们甚至还没接近弄清楚正确的界面应该是什么样子。"HTML只是起点，但它已经指明了方向——更视觉化、更交互化、更以人类认知为中心的AI输出。

核心要点

Anthropic Claude Code团队和Karpathy等业界大佬开始倡导用HTML替代Markdown作为AI输出格式，核心优势在于信息密度、可视化清晰度和交互能力
HTML的实际应用场景包括多方案对比探索、代码审查可视化、一次性定制工具生成、以及自动化报告生成
HTML输出的主要局限性包括token消耗更高、版本控制困难、移动端适配不佳，以及当前的新鲜感偏差可能夸大了其优势
Karpathy提出从纯文本→Markdown→HTML→交互式视频的进化路径，认为视觉是AI输出的最佳通道
MDX（Markdown+JSX）可能是兼顾简洁性和交互能力的下一代中间方案