HTML正在取代Markdown?AI输出格式之争深度解析

业界开始倡导用HTML替代Markdown作为AI输出格式,以获得更强的可视化和交互能力
Anthropic团队和Karpathy等AI领域大佬开始推动用自包含HTML替代Markdown作为AI输出格式。HTML在信息密度、可视化清晰度和交互能力上远超Markdown,适用于多方案对比、代码审查、一次性工具生成等场景。但HTML也面临token消耗高、版本控制困难、移动端适配差等局限。MDX可能是兼顾两者优势的下一代方案。
引言:Markdown的统治地位正在动摇
长期以来,Markdown一直是AI Agent与人类沟通的默认格式。它简洁、可移植、易于编辑,几乎成了开发者的第二语言。Markdown由John Gruber于2004年创建,最初设计目标是让人们能用易读易写的纯文本格式编写文档,然后可选地转换为HTML。它的语法借鉴了电子邮件中的纯文本标记惯例,如用星号表示强调、用井号表示标题。GitHub Flavored Markdown(GFM)的普及使其成为开发者生态的事实标准,几乎所有代码托管平台、文档系统和AI聊天界面都默认支持Markdown渲染。然而,Markdown的设计哲学本质上是"够用就好"——它从未打算成为一个完整的文档格式系统。
但随着AI能力的飞速提升,越来越多的声音开始质疑:Markdown是否已经成为了限制AI表达能力的瓶颈?

近期,Anthropic Claude Code团队的Thorik发表了一篇引发热议的文章《The Unreasonable Effectiveness of HTML》,宣称自己已经几乎完全停止编写Markdown文件,转而让Claude生成HTML。紧接着,AI领域大佬Andrej Karpathy也公开表示"这确实效果很好"。知名开发者Theo(t3.gg)对此进行了深度解析和实测对比。
为什么HTML比Markdown更适合AI输出?
信息密度的碾压性优势
Thorik在文章中指出,一个自包含的HTML文件可以承载的信息类型远超Markdown。所谓自包含HTML文件(Self-contained HTML),是指将CSS样式、JavaScript脚本、SVG图形甚至Base64编码的图片全部内嵌在单个.html文件中的做法。这种方式不依赖外部资源,可以像分享PDF一样分享一个完整的交互式文档。技术上,它利用了<style>标签内嵌CSS、<script>标签内嵌JS、以及data URI scheme内嵌二进制资源的能力。这种模式在数据科学领域已有先例——Jupyter Notebook导出的HTML报告就是类似的自包含文档。
具体而言,HTML能承载的信息类型包括:
- 表格数据:原生HTML表格比Markdown表格灵活得多,支持合并单元格、嵌套表格、条件样式等
- 设计展示:通过CSS实现丰富的视觉呈现,包括渐变、阴影、动画等
- 图表插图:SVG内嵌矢量图形,可缩放且不失真
- 代码片段:带语法高亮的script标签
- 交互式工作流:JavaScript驱动的动态内容
- 空间布局:绝对定位和Canvas
相比之下,Markdown在面对复杂信息时往往力不从心。Theo举了一个典型例子:Claude在Markdown中用ASCII画图时经常出现对齐错误,边框偏移、行数不对等问题屡见不鲜。这是因为Markdown本质上是等宽字符的线性排列,任何需要二维空间表达的信息都会遇到根本性限制。
可视化清晰度与可读性
随着AI能力增强,它生成的规格文档和计划越来越长。Theo坦言:"我发现自己实际上很少真正阅读超过100行的Markdown文件。"而HTML文档可以通过标签页、折叠面板、链接导航等方式组织内容,大幅提升阅读体验。
更关键的是分享便利性——Markdown文件在大多数浏览器中无法原生渲染(需要专门的渲染器如GitHub或VS Code预览),而HTML只需上传到S3就能通过链接分享给任何人,无需安装任何工具即可在浏览器中完美呈现。
交互能力是HTML的杀手锏
HTML最大的差异化优势在于交互性。你可以让Claude生成带有滑块、旋钮、可调参数的界面,实时调整设计方案或算法参数。更巧妙的是,可以在HTML中添加"复制为Prompt"按钮,将交互结果直接导回Claude继续迭代。这种人机协作的闭环在纯Markdown环境中完全无法实现——Markdown是静态的,而HTML天然支持事件驱动的动态交互。
AI生成HTML的实际应用场景
探索与规划阶段
Thorik展示了一个典型工作流:让Claude生成六种截然不同的设计方向,以网格布局呈现在单个HTML文件中,标注每种方案的取舍。Theo对此高度认可:"让模型在一次生成中产出多个截然不同的选项,比逐个询问能获得更大的多样性。"这种方法利用了大语言模型在单次推理中保持内部一致性的特点——当模型被要求同时生成多个不同方案时,它会主动寻求差异化,而逐次询问则容易陷入相似的思维模式。
代码审查与PR说明
Thorik声称自己现在每个PR都会附带一个HTML代码解释器。Theo对此持保留态度——他认为VS Code中的Markdown已经能很好地做语法高亮,但承认diff渲染确实是Markdown的痛点。HTML可以用颜色编码标注严重程度、内联注释、流程图等,这些在Markdown中几乎不可能实现。传统的unified diff格式虽然在终端中可读,但面对跨文件重构、复杂的代码移动等场景时,纯文本diff的可读性急剧下降。
一次性工具的革命性思维
这是Theo最推崇的用法之一:让Claude生成一个专门为当前任务定制的一次性编辑器。不是产品,不是可复用工具,就是一个为这一块数据量身定做的HTML文件。
"代码现在很便宜了。写一堆代码只是为了玩弄数据、做出更好的决策,然后立刻扔掉——这绝对值得。我现在写的代码中,70%以上在运行一次后就被丢弃了。"
这种思维方式代表了软件开发范式的根本转变。传统上,编写代码的成本(人力时间)远高于运行代码的成本(计算资源),因此我们追求代码复用和抽象。但当AI将代码编写成本降低到接近零时,"一次性代码"变得完全合理——就像我们不会把草稿纸上的计算过程装订成册一样。
关键技巧是始终以导出功能结尾——一个"复制为JSON"或"复制为Prompt"的按钮,将UI中的操作结果转化为可以粘贴回Agent的格式。
职场实用技巧:自动化周报生成
Theo分享了一个有趣的职场hack:给Agent接入Jira API,让它每周自动生成一个精美的HTML页面展示团队完成的工作,在站会上展示。"管理层会为此疯狂,"他说,"这是一个用简单Prompt就能让你看起来很专业的方法。"
HTML替代Markdown的局限性与反对意见
Token效率问题
HTML确实比Markdown消耗更多token。在大语言模型中,token是文本处理的基本单位,通常一个英文单词对应1-2个token,中文一个字约1-2个token。以GPT-4o为例,输出token的价格约为输入token的3-4倍。一个典型的HTML文档由于包含标签名、属性、CSS属性名、JavaScript语法等结构性冗余,相比等效的Markdown内容可能多消耗2-5倍的token。
但Thorik认为,在Claude提供200K上下文窗口、GPT-4o提供128K窗口的今天,几千个额外token的成本确实变得微不足道——更大的瓶颈往往是输出速度而非费用。更重要的是,HTML的高可读性意味着你更可能真正阅读它,从而获得更好的整体输出质量。一份被认真阅读的HTML文档,其价值远超一份被忽略的Markdown文件。
版本控制的噩梦
Thorik自己也承认这是HTML最大的缺点——HTML的diff极其嘈杂,难以审查。相比之下,Markdown的纯文本特性天然适合Git版本控制。HTML中一个简单的样式调整可能导致数十行diff变化,而内容的实质性修改却淹没在结构性噪音中。这对于需要代码审查流程的团队协作来说是一个严重的实际障碍。
新鲜感偏差
Theo提出了一个尖锐的问题:"HTML让人更愿意阅读,有多少是因为Markdown太臃肿而HTML更可读,又有多少是因为HTML足够新颖所以更容易吸引注意力?如果所有人都从大段Markdown切换到HTML链接轰炸,我们真的会读更多吗?"这个问题触及了认知心理学中的"新奇效应"(Novelty Effect)——新事物本身就能激发更多注意力和参与度,但这种效应会随时间衰减。
移动端适配挑战
Theo实测发现Thorik分享的示例在移动端表现不佳。虽然HTML理论上可以做响应式设计(通过媒体查询、弹性布局等CSS技术),但这会增加更多输出token,某种程度上违背了初衷。而且要求AI同时生成桌面端和移动端都表现良好的布局,会显著增加Prompt的复杂度和输出的不确定性。
Karpathy的远见:从文本到视觉的AI输出进化
Karpathy将这一趋势放在了更宏大的框架中思考。他认为人类与AI的信息交换正在经历一个进化过程:
- 纯文本 → 费力阅读
- Markdown → 有结构,当前默认
- HTML → 灵活图形和交互,正在形成新默认
- 未来 → 交互式视频和神经网络直接生成的模拟
"人类大脑约三分之一是大规模并行视觉处理器,这是信息进入大脑的十车道高速公路。音频是人类偏好的AI输入方式,但视觉——图像、动画、视频——才是AI偏好的输出方式。"
Karpathy这一论断有坚实的神经科学基础。人类视觉皮层占据大脑皮层面积约20-30%,视觉信息的带宽远超其他感官——视觉通道每秒可处理约10^7比特信息,而听觉仅约10^4比特,相差三个数量级。这解释了为什么数据可视化、信息图表和交互式界面比纯文本更容易被人类快速理解和记忆。认知负荷理论(Cognitive Load Theory)也支持这一观点:良好的视觉设计可以将信息的外在认知负荷降到最低,让工作记忆专注于内容本身,而非解码格式。
未来展望:MDX可能是下一站
Theo在视频结尾提出了一个有趣的观点:MDX(Markdown + JSX)可能是一个尚未被充分开发的中间地带。MDX是一种将Markdown与JSX(JavaScript XML,React的模板语法)结合的格式,由Compositor团队于2018年首次发布。它允许在Markdown文档中直接导入和使用React组件,例如在文档中嵌入交互式图表、可折叠代码块或实时编辑器。Next.js、Gatsby、Docusaurus等主流框架都原生支持MDX。
相比纯HTML,MDX的优势在于组件可复用性——你可以定义一套设计系统组件库,然后在所有文档中一致地使用它们,同时保持Markdown部分的可读性和Git友好性。它或许能在可读性、token效率和表达力之间找到更好的平衡。
Theo还计划开发一个专门的Claude技能(skill),定义HTML输出的结构、设计系统和目录规范,避免污染Git历史。这个方向值得持续关注。
结语
从Markdown到HTML的转变,本质上反映的是AI能力提升后对输出格式的新需求。当AI不再只是生成文本,而是能够创建完整的交互式文档时,我们需要重新思考人机协作的界面。
正如Theo所说:"我们作为一个行业,在输出格式上还有大量工作要做。我们甚至还没接近弄清楚正确的界面应该是什么样子。"HTML只是起点,但它已经指明了方向——更视觉化、更交互化、更以人类认知为中心的AI输出。
核心要点
- Anthropic Claude Code团队和Karpathy等业界大佬开始倡导用HTML替代Markdown作为AI输出格式,核心优势在于信息密度、可视化清晰度和交互能力
- HTML的实际应用场景包括多方案对比探索、代码审查可视化、一次性定制工具生成、以及自动化报告生成
- HTML输出的主要局限性包括token消耗更高、版本控制困难、移动端适配不佳,以及当前的新鲜感偏差可能夸大了其优势
- Karpathy提出从纯文本→Markdown→HTML→交互式视频的进化路径,认为视觉是AI输出的最佳通道
- MDX(Markdown+JSX)可能是兼顾简洁性和交互能力的下一代中间方案
相关推荐
观点碰撞Windsurf CEO深度访谈:速度是唯一的护城河
Windsurf CEO Varun Mohan深度访谈,分享AI编程IDE的创业pivot经验、产品构建方法论、异步Agent挑战,以及与Cursor竞争的差异化策略。速度才是创业公司唯一的护城河。
观点碰撞被低估即自由:AI时代的逆向竞争哲学
探讨AI行业中"被低估即自由"的逆向竞争策略。从OpenAI、DeepSeek到Cursor,解析为何低调积蓄力量比站在风口浪尖更具战略优势,以及这一哲学对AI创业者和从业者的深刻启示。
观点碰撞新教工作伦理如何被劫持:从保护工人到压迫工人的演变
哲学家Elizabeth Anderson揭示新教工作伦理如何从保护工人的理想被扭曲为压迫工具。从清教徒的公平商业伦理到新自由主义的复活,深度解析工作伦理的历史演变及其对AI时代劳动关系的启示。