Coze书单号工作流搭建教程：输入书名一键生成短视频

概述

书单号是当前抖音、小红书等短视频平台上非常热门的内容形式——通过推荐书籍配合精美画面和配音，既能输出有价值的内容，又能通过挂载购书链接实现变现。书单号的核心变现逻辑是「内容种草+购书链接」：在抖音平台，创作者可在视频中挂载抖音小店或第三方书店商品链接，按实际成交金额获得5%-20%的佣金；小红书则以图文笔记为主，通过品牌合作和带货实现收益。书单号账号通常需要每天更新1-3条视频才能维持算法推荐，这也是AI自动化工作流在此场景价值极高的根本原因。

但传统做法需要手动选书、摘录金句、录制配音、设计配图、剪辑成片，流程繁琐且耗时。本文将手把手教你在Coze（扣子）平台上搭建一个完整的书单号AI工作流——只需输入书名和作者，系统就能自动生成包含配音、背景图、字幕和音效的完整视频素材。

整个工作流实际包含约88个节点，但通过封装技术，你只需手动搭建18个节点即可完成全部配置。

Coze书单号工作流整体架构

关于Coze平台

Coze是字节跳动于2024年推出的AI应用开发平台，分为国内版（coze.cn）和国际版（coze.com）。它的核心定位是「无代码/低代码AI工作流搭建平台」，允许普通用户通过可视化拖拽方式将大语言模型、插件、知识库等能力组合成自动化流程。Coze的工作流功能类似于Zapier或Make（原Integromat）的自动化逻辑，但深度集成了AI能力，特别适合内容生产、数据处理等场景。平台提供免费版和个人进阶版，其中进阶版支持工作流导入/导出等高级功能——这在后续封装节点的使用环节至关重要。

核心流程

工作流的整体逻辑分为六个阶段：

输入阶段：书名、作者、封面图、账号昵称、图像API密钥
内容提取：通过大模型提取书籍经典语录
配音生成：开头配音 + 正文批量配音
背景图生成：根据文案生成分镜提示词，再批量生成配图
翻译处理：将中文文案翻译为英文（用于画面装饰）
素材打包：整合所有音频、视频、图片素材，输出最终成品

工作流节点概览

详细搭建步骤

第一步：创建工作流与配置开始节点

在浏览器地址栏输入 coze.cn，进入后在左侧找到「Coze编程」，点击资源库右上角添加工作流。

开始节点需要配置5个输入变量：

书名（String类型，必填）
作者（String类型）
封面（File/Image类型，注意不是String）
平台昵称（String类型，可设默认值）
图像API密钥（String类型，用于调用图片生成服务）

特别注意：封面变量一定要设置为Image类型，否则无法上传图片，只能填写链接。将图像API密钥作为运行时参数传入（而非硬编码在工作流中），既方便多人共用工作流模板，也能有效避免密钥泄露风险。

第二步：用大模型提取书籍经典内容

添加大模型节点，选择豆包2.0 Mini模型。豆包2.0 Mini是字节跳动豆包大模型系列的轻量化版本，在Coze平台上调用成本较低、响应速度较快，适合对输出质量要求适中但需要高频调用的场景。关键配置如下：

设置：将最大回复长度拉长，避免输出超时。「最大回复长度」参数直接影响模型能输出的token上限——若该值设置过低，模型会在输出中途被截断，导致JSON格式损坏或书摘内容不完整。
输入：引入开始节点的书名和作者
系统提示词：设定角色为书籍内容提取专家，要求结构化输出
用户提示词：必须引用输入变量（使用Shift+大括号快捷引入）
输出：配置「文案」（数组格式）和「开头」（String格式）两个输出字段

输入模式切换

第三步：生成配音音频

开头配音：使用「语音合成」插件，输入为大模型输出的开头文案，选择有声阅读类音色。

正文批量配音：使用批处理节点（一次处理最多10个，建议调低避免报错）。

批处理节点的工作原理类似编程中的「并行for循环」——将一个数组拆分为多个独立任务，同时并发执行，最后将结果重新合并为数组输出。这与传统串行处理相比效率大幅提升，但也带来一个关键陷阱：批处理体内部的每个子任务是相互隔离的独立上下文，必须引用批处理体内当前迭代项的输出，而非外部节点的输出。

批处理体内包含：

文本处理（字符串拼接）：在每句文案末尾加逗号，确保配音有自然停顿
语音合成：对加工后的文案进行配音

重要提醒：批处理体内引用数据时，一定要选择「批处理体输出的内容」，而非外部节点的输出。虽然内容看起来相同，但选错会导致所有子任务读取同一个固定值，生成结果全部一样。

第四步：批量生成分镜背景图

分两步完成：

生成提示词（大模型节点）：根据文案数组生成7个贴近日常读书场景的配图描述，输出为数组格式
批量生图（批处理+图片生成插件）：使用即梦API根据提示词生成图片，支持自定义尺寸（推荐4:3或9:16）

**即梦（Jimeng）**是字节跳动推出的AI图像和视频生成平台，其图片生成能力基于扩散模型（Diffusion Model）技术，支持通过文本提示词（Prompt）生成高质量图像。图片尺寸比例的选择直接影响最终视频在不同平台的展示效果：抖音全屏竖屏格式为9:16，小红书图文封面常用4:3或1:1。

模型设置

第五步：文案翻译处理

去除第一句话：通过代码节点去除文案数组的第一项（因为开头语已单独处理）。代码逻辑简单，输入数组输出去除首项后的新数组。

开头和书名翻译：大模型节点，关闭深度思考以提升速度。「深度思考」模式（类似OpenAI的o1系列推理模型）会让模型在回答前进行链式推理，虽然能提升复杂问题的准确性，但会显著增加响应时间——对翻译这类相对简单的任务而言得不偿失，关闭后可