用 ElevenLabs 做双人对话 AI 播客 — 完整工作流(2026)
从脚本到 MP3 的完整 ElevenLabs 双主播 AI 播客工作流。涵盖声音搭配、对白标记、多人语音生成、后期处理和成本估算。
上面是文章摘要,下面进入正文深读。可以配合目录逐段阅读,不会丢掉上下文。
用 ElevenLabs 做双人对话 AI 播客:完整工作流(2026)
如果你曾经把一份脚本贴进 ElevenLabs,期待得到一档双主播播客,大概率会撞上同一堵墙:UI 默认是单人朗读,对白标记的写法散落在各处博客里,而真正让"AI 声音不像 AI"的后期小技巧,几乎没人写完整。
下面这套流程,是我会直接交给团队新成员的"上手指南"。跑完一遍,你就能产出一集 10-20 分钟、两位主播对话的播客 —— 而且是"能听下去",不只是"技术上能播放"。
你最终会拿到的:
- 一条可复用的"脚本 → MP3"流水线(UI 路径 + 代码路径都给)
- 5 条真正重要的"配音搭配"原则
- 一段可直接 fork 的 Python 脚本
- 真实的成本数字,让你判断要不要订阅
耗时: 第二次操作起,10 分钟节目大约 30-45 分钟。 门槛: 会复制粘贴 Python 或者 愿意在网页 UI 里点几下。
1. 准备脚本
干净的脚本能省掉 80% 的后期工作量。有两种格式,选一种贯穿全篇即可。
格式 A:简单的说话人标签(新手推荐)
Host A: 欢迎回到《AI 解码》。今天我们要聊
最近被问爆的那件事。
Host B: 我猜是 —— 新 Qwen 模型的定价?
Host A: 没错。我们先从上周到底改了什么说起。
这种格式既容易程序化解析,也方便在 ElevenLabs UI 里逐段分配声音。
格式 B:行内标记(追求细节)
ElevenLabs 支持一小组行内标签,用来控制重音、停顿和情绪。下面几个是当下稳定可用的,尤其在 v3 模型上表现自然:
<break time="0.5s" />— 显式停顿- 方括号情绪提示如
[laughs]、[sigh]、[clears throat](v3 比 v2 解读得更自然)
完整标签清单去 官方提示词指南 查,他们每出一个新模型就会扩充一次。
真正影响听感的几条脚本规则
| 规则 | 为什么重要 |
|---|---|
| 每分钟 130–160 字(英文 words/分钟,中文按 200-250 字/分钟 换算) | 自然对话节奏,再快就像新闻联播 |
每 2-3 分钟加一次 [laughs]、[sigh] 或语气词("嗯"、"对吧?") |
拟人化最有效的一招 |
每位说话人结尾给个"交接词"(对吧?、没错、所以...) |
让下一位声音有自然的切入点 |
| 超过 90 秒的独白要切断 | 否则听感会塌回单人 TTS |
| 自己先大声朗读一遍 | 如果连你都读不顺,模型读出来一定别扭 |
2. 选两个反差鲜明的声音
新手最常踩的坑:挑了两个听起来差不多的声音。听众分不清谁在说话,"双主播"的幻觉立刻崩塌。
挑声音时按这张反差清单过一遍:
- 音色性别反差(男/女最容易,男/男也行,但其他维度反差必须强)
- 节奏反差 —— 一快一慢
- 音域反差 —— 一低一高
- "温度"反差 —— 温暖/聊天感 vs 分析/利落感
5 对实测好用的搭配
下面这组声音都是 ElevenLabs 长期默认声音库里的,稳定多年,但还是建议你录制前先试听 30 秒。
| 搭配名 | Host A | Host B | 适合 |
|---|---|---|---|
| 分析师 × 好奇副主持 | Adam | Rachel | 科技、AI、财经类 |
| 故事讲述者 × 提问者 | Antoni | Bella | 叙事、专题类 |
| 沉稳讲解 × 即时反应 | Drew | Domi | 教程、How-To 类 |
| 英音 × 美音 | Daniel | Sarah | 全球化/泛听众 |
| 自定义克隆 × 库内声音 | 你自己的克隆 | 任意反差声音 | 品牌化节目 |
在 ElevenLabs Voice Library 里逐个试听 30 秒再下决定。如果你用 v3,可以试 Studio 里的 Auto-assign voices(Alpha)功能 —— 它会自动从脚本里识别角色并推荐匹配声音。
3. 生成音频 —— 三种方法
方法 A:Studio(无需写代码)
Studio 是 ElevenLabs 的长文多说话人编辑器,在后台左侧导航第 3 项(Home 和 Voices 下面)。
- 从左侧导航打开 Studio。
- 新建一个 project,粘贴你的标签化脚本。
- 两种方式分配声音:逐段手动指定,或开启 Auto-assign voices(Alpha)让它自动识别说话人并推荐声音。
- 点 Generate。Studio 自动渲染并拼接片段。
- 导出 MP3 或 WAV。
优点: 不用写代码;单句重新生成只需一次点击;非工程师友好。 缺点: 大项目渲染要等几分钟。注意每个订阅档对并发 Studio Projects 数量有上限(Free 3 / Starter 20 / Creator 1000),撞限就归档或删旧的。Studio 和 API 共享同一个月度信用池,付费版未用信用最多滚动 2 个月。
方法 B:Python 脚本调 API
这是我做到第二集之后的首选 —— 可扩展、可版本控制、可单段重渲染。
# pip install elevenlabs pydub
import os
from elevenlabs.client import ElevenLabs
from pydub import AudioSegment
# 自动读取环境变量 ELEVENLABS_API_KEY
client = ElevenLabs()
VOICES = {
"Host A": "VOICE_ID_FROM_LIBRARY",
"Host B": "VOICE_ID_FROM_LIBRARY",
}
# 把 "Speaker: line" 脚本解析成 [(speaker, text), ...]
turns = []
with open("script.txt") as f:
for line in f:
if ":" in line:
speaker, text = line.split(":", 1)
speaker, text = speaker.strip(), text.strip()
if speaker in VOICES and text:
turns.append((speaker, text))
# 逐段生成
os.makedirs("out", exist_ok=True)
clips = []
for i, (speaker, text) in enumerate(turns):
audio = client.text_to_speech.convert(
text=text,
voice_id=VOICES[speaker],
model_id="eleven_v3", # 2026 年 2 月 GA 的旗舰模型
output_format="mp3_44100_128",
)
path = f"out/{i:03d}_{speaker.replace(' ', '_')}.mp3"
with open(path, "wb") as out:
for chunk in audio:
out.write(chunk)
clips.append(AudioSegment.from_mp3(path))
# 段间插入短暂停顿
gap = AudioSegment.silent(duration=300) # 300ms 听感最自然
final = clips[0]
for clip in clips[1:]:
final = final + gap + clip
final.export("podcast.mp3", format="mp3", bitrate="128k")
print(f"✅ Done. {len(turns)} turns rendered into podcast.mp3")
eleven_v3 是 2026 年 2 月 GA 的旗舰。如果你的场景需要低延迟(实时/语音 agent),把 model_id 换成 eleven_flash_v2_5 或 eleven_turbo_v2_5。
优点: 完全可控、可批处理、Git 可 diff、单段重渲染方便。 缺点: SDK 偶尔有 breaking change;需要 Python 环境。
方法 C:第三方编排工具
不想写代码、也不想逐段点的话:
- Google NotebookLM —— 底层不是 ElevenLabs,但任意文档丢进去能直接生成两人对话播客,质量惊人。
- Wondercraft、Podcastle、Resemble AI —— 包了 ElevenLabs(或竞品)+ 内置对白 UI。
不写代码 且 不想逐句操作时用这类。质量好,但定制空间小。
4. 后期处理(让它"听不出是 AI")
哪怕声音再好,跳过这一步,听众 30 秒内就能听出 TTS 痕迹。
- 响度归一化 → 目标 -16 LUFS(播客标准)。Audacity:
效果 → 归一化 → 响度归一化。 - 剪掉死气沉沉的停顿 → 自动剪掉 > 1.2 秒的静音。Descript 一键搞定;Audacity 用
效果 → 截短静音。 - 加轻量背景音乐 → 8-12 秒片头,之后压到人声下方 -25 dB。免费来源:YouTube Audio Library、Pixabay Music。
- 柔和压缩 → 比例 2:1,阈值约 -18 dB。把两种不同声音粘合成一档"节目质感"。
- 轻 EQ → 切掉 80 Hz 以下,去掉模型生成时带入的低频底噪。
5 步只能做 1 步,优先做第 1 步(响度归一化)。响度忽高忽低是听众在第 1 分钟流失最大的原因。
5. 实际成本到底是多少
ElevenLabs 按信用(credits) 计费,Studio 和 API 共享同一个月度池子。信用-字符比因模型而异 —— 高质量的 eleven_v3 每字符消耗的信用比 eleven_turbo_v2_5 多。报价前去 定价页 查当前倍数。
基础换算(v2 系列按 1 字符 = 1 信用估算;v3 按你模型的实际比例乘):
- 1 分钟自然语速 ≈ 900–1,000 字符 源文本
- 一集 20 分钟 ≈ 约 19,000 字符
当前订阅档(取自 ElevenLabs 官方定价页,2026 年 5 月):
| 档位 | 月费 | 月信用 | Studio Projects 上限 | 适合 |
|---|---|---|---|---|
| Free | $0 | 10,000 | 3 | 试用(≈ v2 10 分钟音频) |
| Starter | $6 | 30,000 | 20 | 业余创作者;含商用授权、即时声音克隆、Dubbing studio |
| Creator | $22(首月 $11) | 121,000 | 1,000 | 每周一期 20 分钟节目的甜区;专业声音克隆、192 kbps、超量按需付费 |
| Pro | $99 | 600,000 | 3,000 | 日更或多档节目;API 支持 44.1 kHz PCM |
| Scale | $299 | 1.8 M | 9,000 | 小团队(3 个 workspace 席位)、协作 |
| Business | $990 | 6 M | — | 较大团队(10 席),含低延迟 TTS 选项 |
| Enterprise | 定制 | 定制 | — | 定制条款、优先支持 |
实操结论: 每周一期 20 分钟、用 v3 生成 → Creator 档非常宽裕。别在 Free 档硬扛,超量费用是惩罚性的,光是 Starter 的商用授权就回本了。
付费档的信用最多滚动 2 个月,偶尔一周量大不会立刻被迫升档。
6. 什么时候 ElevenLabs 不是最优解
ElevenLabs 目前在英文和主流欧洲语言的"有情感 TTS"上是最强。但也不是万能:
- 中文为主的节目 → 讯飞或 MiniMax 对普通话韵律处理得更好。深度对比看:/zh-CN/vs/elevenlabs-vs-xunfei-tts
- 预算紧、希望自托管 → Coqui XTTS 能在 $0/字符 拿到 80% 的质量,前提是你能跑 GPU
- 重度声音克隆需求 → Resemble AI 的少样本克隆控制更强
- 跟 OpenAI Voice API 对比 → 详见 /vs/elevenlabs-openai-tts
6 步流程速记
- 用
Host A: ... / Host B: ...格式写脚本 - 挑两个至少在两个维度上反差强烈的声音
- 用 Studio(UI)或上面的 Python 脚本生成
- 跑后期:响度归一化、剪静音、垫音乐、柔和压缩
- 预算锁定 Creator 档($22/月,121K 信用) —— 每周 20 分钟节目用 v3 完全够
- 中文场景或要自托管时,参考备选方案
过去 18 个月,双人 AI 播客已经越过了"听众不会留意"的临界点。剩下的工作早就不在模型里了 —— 而是在脚本结构、声音搭配,和那 15 分钟大多数人会跳过的后期处理上。
XScanHub 相关阅读:
快速跳到对应段落
下一步
读完后可以继续回到工具目录,对比具体产品。
去看工具