文章/用 ElevenLabs 做双人对话 AI 播客 — 完整工作流（2026）

工作流/最佳实践

用 ElevenLabs 做双人对话 AI 播客 — 完整工作流（2026）

从脚本到 MP3 的完整 ElevenLabs 双主播 AI 播客工作流。涵盖声音搭配、对白标记、多人语音生成、后期处理和成本估算。

2026年5月16日阅读时间: 9 分钟0 个主题标签

阅读过渡

上面是文章摘要，下面进入正文深读。可以配合目录逐段阅读，不会丢掉上下文。

工作流/最佳实践14 个章节

当前阅读位置第 1 / 14 节

1. 准备脚本格式 A:简单的说话人标签(新手推荐)格式 B:行内标记(追求细节)真正影响听感的几条脚本规则 2. 选两个反差鲜明的声音 3. 生成音频 —— 三种方法 4. 后期处理(让它"听不出是 AI")5. 实际成本到底是多少 6. 什么时候 ElevenLabs 不是最优解 6 步流程速记

用 ElevenLabs 做双人对话 AI 播客：完整工作流（2026）

如果你曾经把一份脚本贴进 ElevenLabs,期待得到一档双主播播客,大概率会撞上同一堵墙:UI 默认是单人朗读,对白标记的写法散落在各处博客里,而真正让"AI 声音不像 AI"的后期小技巧,几乎没人写完整。

下面这套流程,是我会直接交给团队新成员的"上手指南"。跑完一遍,你就能产出一集 10-20 分钟、两位主播对话的播客 —— 而且是"能听下去",不只是"技术上能播放"。

你最终会拿到的:

一条可复用的"脚本 → MP3"流水线(UI 路径 + 代码路径都给)
5 条真正重要的"配音搭配"原则
一段可直接 fork 的 Python 脚本
真实的成本数字,让你判断要不要订阅

耗时: 第二次操作起,10 分钟节目大约 30-45 分钟。 门槛: 会复制粘贴 Python 或者愿意在网页 UI 里点几下。

1. 准备脚本

干净的脚本能省掉 80% 的后期工作量。有两种格式,选一种贯穿全篇即可。

格式 A:简单的说话人标签(新手推荐)

Host A: 欢迎回到《AI 解码》。今天我们要聊
        最近被问爆的那件事。
Host B: 我猜是 —— 新 Qwen 模型的定价?
Host A: 没错。我们先从上周到底改了什么说起。

这种格式既容易程序化解析,也方便在 ElevenLabs UI 里逐段分配声音。

格式 B:行内标记(追求细节)

ElevenLabs 支持一小组行内标签,用来控制重音、停顿和情绪。下面几个是当下稳定可用的,尤其在 v3 模型上表现自然:

<break time="0.5s" /> — 显式停顿
方括号情绪提示如 [laughs]、[sigh]、[clears throat](v3 比 v2 解读得更自然)

完整标签清单去官方提示词指南查,他们每出一个新模型就会扩充一次。

真正影响听感的几条脚本规则

规则	为什么重要
每分钟 130–160 字(英文 words/分钟,中文按 200-250 字/分钟换算)	自然对话节奏,再快就像新闻联播
每 2-3 分钟加一次 `[laughs]`、`[sigh]` 或语气词("嗯"、"对吧?")	拟人化最有效的一招
每位说话人结尾给个"交接词"(`对吧?`、`没错`、`所以...`)	让下一位声音有自然的切入点
超过 90 秒的独白要切断	否则听感会塌回单人 TTS
自己先大声朗读一遍	如果连你都读不顺,模型读出来一定别扭

2. 选两个反差鲜明的声音

新手最常踩的坑:挑了两个听起来差不多的声音。听众分不清谁在说话,"双主播"的幻觉立刻崩塌。

挑声音时按这张反差清单过一遍:

音色性别反差(男/女最容易,男/男也行,但其他维度反差必须强)
节奏反差 —— 一快一慢
音域反差 —— 一低一高
"温度"反差 —— 温暖/聊天感 vs 分析/利落感

5 对实测好用的搭配

下面这组声音都是 ElevenLabs 长期默认声音库里的,稳定多年,但还是建议你录制前先试听 30 秒。

搭配名	Host A	Host B	适合
分析师 × 好奇副主持	Adam	Rachel	科技、AI、财经类
故事讲述者 × 提问者	Antoni	Bella	叙事、专题类
沉稳讲解 × 即时反应	Drew	Domi	教程、How-To 类
英音 × 美音	Daniel	Sarah	全球化/泛听众
自定义克隆 × 库内声音	你自己的克隆	任意反差声音	品牌化节目

在 ElevenLabs Voice Library 里逐个试听 30 秒再下决定。如果你用 v3,可以试 Studio 里的 Auto-assign voices(Alpha)功能 —— 它会自动从脚本里识别角色并推荐匹配声音。

3. 生成音频 —— 三种方法

方法 A:Studio(无需写代码)

Studio 是 ElevenLabs 的长文多说话人编辑器,在后台左侧导航第 3 项(Home 和 Voices 下面)。

从左侧导航打开 Studio。
新建一个 project,粘贴你的标签化脚本。
两种方式分配声音:逐段手动指定,或开启 Auto-assign voices(Alpha)让它自动识别说话人并推荐声音。
点 Generate。Studio 自动渲染并拼接片段。
导出 MP3 或 WAV。

优点: 不用写代码;单句重新生成只需一次点击;非工程师友好。 缺点: 大项目渲染要等几分钟。注意每个订阅档对并发 Studio Projects 数量有上限(Free 3 / Starter 20 / Creator 1000),撞限就归档或删旧的。Studio 和 API 共享同一个月度信用池,付费版未用信用最多滚动 2 个月。

方法 B:Python 脚本调 API

这是我做到第二集之后的首选 —— 可扩展、可版本控制、可单段重渲染。

# pip install elevenlabs pydub
import os
from elevenlabs.client import ElevenLabs
from pydub import AudioSegment

# 自动读取环境变量 ELEVENLABS_API_KEY
client = ElevenLabs()

VOICES = {
    "Host A": "VOICE_ID_FROM_LIBRARY",
    "Host B": "VOICE_ID_FROM_LIBRARY",
}

# 把 "Speaker: line" 脚本解析成 [(speaker, text), ...]
turns = []
with open("script.txt") as f:
    for line in f:
        if ":" in line:
            speaker, text = line.split(":", 1)
            speaker, text = speaker.strip(), text.strip()
            if speaker in VOICES and text:
                turns.append((speaker, text))

# 逐段生成
os.makedirs("out", exist_ok=True)
clips = []
for i, (speaker, text) in enumerate(turns):
    audio = client.text_to_speech.convert(
        text=text,
        voice_id=VOICES[speaker],
        model_id="eleven_v3",                  # 2026 年 2 月 GA 的旗舰模型
        output_format="mp3_44100_128",
    )
    path = f"out/{i:03d}_{speaker.replace(' ', '_')}.mp3"
    with open(path, "wb") as out:
        for chunk in audio:
            out.write(chunk)
    clips.append(AudioSegment.from_mp3(path))

# 段间插入短暂停顿
gap = AudioSegment.silent(duration=300)  # 300ms 听感最自然
final = clips[0]
for clip in clips[1:]:
    final = final + gap + clip

final.export("podcast.mp3", format="mp3", bitrate="128k")
print(f"✅ Done. {len(turns)} turns rendered into podcast.mp3")

eleven_v3 是 2026 年 2 月 GA 的旗舰。如果你的场景需要低延迟(实时/语音 agent),把 model_id 换成 eleven_flash_v2_5 或 eleven_turbo_v2_5。

优点: 完全可控、可批处理、Git 可 diff、单段重渲染方便。 缺点: SDK 偶尔有 breaking change;需要 Python 环境。

方法 C:第三方编排工具

不想写代码、也不想逐段点的话:

Google NotebookLM —— 底层不是 ElevenLabs,但任意文档丢进去能直接生成两人对话播客,质量惊人。
Wondercraft、Podcastle、Resemble AI —— 包了 ElevenLabs(或竞品)+ 内置对白 UI。

不写代码且不想逐句操作时用这类。质量好,但定制空间小。

4. 后期处理(让它"听不出是 AI")

哪怕声音再好,跳过这一步,听众 30 秒内就能听出 TTS 痕迹。

响度归一化 → 目标 -16 LUFS(播客标准)。Audacity:效果 → 归一化 → 响度归一化。
剪掉死气沉沉的停顿 → 自动剪掉 > 1.2 秒的静音。Descript 一键搞定;Audacity 用 效果 → 截短静音。
加轻量背景音乐 → 8-12 秒片头,之后压到人声下方 -25 dB。免费来源:YouTube Audio Library、Pixabay Music。
柔和压缩 → 比例 2:1,阈值约 -18 dB。把两种不同声音粘合成一档"节目质感"。
轻 EQ → 切掉 80 Hz 以下,去掉模型生成时带入的低频底噪。

5 步只能做 1 步,优先做第 1 步(响度归一化)。响度忽高忽低是听众在第 1 分钟流失最大的原因。

5. 实际成本到底是多少

ElevenLabs 按信用(credits) 计费,Studio 和 API 共享同一个月度池子。信用-字符比因模型而异 —— 高质量的 eleven_v3 每字符消耗的信用比 eleven_turbo_v2_5 多。报价前去定价页查当前倍数。

基础换算(v2 系列按 1 字符 = 1 信用估算;v3 按你模型的实际比例乘):

1 分钟自然语速 ≈ 900–1,000 字符 源文本
一集 20 分钟 ≈ 约 19,000 字符

当前订阅档(取自 ElevenLabs 官方定价页,2026 年 5 月):

档位	月费	月信用	Studio Projects 上限	适合
Free	$0	10,000	3	试用(≈ v2 10 分钟音频)
Starter	$6	30,000	20	业余创作者;含商用授权、即时声音克隆、Dubbing studio
Creator	$22(首月 $11)	121,000	1,000	每周一期 20 分钟节目的甜区;专业声音克隆、192 kbps、超量按需付费
Pro	$99	600,000	3,000	日更或多档节目;API 支持 44.1 kHz PCM
Scale	$299	1.8 M	9,000	小团队(3 个 workspace 席位)、协作
Business	$990	6 M	—	较大团队(10 席),含低延迟 TTS 选项
Enterprise	定制	定制	—	定制条款、优先支持

实操结论: 每周一期 20 分钟、用 v3 生成 → Creator 档非常宽裕。别在 Free 档硬扛,超量费用是惩罚性的,光是 Starter 的商用授权就回本了。

付费档的信用最多滚动 2 个月,偶尔一周量大不会立刻被迫升档。

6. 什么时候 ElevenLabs 不是最优解

ElevenLabs 目前在英文和主流欧洲语言的"有情感 TTS"上是最强。但也不是万能:

中文为主的节目 → 讯飞或 MiniMax 对普通话韵律处理得更好。深度对比看:/zh-CN/vs/elevenlabs-vs-xunfei-tts
预算紧、希望自托管 → Coqui XTTS 能在 $0/字符拿到 80% 的质量,前提是你能跑 GPU
重度声音克隆需求 → Resemble AI 的少样本克隆控制更强
跟 OpenAI Voice API 对比 → 详见 /vs/elevenlabs-openai-tts

6 步流程速记

用 Host A: ... / Host B: ... 格式写脚本
挑两个至少在两个维度上反差强烈的声音
用 Studio(UI)或上面的 Python 脚本生成
跑后期:响度归一化、剪静音、垫音乐、柔和压缩
预算锁定 Creator 档($22/月,121K 信用) —— 每周 20 分钟节目用 v3 完全够
中文场景或要自托管时,参考备选方案

过去 18 个月,双人 AI 播客已经越过了"听众不会留意"的临界点。剩下的工作早就不在模型里了 —— 而是在脚本结构、声音搭配,和那 15 分钟大多数人会跳过的后期处理上。

XScanHub 相关阅读:

快速跳到对应段落

当前阅读位置第 1 / 14 节

分享文章

把这篇文章发出去

分享到常用平台，或直接复制链接发给同事。

X LinkedIn Reddit Telegram 微博

文章概览

读完前先看这几项

分类

工作流/最佳实践

阅读时间

9 分钟

提到的工具

返回文章列表 →

下一步

读完后可以继续回到工具目录，对比具体产品。

去看工具