文章/用 ElevenLabs 做双人对话 AI 播客 — 完整工作流(2026)
工作流/最佳实践

用 ElevenLabs 做双人对话 AI 播客 — 完整工作流(2026)

从脚本到 MP3 的完整 ElevenLabs 双主播 AI 播客工作流。涵盖声音搭配、对白标记、多人语音生成、后期处理和成本估算。

2026年5月16日阅读时间: 9 分钟0 个主题标签
阅读过渡

上面是文章摘要,下面进入正文深读。可以配合目录逐段阅读,不会丢掉上下文。

工作流/最佳实践14 个章节

用 ElevenLabs 做双人对话 AI 播客:完整工作流(2026)

如果你曾经把一份脚本贴进 ElevenLabs,期待得到一档双主播播客,大概率会撞上同一堵墙:UI 默认是单人朗读,对白标记的写法散落在各处博客里,而真正让"AI 声音不像 AI"的后期小技巧,几乎没人写完整。

下面这套流程,是我会直接交给团队新成员的"上手指南"。跑完一遍,你就能产出一集 10-20 分钟、两位主播对话的播客 —— 而且是"能听下去",不只是"技术上能播放"。

你最终会拿到的:

  • 一条可复用的"脚本 → MP3"流水线(UI 路径 + 代码路径都给)
  • 5 条真正重要的"配音搭配"原则
  • 一段可直接 fork 的 Python 脚本
  • 真实的成本数字,让你判断要不要订阅

耗时: 第二次操作起,10 分钟节目大约 30-45 分钟。 门槛: 会复制粘贴 Python 或者 愿意在网页 UI 里点几下。


1. 准备脚本

干净的脚本能省掉 80% 的后期工作量。有两种格式,选一种贯穿全篇即可。

格式 A:简单的说话人标签(新手推荐)

Host A: 欢迎回到《AI 解码》。今天我们要聊
        最近被问爆的那件事。
Host B: 我猜是 —— 新 Qwen 模型的定价?
Host A: 没错。我们先从上周到底改了什么说起。

这种格式既容易程序化解析,也方便在 ElevenLabs UI 里逐段分配声音。

格式 B:行内标记(追求细节)

ElevenLabs 支持一小组行内标签,用来控制重音、停顿和情绪。下面几个是当下稳定可用的,尤其在 v3 模型上表现自然:

  • <break time="0.5s" /> — 显式停顿
  • 方括号情绪提示如 [laughs][sigh][clears throat](v3 比 v2 解读得更自然)

完整标签清单去 官方提示词指南 查,他们每出一个新模型就会扩充一次。

真正影响听感的几条脚本规则

规则 为什么重要
每分钟 130–160 字(英文 words/分钟,中文按 200-250 字/分钟 换算) 自然对话节奏,再快就像新闻联播
每 2-3 分钟加一次 [laughs][sigh] 或语气词("嗯"、"对吧?") 拟人化最有效的一招
每位说话人结尾给个"交接词"(对吧?没错所以...) 让下一位声音有自然的切入点
超过 90 秒的独白要切断 否则听感会塌回单人 TTS
自己先大声朗读一遍 如果连都读不顺,模型读出来一定别扭

2. 选两个反差鲜明的声音

新手最常踩的坑:挑了两个听起来差不多的声音。听众分不清谁在说话,"双主播"的幻觉立刻崩塌。

挑声音时按这张反差清单过一遍:

  • 音色性别反差(男/女最容易,男/男也行,但其他维度反差必须强)
  • 节奏反差 —— 一快一慢
  • 音域反差 —— 一低一高
  • "温度"反差 —— 温暖/聊天感 vs 分析/利落感

5 对实测好用的搭配

下面这组声音都是 ElevenLabs 长期默认声音库里的,稳定多年,但还是建议你录制前先试听 30 秒。

搭配名 Host A Host B 适合
分析师 × 好奇副主持 Adam Rachel 科技、AI、财经类
故事讲述者 × 提问者 Antoni Bella 叙事、专题类
沉稳讲解 × 即时反应 Drew Domi 教程、How-To 类
英音 × 美音 Daniel Sarah 全球化/泛听众
自定义克隆 × 库内声音 你自己的克隆 任意反差声音 品牌化节目

ElevenLabs Voice Library 里逐个试听 30 秒再下决定。如果你用 v3,可以试 Studio 里的 Auto-assign voices(Alpha)功能 —— 它会自动从脚本里识别角色并推荐匹配声音。


3. 生成音频 —— 三种方法

方法 A:Studio(无需写代码)

Studio 是 ElevenLabs 的长文多说话人编辑器,在后台左侧导航第 3 项(Home 和 Voices 下面)。

  1. 从左侧导航打开 Studio。
  2. 新建一个 project,粘贴你的标签化脚本。
  3. 两种方式分配声音:逐段手动指定,或开启 Auto-assign voices(Alpha)让它自动识别说话人并推荐声音。
  4. Generate。Studio 自动渲染并拼接片段。
  5. 导出 MP3 或 WAV。

优点: 不用写代码;单句重新生成只需一次点击;非工程师友好。 缺点: 大项目渲染要等几分钟。注意每个订阅档对并发 Studio Projects 数量有上限(Free 3 / Starter 20 / Creator 1000),撞限就归档或删旧的。Studio 和 API 共享同一个月度信用池,付费版未用信用最多滚动 2 个月。

方法 B:Python 脚本调 API

这是我做到第二集之后的首选 —— 可扩展、可版本控制、可单段重渲染。

# pip install elevenlabs pydub
import os
from elevenlabs.client import ElevenLabs
from pydub import AudioSegment

# 自动读取环境变量 ELEVENLABS_API_KEY
client = ElevenLabs()

VOICES = {
    "Host A": "VOICE_ID_FROM_LIBRARY",
    "Host B": "VOICE_ID_FROM_LIBRARY",
}

# 把 "Speaker: line" 脚本解析成 [(speaker, text), ...]
turns = []
with open("script.txt") as f:
    for line in f:
        if ":" in line:
            speaker, text = line.split(":", 1)
            speaker, text = speaker.strip(), text.strip()
            if speaker in VOICES and text:
                turns.append((speaker, text))

# 逐段生成
os.makedirs("out", exist_ok=True)
clips = []
for i, (speaker, text) in enumerate(turns):
    audio = client.text_to_speech.convert(
        text=text,
        voice_id=VOICES[speaker],
        model_id="eleven_v3",                  # 2026 年 2 月 GA 的旗舰模型
        output_format="mp3_44100_128",
    )
    path = f"out/{i:03d}_{speaker.replace(' ', '_')}.mp3"
    with open(path, "wb") as out:
        for chunk in audio:
            out.write(chunk)
    clips.append(AudioSegment.from_mp3(path))

# 段间插入短暂停顿
gap = AudioSegment.silent(duration=300)  # 300ms 听感最自然
final = clips[0]
for clip in clips[1:]:
    final = final + gap + clip

final.export("podcast.mp3", format="mp3", bitrate="128k")
print(f"✅ Done. {len(turns)} turns rendered into podcast.mp3")

eleven_v3 是 2026 年 2 月 GA 的旗舰。如果你的场景需要低延迟(实时/语音 agent),把 model_id 换成 eleven_flash_v2_5eleven_turbo_v2_5

优点: 完全可控、可批处理、Git 可 diff、单段重渲染方便。 缺点: SDK 偶尔有 breaking change;需要 Python 环境。

方法 C:第三方编排工具

不想写代码、也不想逐段点的话:

  • Google NotebookLM —— 底层不是 ElevenLabs,但任意文档丢进去能直接生成两人对话播客,质量惊人。
  • Wondercraft、Podcastle、Resemble AI —— 包了 ElevenLabs(或竞品)+ 内置对白 UI。

不写代码 不想逐句操作时用这类。质量好,但定制空间小。


4. 后期处理(让它"听不出是 AI")

哪怕声音再好,跳过这一步,听众 30 秒内就能听出 TTS 痕迹。

  1. 响度归一化 → 目标 -16 LUFS(播客标准)。Audacity:效果 → 归一化 → 响度归一化
  2. 剪掉死气沉沉的停顿 → 自动剪掉 > 1.2 秒的静音。Descript 一键搞定;Audacity 用 效果 → 截短静音
  3. 加轻量背景音乐 → 8-12 秒片头,之后压到人声下方 -25 dB。免费来源:YouTube Audio LibraryPixabay Music
  4. 柔和压缩 → 比例 2:1,阈值约 -18 dB。把两种不同声音粘合成一档"节目质感"。
  5. 轻 EQ → 切掉 80 Hz 以下,去掉模型生成时带入的低频底噪。

5 步只能做 1 步,优先做第 1 步(响度归一化)。响度忽高忽低是听众在第 1 分钟流失最大的原因。


5. 实际成本到底是多少

ElevenLabs 按信用(credits) 计费,Studio 和 API 共享同一个月度池子。信用-字符比因模型而异 —— 高质量的 eleven_v3 每字符消耗的信用比 eleven_turbo_v2_5 多。报价前去 定价页 查当前倍数。

基础换算(v2 系列按 1 字符 = 1 信用估算;v3 按你模型的实际比例乘):

  • 1 分钟自然语速 ≈ 900–1,000 字符 源文本
  • 一集 20 分钟 ≈ 约 19,000 字符

当前订阅档(取自 ElevenLabs 官方定价页,2026 年 5 月):

档位 月费 月信用 Studio Projects 上限 适合
Free $0 10,000 3 试用(≈ v2 10 分钟音频)
Starter $6 30,000 20 业余创作者;含商用授权、即时声音克隆、Dubbing studio
Creator $22(首月 $11) 121,000 1,000 每周一期 20 分钟节目的甜区;专业声音克隆、192 kbps、超量按需付费
Pro $99 600,000 3,000 日更或多档节目;API 支持 44.1 kHz PCM
Scale $299 1.8 M 9,000 小团队(3 个 workspace 席位)、协作
Business $990 6 M 较大团队(10 席),含低延迟 TTS 选项
Enterprise 定制 定制 定制条款、优先支持

实操结论: 每周一期 20 分钟、用 v3 生成 → Creator 档非常宽裕。别在 Free 档硬扛,超量费用是惩罚性的,光是 Starter 的商用授权就回本了。

付费档的信用最多滚动 2 个月,偶尔一周量大不会立刻被迫升档。


6. 什么时候 ElevenLabs 不是最优解

ElevenLabs 目前在英文和主流欧洲语言的"有情感 TTS"上是最强。但也不是万能:

  • 中文为主的节目 → 讯飞或 MiniMax 对普通话韵律处理得更好。深度对比看:/zh-CN/vs/elevenlabs-vs-xunfei-tts
  • 预算紧、希望自托管Coqui XTTS 能在 $0/字符 拿到 80% 的质量,前提是你能跑 GPU
  • 重度声音克隆需求 → Resemble AI 的少样本克隆控制更强
  • 跟 OpenAI Voice API 对比 → 详见 /vs/elevenlabs-openai-tts

6 步流程速记

  1. Host A: ... / Host B: ... 格式写脚本
  2. 挑两个至少在两个维度上反差强烈的声音
  3. 用 Studio(UI)或上面的 Python 脚本生成
  4. 跑后期:响度归一化、剪静音、垫音乐、柔和压缩
  5. 预算锁定 Creator 档($22/月,121K 信用) —— 每周 20 分钟节目用 v3 完全够
  6. 中文场景或要自托管时,参考备选方案

过去 18 个月,双人 AI 播客已经越过了"听众不会留意"的临界点。剩下的工作早就不在模型里了 —— 而是在脚本结构、声音搭配,和那 15 分钟大多数人会跳过的后期处理上。


XScanHub 相关阅读:

分享文章

文章概览

读完前先看这几项

分类
工作流/最佳实践
阅读时间
9 分钟
提到的工具
0
返回文章列表 →

下一步

读完后可以继续回到工具目录,对比具体产品。

去看工具