你正在剪辑新一期的播客,脚本写好、录音完毕,就差一段不抢戏但又有氛围感的背景音乐。你打开免版税音乐网站,听了上百首——不是情绪不对,就是节奏不对。到最后随便拖了一段垫上,自己都觉得有点凑合。如果有一款工具可以根据你当下的情绪,直接在本地生成独一无二的背景乐呢?
Stable Audio 3 Medium(一种文字转音频模型)就是为此而生的。它只有 23 亿参数,却能把几句描述转成一段 30 秒的高质量音频——从“轻快的吉他指弹,咖啡馆背景”到“悬疑氛围的电子音景,缓慢铺底”,都能在消费显卡甚至部分 CPU 上跑起来。接下来,我们看看如何三步为播客量身定制一首背景乐。
第一步:装好引擎
Stable Audio 3 以 Diffusers 管道的形式发布。确保你有一块至少 8GB 显存的 GPU——虽然纯 CPU 也能推理,但一张 RTX 3060 可以让你在 15 秒内出结果。安装就两条命令:
pip install torch diffusers transformers accelerate
这会拉取所有依赖。因为模型源自 Hugging Face,你可能需要先登录 huggingface-cli 并接受 Stable Audio 3 的使用条款(个人非商业用途免费)。
第二步:像写分镜脚本一样写提示词
这是决定音频风格的关键。模型理解自然语言描述,你不需要记住复杂的参数标签。一个有效的提示词通常包含三个要素:乐器/音色 + 情绪与节奏 + 场景用途。
例如,一期关于“早期互联网文化”的单口播客,我会这样写:“A warm lo-fi hip hop instrumental with vinyl crackle, relaxed tempo, nostalgic feel, suitable for podcast background”
如果想生成带有轻微悬疑感的访谈垫乐,则可以写:“Minimalist ambient drone, dark but not scary, slow evolving pads, subtle piano, underscore for dialogue”
中文提示也部分支持,但英文在训练数据中占比更高,风格控制更精确。建议先把想法写成简单的英文短句。
第三步:一条代码输出音频
下面这段 Python 脚本把上述两步串起来。它会下载模型(约 5GB,首次运行需几分钟),然后生成一段 30 秒、44100Hz 的立体声音频,并保存为 podcast_bg.wav。
import torch
from diffusers import StableAudioPipeline
pipe = StableAudioPipeline.from_pretrained(
"stabilityai/stable-audio-3-medium",
torch_dtype=torch.float16 if torch.cuda.is_available() else torch.float32
)
pipe = pipe.to("cuda" if torch.cuda.is_available() else "cpu")
prompt = "A warm lo-fi hip hop instrumental with vinyl crackle, relaxed tempo, nostalgic feel, suitable for podcast background"
audio = pipe(prompt, num_inference_steps=50, audio_length_in_s=30.0).audios[0]
import scipy.io.wavfile as wav
wav.write("podcast_bg.wav", rate=44100, data=audio.T)
print("背景乐已保存")
num_inference_steps 控制迭代步数,50 步在不损失太多细节的前提下平衡速度;audio_length_in_s 最长可设为 30 秒,足以匹配多数播客的段落长度。
这意味着什么:告别版权焦虑与创意妥协
过去,独立播客主要么在免费音乐库反复试听,要么花钱购买商业授权——后者按单曲授权或按月订阅,一年下来少则几百、多则上千元。更麻烦的是,找到一条“既不喧宾夺主又贴合本期调性”的音乐,很大程度上靠运气。
Stable Audio 3 的生成速度与质量,把这个流程压缩到了几分钟以内。在 RTX 3060 上,一段 30 秒音频从输入提示到输出文件大约 12 秒;改用 A10G 这类推理优化卡,可以跑进 6 秒。这意味着你甚至可以在剪辑软件里直接调接口,“实时”试听并迭代表现力。
需要诚实的地方是:它不是万能的“音乐工厂”。模型生成的音频带有一定的合成质感,在极复杂的多乐器编曲、精准模仿特定风格(如“肖邦式的夜曲”)上仍有明显短板。但它极其擅长氛围铺底、lo-fi 节拍、简单钢琴段落、电子音景这些播客中最常用的背景类型。另一个局限是时长固定为 30 秒,如果需要更长,可以通过交叉淡入淡出拼接或多次生成来扩展,只是音乐连贯性会打一些折扣。
对于“我有话要说,但差一点声音”的创作者而言,Stable Audio 3 更像一个随时在线的氛围音效伙伴。它不是要取代作曲家,而是让那些没有作曲条件的人,也能用文字描述瞬间把脑中的听觉想象变成实实在在的音频。你的下一期播客,或许可以试一次。
