从文本到音乐：Stable Audio 快速上手

2026年5月23日

MindLynx

剪辑师第无数次点开版权配乐库，几百首“鼓舞人心”的曲子听起来全都像同一首的变奏——这大概是每个创作者的日常。与其在列表里碰运气，不如直接写一段想要的音乐。Stable Audio 让这件事变得简单：输入一句文字描述，几秒钟后就能拿到一段可用的音频。不需要学过乐理，不需要摸过编曲软件，AI 帮你把文字变成了音乐。

Stable Audio 背后是一个 2.3B 参数的扩散模型——相当于一个“用文字调音师”。你可以把它想象成：模型读过了成千上万首带标签的音乐，学会了什么样情绪、节奏、配器的组合能对应什么样的文字描述。你给出提示词，它就从随机的噪声开始，一步步去噪，最终“画”出一段符合描述的音频波形。这和文生图的 Stable Diffusion 原理相似，只是输出的不是像素，而是 CD 音质的采样点。

上手非常简单。确保电脑或云主机上有 Python 环境（即便是 CPU 也能跑，只是速度慢一些），然后安装 Diffusers 最新版：

pip install diffusers transformers accelerate torchaudio

接着用这段代码生成自己的第一段音乐：

from diffusers import StableAudioPipeline
import torch
import torchaudio

# 加载模型（2.3B 参数，需要约 5 GB 显存或 8 GB 内存）
pipe = StableAudioPipeline.from_pretrained(
    "stabilityai/stable-audio-3-medium",
    torch_dtype=torch.float32  # CPU 用户必须用 float32
)
pipe = pipe.to("cpu")  # 有 GPU 可改为 "cuda"

prompt = "Lo-fi chill hop with warm Rhodes piano, vinyl crackle, relaxed BPM"
result = pipe(
    prompt,
    num_inference_steps=30,     # 越多质量越精细，但更慢
    audio_length_in_s=30.0      # 生成 30 秒音频
)
audio_tensor = result.audios[0]

# 保存为 WAV
torchaudio.save("lofi_morning.wav", audio_tensor.unsqueeze(0), sample_rate=44100)

复制粘贴，回车，等上几分钟（CPU 上约 10 分钟/30 秒音频，GPU 上不到 1 分钟），一段带着细雨般钢琴和磁带底噪的 Lo-fi 曲子就躺在当前文件夹里了。这就是所谓“十几分钟复现”的节奏。

需要留意的是音质和可控性。Stable Audio 3 Medium 生成的是 44.1kHz CD 品质音频，底噪控制得相当干净，足以直接用作短视频背景音或独立音乐人的草稿素材。但是在需要复杂和声演进或超长结构的纯器乐上，它有时会像随手弹奏那样缺乏段落感——这毕竟是 2.3B 模型，无法替代专业编曲，但作为灵感捕手或贴片配乐，它的价值几乎是零成本的。

另外一个容易被忽略的优势是多语言描述能力。你完全可以这样写提示词：

“悠扬的中国笛子旋律，背景有细碎的电子节拍，空灵，开阔，适合自然纪录片”

模型能理解情绪和乐器指向，哪怕部分词汇不在英文训练集中。我曾试过中英文混合描述，效果出奇地稳定，这让非英语母语创作者省去了来回翻译的烦恼。

而生成速度差异很大：CPU 推理大约每秒 2～5 秒生成，一块 NVIDIA RTX 3060 就能把 30 秒音乐压缩到 40 秒以内。对于快速迭代试听来说，这个延迟完全在可接受范围内。如果只是想要一个 10 秒的音效片段，CPU 也能在三分钟内出结果。

这套流程还有一个经济账：按一张普通 A10 GPU 的云成本算，每生成一段 30 秒音乐的电费大约 0.005 元，而在商用配乐平台买一条非独家版权往往要几十块。对于独立开发者、播客主、小团队视频制作者，Stable Audio 提供的新选项意味着“配乐自由”——你再也不用听那些听到吐的免费库曲子了。

下一步怎么进化？可以试着把 Stable Audio 的输出喂给音频编辑工具做切片重组，也可以在 ComfyUI 节点中把音乐生成和视频生成串在一起，做一个真正的自动配乐短片。音乐的大门已经打开，剩下的就是你的创意了。