剪辑师第无数次点开版权配乐库,几百首“鼓舞人心”的曲子听起来全都像同一首的变奏——这大概是每个创作者的日常。与其在列表里碰运气,不如直接写一段想要的音乐。Stable Audio 让这件事变得简单:输入一句文字描述,几秒钟后就能拿到一段可用的音频。不需要学过乐理,不需要摸过编曲软件,AI 帮你把文字变成了音乐。
Stable Audio 背后是一个 2.3B 参数的扩散模型——相当于一个“用文字调音师”。你可以把它想象成:模型读过了成千上万首带标签的音乐,学会了什么样情绪、节奏、配器的组合能对应什么样的文字描述。你给出提示词,它就从随机的噪声开始,一步步去噪,最终“画”出一段符合描述的音频波形。这和文生图的 Stable Diffusion 原理相似,只是输出的不是像素,而是 CD 音质的采样点。
上手非常简单。确保电脑或云主机上有 Python 环境(即便是 CPU 也能跑,只是速度慢一些),然后安装 Diffusers 最新版:
pip install diffusers transformers accelerate torchaudio
接着用这段代码生成自己的第一段音乐:
from diffusers import StableAudioPipeline
import torch
import torchaudio
# 加载模型(2.3B 参数,需要约 5 GB 显存或 8 GB 内存)
pipe = StableAudioPipeline.from_pretrained(
"stabilityai/stable-audio-3-medium",
torch_dtype=torch.float32 # CPU 用户必须用 float32
)
pipe = pipe.to("cpu") # 有 GPU 可改为 "cuda"
prompt = "Lo-fi chill hop with warm Rhodes piano, vinyl crackle, relaxed BPM"
result = pipe(
prompt,
num_inference_steps=30, # 越多质量越精细,但更慢
audio_length_in_s=30.0 # 生成 30 秒音频
)
audio_tensor = result.audios[0]
# 保存为 WAV
torchaudio.save("lofi_morning.wav", audio_tensor.unsqueeze(0), sample_rate=44100)
复制粘贴,回车,等上几分钟(CPU 上约 10 分钟/30 秒音频,GPU 上不到 1 分钟),一段带着细雨般钢琴和磁带底噪的 Lo-fi 曲子就躺在当前文件夹里了。这就是所谓“十几分钟复现”的节奏。
需要留意的是音质和可控性。Stable Audio 3 Medium 生成的是 44.1kHz CD 品质音频,底噪控制得相当干净,足以直接用作短视频背景音或独立音乐人的草稿素材。但是在需要复杂和声演进或超长结构的纯器乐上,它有时会像随手弹奏那样缺乏段落感——这毕竟是 2.3B 模型,无法替代专业编曲,但作为灵感捕手或贴片配乐,它的价值几乎是零成本的。
另外一个容易被忽略的优势是多语言描述能力。你完全可以这样写提示词:
“悠扬的中国笛子旋律,背景有细碎的电子节拍,空灵,开阔,适合自然纪录片”
模型能理解情绪和乐器指向,哪怕部分词汇不在英文训练集中。我曾试过中英文混合描述,效果出奇地稳定,这让非英语母语创作者省去了来回翻译的烦恼。
而生成速度差异很大:CPU 推理大约每秒 2~5 秒生成,一块 NVIDIA RTX 3060 就能把 30 秒音乐压缩到 40 秒以内。对于快速迭代试听来说,这个延迟完全在可接受范围内。如果只是想要一个 10 秒的音效片段,CPU 也能在三分钟内出结果。
这套流程还有一个经济账:按一张普通 A10 GPU 的云成本算,每生成一段 30 秒音乐的电费大约 0.005 元,而在商用配乐平台买一条非独家版权往往要几十块。对于独立开发者、播客主、小团队视频制作者,Stable Audio 提供的新选项意味着“配乐自由”——你再也不用听那些听到吐的免费库曲子了。
下一步怎么进化?可以试着把 Stable Audio 的输出喂给音频编辑工具做切片重组,也可以在 ComfyUI 节点中把音乐生成和视频生成串在一起,做一个真正的自动配乐短片。音乐的大门已经打开,剩下的就是你的创意了。
