音量调整不是简单"放大":Peak / RMS / LUFS 和平台响度标准

· 约 4 分钟 🔊 音量调整

把音频”调大调小”看似简单的事,到了上传 Spotify、做播客的场景就突然变得复杂——响度标准、削波防护、LUFS、Peak、RMS 一堆术语涌上来。这篇梳理三个度量、各平台目标值、什么时候用哪种归一化、什么时候必须开限幅器。

三个度量:Peak / RMS / LUFS

度量衡量什么单位决定
Peak单样本最大瞬时值dBFS会不会削波
RMS时间窗内能量平方平均dBFS大致响度
LUFSRMS + K-weighting + 门控LUFS(≈dB)听感响度(最准)

经验法则

  • 防爆音盯 Peak(保持 < 0dBFS,最好 < −1dBFS)
  • 上传平台盯 LUFS(按平台目标)
  • RMS 是过渡产物,2018 年后基本被 LUFS 取代

dB 是什么、+6dB 是几倍

dB 值振幅倍数能量倍数听感
+20×10×100极响
+12×4×16明显大很多
+6×2×4大约一倍响
+3×1.41×2微微大一点
0×1×1不变
−3×0.71×0.5微微小一点
−6×0.5×0.25大约一半响
−20×0.1×0.01极小

记忆点

  • 振幅每 +6dB 翻一倍
  • 能量每 +3dB 翻一倍
  • 听感每 +10dB 翻一倍(人耳是对数感知)

平台 LUFS 目标速查

平台 / 用途目标 LUFS来源
Spotify−14平台默认 normalization
YouTube−14上传后自动
Apple Music−16Sound Check
Apple Podcasts−16推荐值
Amazon Music−14平台默认
Tidal−14平台默认
欧洲电视广播(EBU R128)−23强制标准
美国电视广播(ATSC A/85)−24强制标准
电影院−31 to −27留够动态

重要事实:上传到 Spotify / YouTube 不必自己归一化到 −14——平台会做。但自己做了能保住你的动态意图

  • 不归一化的成品有时被平台压成”听起来软”
  • 归一化后 LRA(动态范围)由你决定
  • 多曲专辑(album)保持相对响度差

两种调整模式

1. 手动增益(gain mode)

最直接——加个固定 dB 偏移:

volume=+6dB
volume=-3dB

用途

  • 录音偏小整体抬升
  • 嘈杂的环境录音整体降一点
  • 配合限幅器防爆

何时用:知道目标量、不需要平台合规。

2. 响度标准化(loudnorm)

按平台目标自动算偏移:

loudnorm=I=-16:TP=-1.5:LRA=11

参数含义:

  • I=-16:目标综合响度(Integrated Loudness)
  • TP=-1.5:True Peak 上限(避免重采样后超 0)
  • LRA=11:响度范围(动态压缩程度,11 LU 是默认)

两遍处理:第一遍扫描整段测当前 LUFS,第二遍按差值调整。所以不能实时试听——必须”开始处理”后听结果。

什么时候开限幅器

场景限幅器原因
+3dB 以上放大✅ 开防止超 0 削波
不确定原信号峰值✅ 开保险
LUFS 标准化✅(已隐含 TP=−1.5)由 loudnorm 自带
仅降低音量(−6dB)❌ 关不可能爆
DAW 已精修的成品❌ 关避免二次限幅

限幅器原理:超过阈值的瞬时值被”压回”阈值——攻击时间极短(毫秒级),听感上几乎察觉不到,但能消除削波。

削波(clipping)听起来是什么样

程度听感
轻微(< 0.5dB)几乎听不出
中等(1–3dB)“刺啦”感、高频糙
严重(> 3dB)失真、像方波、刺耳

为什么是”刺耳”:超出 0dBFS 的样本被截成平直线,相当于在波形里塞进了方波——方波富含高频谐波,人耳对此极其敏感。

实战流程

场景 1:自录播客上传

  1. 选 LUFS 模式 → 播客 −16
  2. 开始处理(无需限幅器,loudnorm 自带 TP)
  3. 输出 MP3 192k 即可

场景 2:录音整体声音偏小

  1. 选手动增益 → +6 到 +10dB
  2. 务必开限幅器
  3. 实时拖滑块听效果
  4. 满意后输出

场景 3:纯音乐归一化但要保动态

  1. LUFS 模式 → 自定义 −14
  2. 不要归一化太响(→ −18 比 −14 留更多动态)
  3. 输出 320k MP3 或 FLAC

场景 4:嘈杂会议录音降噪 + 抬升

本工具不带降噪——这种场景必须先用其他工具降噪(Audacity 的 Noise Reduction),然后回到本工具做响度标准化。先抬升再降噪会把底噪也放大。

当前工具的真实边界

维度实际能力
手动增益范围−20 dB 到 +20 dB
LUFS 预设−16 / −14 / −23 + 自定义(−30 到 −5)
限幅器alimiter,TP 0.95
LUFS 算法ffmpeg loudnorm(双 pass)
实时试听仅手动增益模式可(playbackRate 改音量)
输入格式MP3 / WAV / M4A / AAC / FLAC / OGG / OPUS / WMA / AIFF / ALAC
输出格式MP3 / WAV / AAC / M4A / FLAC(128/192/320 kbps)

不支持

  • 压缩器(Compressor)——本工具只有限幅器
  • 多段动态(multiband compression)
  • 自动均衡 / 降噪
  • 通道独立调整(左右声道分开)

一句话总结

Peak 防削波、LUFS 看响度;放大必开限幅器、LUFS 必两遍扫描;上传 Spotify/YouTube 不归一化也行,做播客 −16 是最低职业线。

❓ 常见问题

为什么我把 dB 从 0 拉到 +6 文件没爆音,但拉到 +12 就破了?

因为你的原始信号距离 0dBFS 还有多少余量决定了能加多少。dB 是相对值,0dBFS 是数字音频的天花板——任何样本超过这个值会被截断成方波(削波/clipping),听起来就是"刺啦"的破音。算法:(1) 找到原音频的峰值(比如 −10dBFS 表示离顶还有 10dB 余量);(2) 加 +6dB 后峰值变 −4dBFS,仍在范围内;(3) 加 +12dB 峰值变 +2dBFS,已经超 0,超出部分被削掉。实务:(1) 不知道原峰值就开限幅器,超 0 自动压回;(2) 安静的录音(讲话类常见 −20 到 −30dBFS 峰值)能加更多,加 +15 都安全;(3) 已经响的音乐(流行歌峰值常 −1 到 −3dBFS)几乎不能再加,否则必爆。

"播客 −16"、"流媒体 −14"、"广播 −23" 这些数字怎么来的?

LUFS 是国际标准化的"听感响度",每个平台都有自己的目标值。(1) −14 LUFS(流媒体)——Spotify / YouTube / Apple Music / Tidal / Amazon Music 的统一上传归一化目标,超过会自动被压低,等于该响度;(2) −16 LUFS(播客)——Apple Podcasts 推荐,比流媒体安静 2 LU 是因为播客常在嘈杂环境(地铁、车里)听,留出动态范围;(3) −23 LUFS(广播)——欧盟 EBU R128 标准,电视广播必须遵守,避免广告比节目响。为什么这些数字都是负数:LUFS 以 0 为绝对天花板,−14 表示比满刻度低 14LU。实务:(1) 上传 Spotify/YouTube 不必自己归一化到 −14——平台会做,但你做了能保住自己的动态意图;(2) 自己做的播客 应该 归到 −16,否则听众觉得你比 Apple 官方播客小声;(3) 投电视/广播必须 −23。

Peak、RMS、LUFS 三个值有什么区别?

衡量"响度"的三个不同视角。(1) Peak(峰值)——单个样本的最大瞬时值,单位 dBFS。决定的是"会不会爆音",不决定"听起来多响";(2) RMS(均方根)——一段时间内所有样本能量的平方平均,单位 dBFS。比 peak 更接近听感,但忽略了人耳频率敏感度;(3) LUFS(响度)——RMS 基础上加了 K-weighting 滤波器(模拟人耳对中频更敏感)+ 门控(忽略静音段),单位 LUFS(≈ dB)。三者差异举例:一段单簧管(中频集中)和一段贝斯(低频集中),相同 RMS 下,单簧管 LUFS 更高(人耳觉得更响)。用什么场景:(1) 防爆音 → 看 peak;(2) 老式压缩 → 用 RMS;(3) 上传任何 2018 年后的平台 → 用 LUFS。

"启用防爆音限幅器"是什么?什么时候必须开?

限幅器(limiter)= 把超过阈值的部分"压回"阈值,避免削波。本工具的 limiter 用 alimiter=limit=0.95(允许的峰值上限是 0.95,约 −0.45dBFS,留出小余量防溢出)。和"压缩器"的区别:压缩器从某个阈值开始按比例压(比如超过 −10 后 4:1 压缩);限幅器是极限压缩(超过阈值后比例 ∞:1,硬压回),且攻击时间极短(毫秒级)。什么时候必须开:(1) 任何 +3dB 以上的放大(除非你确定原信号峰值 < −10dB);(2) LUFS 标准化(本工具已隐含 TP=−1.5 真实峰值上限);(3) 不知道原信号有多响——开了不会变差,关了可能爆。什么时候关:(1) 你只是要降音量(−6dB),不可能爆;(2) 已经在 DAW 里精修过的成品,不希望被二次限幅。

为什么响度标准化(loudnorm)不能实时试听?

因为 loudnorm 必须先扫完整段才知道当前响度。算法工作方式:(1) 第一遍 pass——遍历整个文件,测出综合 LUFS 值(比如算出 −22 LUFS);(2) 计算偏移量(目标 −16 - 当前 −22 = +6dB);(3) 第二遍 pass——按计算好的偏移量调整。实时试听做不到:你拖滑块时下一秒还没解码,无法测出整段响度。但放大 / 衰减就能实时:因为是固定 dB 偏移,不依赖整段信息——本工具手动增益模式有实时预听,loudnorm 模式只能"开始处理"后听结果。经验:(1) 简单调整选手动 dB;(2) 上传平台、录音规范化选 LUFS;(3) loudnorm 比手动加 +XdB 慢 1.5–2x,但精准。

我的播客录得偏小声,调到 −16 LUFS 后底噪也变大了怎么办?

因为响度归一化等比放大了所有部分,包括底噪。如果原始录音本身底噪 −60dB,归一化时整体抬升 +10dB,底噪也变 −50dB——人耳容易察觉。根治方法(按收益排序):(1) 录音端解决——离麦克风 15-20cm、房间地毯/窗帘吸音、避开空调出风口;(2) 降噪后再归一化——Audacity 的"降噪"插件、Adobe Audition 的 Adaptive Noise Reduction 先做完,再用本工具调响度;(3) 分段处理——讲话段 −16 LUFS、间奏静音段单独 mute(降噪再归一化);(4) 能接受的妥协——LUFS 调到 −18 或 −20,比 −16 安静但底噪不那么明显。别做的:(1) 直接拉低音量整体——平台还是会归一化回去;(2) 限幅器调死压——会破坏动态。

WAV 输入和 MP3 输入做归一化结果一样吗?

响度结果几乎一样,但精度有差。LUFS 测量本身用浮点数计算,对 16-bit WAV 和 320k MP3 测出的 LUFS 差异 < 0.5LU,可忽略。真正的差异在:链式损失——MP3 已经是有损压缩,再做归一化(解码 → 处理 → 重新编码)会有第二次有损损失。实务:(1) 重要工程用 WAV 做完所有处理再最后导 MP3;(2) 简单调整 MP3 直接归一化也行,损失感知不到;(3) 批处理大量 MP3 选 192kbps 以上输入,避免低码率叠加损失。

同样调到 −16 LUFS,为什么不同片段听起来还是不一样响?

LUFS 是"综合响度"——同一个 LUFS 值可能对应不同的动态范围。两段 −16 LUFS:(1) 一段是平稳讲话(动态窄,平均值≈峰值,听起来一直均匀);(2) 一段是讲话+突然爆笑(动态宽,平均值低但爆笑瞬间到 −6 LUFS)。听感差异:第二段在爆笑瞬间会让你觉得"响",平稳段反而觉得"小"。解决方案:(1) 接受动态——LUFS 标准就是这样,是"按集均化"不是"按瞬间均化";(2) 加压缩(不只是限幅)——把爆笑段压低再整体抬升,听起来更均匀;本工具不带压缩器,需要 Audacity 的 Compressor 或 Adobe Audition;(3) 目标响度选低一点——−18 比 −16 留更多动态空间。经验:播客最理想是动态范围(LRA)控制在 6–8 LU,超过 12 LU 听感差异明显。

🔊 打开 音量调整 音量增大缩小·响度标准化(LUFS)·防爆音限幅·MP3/WAV/AAC/M4A/FLAC·本地处理不上传