音量调整不是简单"放大"：Peak / RMS / LUFS 和平台响度标准

Q: 为什么我把 dB 从 0 拉到 +6 文件没爆音，但拉到 +12 就破了？

因为你的原始信号距离 0dBFS 还有多少余量决定了能加多少。dB 是相对值，0dBFS 是数字音频的天花板——任何样本超过这个值会被截断成方波（削波/clipping），听起来就是"刺啦"的破音。算法：(1) 找到原音频的峰值（比如 −10dBFS 表示离顶还有 10dB 余量）；(2) 加 +6dB 后峰值变 −4dBFS，仍在范围内；(3) 加 +12dB 峰值变 +2dBFS，已经超 0，超出部分被削掉。实务：(1) 不知道原峰值就开限幅器，超 0 自动压回；(2) 安静的录音（讲话类常见 −20 到 −30dBFS 峰值）能加更多，加 +15 都安全；(3) 已经响的音乐（流行歌峰值常 −1 到 −3dBFS）几乎不能再加，否则必爆。

Q: "播客 −16"、"流媒体 −14"、"广播 −23" 这些数字怎么来的？

LUFS 是国际标准化的"听感响度"，每个平台都有自己的目标值。(1) −14 LUFS（流媒体）——Spotify / YouTube / Apple Music / Tidal / Amazon Music 的统一上传归一化目标，超过会自动被压低，等于该响度；(2) −16 LUFS（播客）——Apple Podcasts 推荐，比流媒体安静 2 LU 是因为播客常在嘈杂环境（地铁、车里）听，留出动态范围；(3) −23 LUFS（广播）——欧盟 EBU R128 标准，电视广播必须遵守，避免广告比节目响。为什么这些数字都是负数：LUFS 以 0 为绝对天花板，−14 表示比满刻度低 14LU。实务：(1) 上传 Spotify/YouTube 不必自己归一化到 −14——平台会做，但你做了能保住自己的动态意图；(2) 自己做的播客 应该 归到 −16，否则听众觉得你比 Apple 官方播客小声；(3) 投电视/广播必须 −23。

Q: Peak、RMS、LUFS 三个值有什么区别？

衡量"响度"的三个不同视角。(1) Peak（峰值）——单个样本的最大瞬时值，单位 dBFS。决定的是"会不会爆音"，不决定"听起来多响"；(2) RMS（均方根）——一段时间内所有样本能量的平方平均，单位 dBFS。比 peak 更接近听感，但忽略了人耳频率敏感度；(3) LUFS（响度）——RMS 基础上加了 K-weighting 滤波器（模拟人耳对中频更敏感）+ 门控（忽略静音段），单位 LUFS（≈ dB）。三者差异举例：一段单簧管（中频集中）和一段贝斯（低频集中），相同 RMS 下，单簧管 LUFS 更高（人耳觉得更响）。用什么场景：(1) 防爆音 → 看 peak；(2) 老式压缩 → 用 RMS；(3) 上传任何 2018 年后的平台 → 用 LUFS。

Q: "启用防爆音限幅器"是什么？什么时候必须开？

限幅器（limiter）= 把超过阈值的部分"压回"阈值，避免削波。本工具的 limiter 用 alimiter=limit=0.95（允许的峰值上限是 0.95，约 −0.45dBFS，留出小余量防溢出）。和"压缩器"的区别：压缩器从某个阈值开始按比例压（比如超过 −10 后 4:1 压缩）；限幅器是极限压缩（超过阈值后比例 ∞:1，硬压回），且攻击时间极短（毫秒级）。什么时候必须开：(1) 任何 +3dB 以上的放大（除非你确定原信号峰值 < −10dB）；(2) LUFS 标准化（本工具已隐含 TP=−1.5 真实峰值上限）；(3) 不知道原信号有多响——开了不会变差，关了可能爆。什么时候关：(1) 你只是要降音量（−6dB），不可能爆；(2) 已经在 DAW 里精修过的成品，不希望被二次限幅。

Q: 为什么响度标准化（loudnorm）不能实时试听？

因为 loudnorm 必须先扫完整段才知道当前响度。算法工作方式：(1) 第一遍 pass——遍历整个文件，测出综合 LUFS 值（比如算出 −22 LUFS）；(2) 计算偏移量（目标 −16 - 当前 −22 = +6dB）；(3) 第二遍 pass——按计算好的偏移量调整。实时试听做不到：你拖滑块时下一秒还没解码，无法测出整段响度。但放大 / 衰减就能实时：因为是固定 dB 偏移，不依赖整段信息——本工具手动增益模式有实时预听，loudnorm 模式只能"开始处理"后听结果。经验：(1) 简单调整选手动 dB；(2) 上传平台、录音规范化选 LUFS；(3) loudnorm 比手动加 +XdB 慢 1.5–2x，但精准。

Q: 我的播客录得偏小声，调到 −16 LUFS 后底噪也变大了怎么办？

因为响度归一化等比放大了所有部分，包括底噪。如果原始录音本身底噪 −60dB，归一化时整体抬升 +10dB，底噪也变 −50dB——人耳容易察觉。根治方法（按收益排序）：(1) 录音端解决——离麦克风 15-20cm、房间地毯/窗帘吸音、避开空调出风口；(2) 降噪后再归一化——Audacity 的"降噪"插件、Adobe Audition 的 Adaptive Noise Reduction 先做完，再用本工具调响度；(3) 分段处理——讲话段 −16 LUFS、间奏静音段单独 mute（降噪再归一化）；(4) 能接受的妥协——LUFS 调到 −18 或 −20，比 −16 安静但底噪不那么明显。别做的：(1) 直接拉低音量整体——平台还是会归一化回去；(2) 限幅器调死压——会破坏动态。

Q: WAV 输入和 MP3 输入做归一化结果一样吗？

响度结果几乎一样，但精度有差。LUFS 测量本身用浮点数计算，对 16-bit WAV 和 320k MP3 测出的 LUFS 差异 < 0.5LU，可忽略。真正的差异在：链式损失——MP3 已经是有损压缩，再做归一化（解码 → 处理 → 重新编码）会有第二次有损损失。实务：(1) 重要工程用 WAV 做完所有处理再最后导 MP3；(2) 简单调整 MP3 直接归一化也行，损失感知不到；(3) 批处理大量 MP3 选 192kbps 以上输入，避免低码率叠加损失。

Q: 同样调到 −16 LUFS，为什么不同片段听起来还是不一样响？

LUFS 是"综合响度"——同一个 LUFS 值可能对应不同的动态范围。两段 −16 LUFS：(1) 一段是平稳讲话（动态窄，平均值≈峰值，听起来一直均匀）；(2) 一段是讲话+突然爆笑（动态宽，平均值低但爆笑瞬间到 −6 LUFS）。听感差异：第二段在爆笑瞬间会让你觉得"响"，平稳段反而觉得"小"。解决方案：(1) 接受动态——LUFS 标准就是这样，是"按集均化"不是"按瞬间均化"；(2) 加压缩（不只是限幅）——把爆笑段压低再整体抬升，听起来更均匀；本工具不带压缩器，需要 Audacity 的 Compressor 或 Adobe Audition；(3) 目标响度选低一点——−18 比 −16 留更多动态空间。经验：播客最理想是动态范围（LRA）控制在 6–8 LU，超过 12 LU 听感差异明显。

2026-05-07 · 约 4 分钟 🔊 音量调整

把音频”调大调小”看似简单的事，到了上传 Spotify、做播客的场景就突然变得复杂——响度标准、削波防护、LUFS、Peak、RMS 一堆术语涌上来。这篇梳理三个度量、各平台目标值、什么时候用哪种归一化、什么时候必须开限幅器。

三个度量：Peak / RMS / LUFS

度量	衡量什么	单位	决定
Peak	单样本最大瞬时值	dBFS	会不会削波
RMS	时间窗内能量平方平均	dBFS	大致响度
LUFS	RMS + K-weighting + 门控	LUFS（≈dB）	听感响度（最准）

经验法则：

防爆音盯 Peak（保持 < 0dBFS，最好 < −1dBFS）
上传平台盯 LUFS（按平台目标）
RMS 是过渡产物，2018 年后基本被 LUFS 取代

dB 是什么、+6dB 是几倍

dB 值	振幅倍数	能量倍数	听感
+20	×10	×100	极响
+12	×4	×16	明显大很多
+6	×2	×4	大约一倍响
+3	×1.41	×2	微微大一点
0	×1	×1	不变
−3	×0.71	×0.5	微微小一点
−6	×0.5	×0.25	大约一半响
−20	×0.1	×0.01	极小

记忆点：

振幅每 +6dB 翻一倍
能量每 +3dB 翻一倍
听感每 +10dB 翻一倍（人耳是对数感知）

平台 LUFS 目标速查

平台 / 用途	目标 LUFS	来源
Spotify	−14	平台默认 normalization
YouTube	−14	上传后自动
Apple Music	−16	Sound Check
Apple Podcasts	−16	推荐值
Amazon Music	−14	平台默认
Tidal	−14	平台默认
欧洲电视广播（EBU R128）	−23	强制标准
美国电视广播（ATSC A/85）	−24	强制标准
电影院	−31 to −27	留够动态

重要事实：上传到 Spotify / YouTube 不必自己归一化到 −14——平台会做。但自己做了能保住你的动态意图：

不归一化的成品有时被平台压成”听起来软”
归一化后 LRA（动态范围）由你决定
多曲专辑（album）保持相对响度差

两种调整模式

1. 手动增益（gain mode）

最直接——加个固定 dB 偏移：

volume=+6dB
volume=-3dB

用途：

录音偏小整体抬升
嘈杂的环境录音整体降一点
配合限幅器防爆

何时用：知道目标量、不需要平台合规。

2. 响度标准化（loudnorm）

按平台目标自动算偏移：

loudnorm=I=-16:TP=-1.5:LRA=11

参数含义：

I=-16：目标综合响度（Integrated Loudness）
TP=-1.5：True Peak 上限（避免重采样后超 0）
LRA=11：响度范围（动态压缩程度，11 LU 是默认）

两遍处理：第一遍扫描整段测当前 LUFS，第二遍按差值调整。所以不能实时试听——必须”开始处理”后听结果。

什么时候开限幅器

场景	限幅器	原因
+3dB 以上放大	✅ 开	防止超 0 削波
不确定原信号峰值	✅ 开	保险
LUFS 标准化	✅（已隐含 TP=−1.5）	由 loudnorm 自带
仅降低音量（−6dB）	❌ 关	不可能爆
DAW 已精修的成品	❌ 关	避免二次限幅

限幅器原理：超过阈值的瞬时值被”压回”阈值——攻击时间极短（毫秒级），听感上几乎察觉不到，但能消除削波。

削波（clipping）听起来是什么样

程度	听感
轻微（< 0.5dB）	几乎听不出
中等（1–3dB）	“刺啦”感、高频糙
严重（> 3dB）	失真、像方波、刺耳

为什么是”刺耳”：超出 0dBFS 的样本被截成平直线，相当于在波形里塞进了方波——方波富含高频谐波，人耳对此极其敏感。

实战流程

场景 1：自录播客上传

选 LUFS 模式 → 播客 −16
开始处理（无需限幅器，loudnorm 自带 TP）
输出 MP3 192k 即可

场景 2：录音整体声音偏小

选手动增益 → +6 到 +10dB
务必开限幅器
实时拖滑块听效果
满意后输出

场景 3：纯音乐归一化但要保动态

LUFS 模式 → 自定义 −14
不要归一化太响（→ −18 比 −14 留更多动态）
输出 320k MP3 或 FLAC

场景 4：嘈杂会议录音降噪 + 抬升

本工具不带降噪——这种场景必须先用其他工具降噪（Audacity 的 Noise Reduction），然后回到本工具做响度标准化。先抬升再降噪会把底噪也放大。

当前工具的真实边界

维度	实际能力
手动增益范围	−20 dB 到 +20 dB
LUFS 预设	−16 / −14 / −23 + 自定义（−30 到 −5）
限幅器	alimiter，TP 0.95
LUFS 算法	ffmpeg loudnorm（双 pass）
实时试听	仅手动增益模式可（playbackRate 改音量）
输入格式	MP3 / WAV / M4A / AAC / FLAC / OGG / OPUS / WMA / AIFF / ALAC
输出格式	MP3 / WAV / AAC / M4A / FLAC（128/192/320 kbps）

不支持：

压缩器（Compressor）——本工具只有限幅器
多段动态（multiband compression）
自动均衡 / 降噪
通道独立调整（左右声道分开）

一句话总结

Peak 防削波、LUFS 看响度；放大必开限幅器、LUFS 必两遍扫描；上传 Spotify/YouTube 不归一化也行，做播客 −16 是最低职业线。

❓ 常见问题

为什么我把 dB 从 0 拉到 +6 文件没爆音，但拉到 +12 就破了？

因为你的原始信号距离 0dBFS 还有多少余量决定了能加多少。dB 是相对值，0dBFS 是数字音频的天花板——任何样本超过这个值会被截断成方波（削波/clipping），听起来就是"刺啦"的破音。算法：(1) 找到原音频的峰值（比如 −10dBFS 表示离顶还有 10dB 余量）；(2) 加 +6dB 后峰值变 −4dBFS，仍在范围内；(3) 加 +12dB 峰值变 +2dBFS，已经超 0，超出部分被削掉。实务：(1) 不知道原峰值就开限幅器，超 0 自动压回；(2) 安静的录音（讲话类常见 −20 到 −30dBFS 峰值）能加更多，加 +15 都安全；(3) 已经响的音乐（流行歌峰值常 −1 到 −3dBFS）几乎不能再加，否则必爆。

"播客 −16"、"流媒体 −14"、"广播 −23" 这些数字怎么来的？

LUFS 是国际标准化的"听感响度"，每个平台都有自己的目标值。(1) −14 LUFS（流媒体）——Spotify / YouTube / Apple Music / Tidal / Amazon Music 的统一上传归一化目标，超过会自动被压低，等于该响度；(2) −16 LUFS（播客）——Apple Podcasts 推荐，比流媒体安静 2 LU 是因为播客常在嘈杂环境（地铁、车里）听，留出动态范围；(3) −23 LUFS（广播）——欧盟 EBU R128 标准，电视广播必须遵守，避免广告比节目响。为什么这些数字都是负数：LUFS 以 0 为绝对天花板，−14 表示比满刻度低 14LU。实务：(1) 上传 Spotify/YouTube 不必自己归一化到 −14——平台会做，但你做了能保住自己的动态意图；(2) 自己做的播客应该归到 −16，否则听众觉得你比 Apple 官方播客小声；(3) 投电视/广播必须 −23。

Peak、RMS、LUFS 三个值有什么区别？

衡量"响度"的三个不同视角。(1) Peak（峰值）——单个样本的最大瞬时值，单位 dBFS。决定的是"会不会爆音"，不决定"听起来多响"；(2) RMS（均方根）——一段时间内所有样本能量的平方平均，单位 dBFS。比 peak 更接近听感，但忽略了人耳频率敏感度；(3) LUFS（响度）——RMS 基础上加了 K-weighting 滤波器（模拟人耳对中频更敏感）+ 门控（忽略静音段），单位 LUFS（≈ dB）。三者差异举例：一段单簧管（中频集中）和一段贝斯（低频集中），相同 RMS 下，单簧管 LUFS 更高（人耳觉得更响）。用什么场景：(1) 防爆音 → 看 peak；(2) 老式压缩 → 用 RMS；(3) 上传任何 2018 年后的平台 → 用 LUFS。

"启用防爆音限幅器"是什么？什么时候必须开？

限幅器（limiter）= 把超过阈值的部分"压回"阈值，避免削波。本工具的 limiter 用 alimiter=limit=0.95（允许的峰值上限是 0.95，约 −0.45dBFS，留出小余量防溢出）。和"压缩器"的区别：压缩器从某个阈值开始按比例压（比如超过 −10 后 4:1 压缩）；限幅器是极限压缩（超过阈值后比例 ∞:1，硬压回），且攻击时间极短（毫秒级）。什么时候必须开：(1) 任何 +3dB 以上的放大（除非你确定原信号峰值 < −10dB）；(2) LUFS 标准化（本工具已隐含 TP=−1.5 真实峰值上限）；(3) 不知道原信号有多响——开了不会变差，关了可能爆。什么时候关：(1) 你只是要降音量（−6dB），不可能爆；(2) 已经在 DAW 里精修过的成品，不希望被二次限幅。

为什么响度标准化（loudnorm）不能实时试听？

因为 loudnorm 必须先扫完整段才知道当前响度。算法工作方式：(1) 第一遍 pass——遍历整个文件，测出综合 LUFS 值（比如算出 −22 LUFS）；(2) 计算偏移量（目标 −16 - 当前 −22 = +6dB）；(3) 第二遍 pass——按计算好的偏移量调整。实时试听做不到：你拖滑块时下一秒还没解码，无法测出整段响度。但放大 / 衰减就能实时：因为是固定 dB 偏移，不依赖整段信息——本工具手动增益模式有实时预听，loudnorm 模式只能"开始处理"后听结果。经验：(1) 简单调整选手动 dB；(2) 上传平台、录音规范化选 LUFS；(3) loudnorm 比手动加 +XdB 慢 1.5–2x，但精准。

我的播客录得偏小声，调到 −16 LUFS 后底噪也变大了怎么办？

因为响度归一化等比放大了所有部分，包括底噪。如果原始录音本身底噪 −60dB，归一化时整体抬升 +10dB，底噪也变 −50dB——人耳容易察觉。根治方法（按收益排序）：(1) 录音端解决——离麦克风 15-20cm、房间地毯/窗帘吸音、避开空调出风口；(2) 降噪后再归一化——Audacity 的"降噪"插件、Adobe Audition 的 Adaptive Noise Reduction 先做完，再用本工具调响度；(3) 分段处理——讲话段 −16 LUFS、间奏静音段单独 mute（降噪再归一化）；(4) 能接受的妥协——LUFS 调到 −18 或 −20，比 −16 安静但底噪不那么明显。别做的：(1) 直接拉低音量整体——平台还是会归一化回去；(2) 限幅器调死压——会破坏动态。

WAV 输入和 MP3 输入做归一化结果一样吗？

响度结果几乎一样，但精度有差。LUFS 测量本身用浮点数计算，对 16-bit WAV 和 320k MP3 测出的 LUFS 差异 < 0.5LU，可忽略。真正的差异在：链式损失——MP3 已经是有损压缩，再做归一化（解码 → 处理 → 重新编码）会有第二次有损损失。实务：(1) 重要工程用 WAV 做完所有处理再最后导 MP3；(2) 简单调整 MP3 直接归一化也行，损失感知不到；(3) 批处理大量 MP3 选 192kbps 以上输入，避免低码率叠加损失。

同样调到 −16 LUFS，为什么不同片段听起来还是不一样响？

LUFS 是"综合响度"——同一个 LUFS 值可能对应不同的动态范围。两段 −16 LUFS：(1) 一段是平稳讲话（动态窄，平均值≈峰值，听起来一直均匀）；(2) 一段是讲话+突然爆笑（动态宽，平均值低但爆笑瞬间到 −6 LUFS）。听感差异：第二段在爆笑瞬间会让你觉得"响"，平稳段反而觉得"小"。解决方案：(1) 接受动态——LUFS 标准就是这样，是"按集均化"不是"按瞬间均化"；(2) 加压缩（不只是限幅）——把爆笑段压低再整体抬升，听起来更均匀；本工具不带压缩器，需要 Audacity 的 Compressor 或 Adobe Audition；(3) 目标响度选低一点——−18 比 −16 留更多动态空间。经验：播客最理想是动态范围（LRA）控制在 6–8 LU，超过 12 LU 听感差异明显。