音频淡入淡出时长怎么选：50ms 防爆音、3s 自然过渡、10s 艺术化的分水岭

Q: 为什么直接剪掉的音频开头/结尾会"啪"一声？

因为波形在非零位置被瞬间切断，造成阶跃（step）。原理：(1) 音频波形是连续的正负摆动，平均值理论为 0；(2) 你截断的位置如果波形正好在 +0.6 振幅处，从 +0.6 直接跳到 0，这一跳就是一个阶跃信号；(3) 阶跃在频域里 = 从直流到奈奎斯特频率的宽带能量分布——人耳听到就是"咔哒"或"啪"的高频脉冲。几个验证现象：(1) 静音段（波形已经是 0）截断不会有 click；(2) 高频内容（如镲片、嘶声）截断的 click 比低频（贝斯、人声）更明显——因为本身就在大振幅高频区切；(3) 同一段音频在不同位置截断，click 强度不同，正好对应波形振幅。解决：(1) 找零交叉点（zero crossing）切——专业软件能精确对齐，几乎完全消除 click；(2) 加 10–50ms 极短淡入淡出——通用方案，本工具就走这条；(3) 加完几乎听不出来，但 click 消失。

Q: 50ms 跟 3s 都叫"淡入淡出"，是同一回事吗？

机制相同，用途完全不同。机制：都是在指定时长内把音量从 0 渐变到 1（或反向），用 ffmpeg 的 afade 滤波器实现。用途分层：(1) 10–50ms——纯工程目的，消除截断 click，听感上你感觉不到淡入淡出，只感觉"干净"；(2) 100–500ms——柔和起停，避免突兀但仍有"开始/结束"感，podcast 段落切换常用；(3) 1–3s——自然过渡，进入 / 退出场景，YouTube 视频开头/结尾标准做法；(4) 3–10s——艺术化，营造情绪，电影配乐、ASMR、Lo-fi 编曲；(5) >10s——慢起慢落，氛围音乐、冥想 / 助眠音频。判断标准：你希望听众注意到这个过渡吗？(1) 不希望注意到 → 50ms 以下；(2) 希望感到"开始 / 结束"但不喧宾夺主 → 0.5–2s；(3) 希望淡入本身成为情绪的一部分 → 3s 以上。

Q: 为什么本工具默认是线性曲线？听起来不够"渐变"是 bug 吗？

不是 bug，是人耳响度感知是对数的。现象：线性淡入从 0 渐升到 1，前半段（0→0.5）你几乎听不到，后半段（0.5→1）声音突然爆出来——感觉"前面静，后面突然来"。原因：人耳对响度感知接近 dB（对数），振幅 0.5 ≈ -6dB，已经是中等响度；振幅 0.1 ≈ -20dB，听起来"很轻"；振幅 0.01 ≈ -40dB，听起来"几乎没有"。所以线性振幅在听感上 = 前 90% 时间在很轻的范围，最后 10% 跳到全响。怎么办：(1) afade 默认 curve=tri（三角形=线性），可换 curve=log（对数）或 curve=exp（指数）；(2) 本工具的实时试听用浏览器 audio.volume（线性）模拟，但导出走 ffmpeg 默认也是 tri——所以听感会有差异；(3) 实务：50ms 以下听不出差异，3s 以上建议手动用 ffmpeg 指定 curve=log（更接近"自然渐入"）。记忆点：人感觉自然的渐变 ≠ 振幅线性，而是 dB 线性。

Q: 同时设置 5s 淡入和 5s 淡出，但音频只有 8s，会怎样？

本工具会自动夹紧到时长一半。实现：滑块上限 = min(10, duration/2)，8s 音频两端各最多 4s。为什么不允许重叠：(1) 重叠区域音量 = 淡入曲线 × 淡出曲线，两端都接近 0 时中间也接近 0，整段几乎没声音；(2) 听感是"刚渐入就开始渐出"，没有 sustain 阶段，等同于把整段做成"音量包络是钟形"——这不是淡入淡出，是音量调制；(3) 如果真有这个需求，应该用音量调整工具按时间画包络。边界场景：(1) 8s 音频 + 4s 淡入 + 4s 淡出 = 全程都在淡入或淡出，中间没有满音量段——技术上合法，但听起来像"音量起伏"；(2) 实际建议淡入 + 淡出 ≤ 时长的 50%，留至少一半给满音量；(3) 短素材（<3s）干脆不加淡入淡出，加了反而把全段都改了。

Q: 输出格式选 MP3 vs WAV，淡入淡出效果会有差别吗？

效果一致，但会有 generation loss 差异。淡入淡出本身：发生在解码后的 PCM 层面，跟最终编码格式无关——所有格式输出的 envelope 形状完全相同。重新编码的损失：(1) MP3 / AAC / M4A 是有损编码，即便只做 fade 也要重新编码一次，相当于第二代编码（generation loss），高频会损失一点；(2) WAV / FLAC 是无损，重新编码无损失，跟原始 PCM 比特完全一致（除了 fade 本身改的样本）；(3) 多次反复处理（fade → 变速 → 合并 …）的话，每一步都是一代 MP3，叠加 3–4 代后能听出闷感。实务：(1) 单次处理后直接用：MP3 192k 够用；(2) 还要继续编辑（剪辑 / 混音）：先导 WAV，编辑完最后一步再压 MP3；(3) 母带 / 存档：始终 FLAC 或 WAV；(4) 不要把 96k MP3 渲染成 320k MP3——前者已经丢失的信息后者也找不回来，只是文件变大。

Q: 视频 BGM 上传到抖音 / B站，还需要自己加淡入淡出吗？

平台不会自动加，需要自己处理。常见误解：以为"上传后平台会处理音轨"——实际上平台只做转码（码率 / 格式适配），不动音量包络。典型场景：(1) 视频结尾突然黑屏 + 音乐瞬断——观众感觉"是不是网络断了"；(2) 片头音乐突然爆出——容易把观众吓退；(3) 多段素材拼接，每段开头都有微小 click。推荐配置：(1) 短视频（15–60s）：开头 0.3–0.5s 淡入、结尾 0.5–1s 淡出——足够柔和又不浪费篇幅；(2) 长视频片头：1–2s 淡入；(3) 长视频片尾：2–3s 淡出，配合画面淡黑；(4) 配音 / 解说：50ms 防爆音即可，不要让观众感觉"主播声音飘起来"。反面案例：教程类视频片尾用 10s 淡出——观众早就关掉了，浪费的全是观看时长。例外：(1) BGM 切换段间用"硬切"反而有节奏感，刻意不加淡入淡出；(2) 鼓点开头的音乐加淡入会破坏鼓点冲击力——保留原始攻击瞬态。

Q: 铃声 / 短提示音也要加淡入淡出吗？

只加最小化（10–30ms）防爆音，不要加感知得到的过渡。原因：(1) 铃声 / 通知音的核心是让人立刻注意到，任何感知得到的淡入都会延迟感知时间；(2) iOS / Android 的系统提示音几乎全部使用瞬态强攻击（鼓点、铃铛），完全不淡入；(3) 但结尾 50–100ms 淡出仍然推荐——避免循环铃声末尾 click。具体场景：(1) 来电铃声：开头 0ms、结尾 50ms；(2) 通知音：开头 0ms、结尾 30ms；(3) 闹铃：开头 0ms、结尾 100ms——避免醒不来的人按掉时听到 click；(4) 游戏音效（爆炸、技能释放）：开头 0ms、结尾保留 50ms。反例：(1) 听过有人给闹铃加 3s 淡入想"温柔唤醒"，实际效果是浅睡眠醒不来、深睡眠仍然听不到，只在"刚好睡浅"那 30 秒醒——失败率反而更高；(2) "温柔闹铃"应该用低频温暖的音色 + 渐强的旋律段落（音乐设计），而不是物理淡入。

Q: ffmpeg afade 还有 exp、log、qsin 这些曲线，本工具支持选吗？

本工具只用默认 tri（线性），未暴露曲线选项——是有意取舍。afade 支持的曲线（共 17 种）：tri（默认，线性）、qsin（四分之一正弦）、esin（指数正弦）、hsin（半正弦）、log（对数）、ipar（逆抛物线）、qua（二次方）、cub（三次方）、squ（平方根）、cbr（立方根）、par（抛物线）、exp（指数）、iqsin、ihsin、dese（双指数啄出）、desi（双指数啄入）、losi（逻辑斯蒂 sigmoid）、nofade（不淡化）。听感差异：(1) tri：前轻后重，最不"自然"，但实现简单、CPU 最快；(2) qsin / hsin：S 形对称，听感最接近"自然"，专业混音首选；(3) log / exp：对数 / 指数，强调初始或末段；(4) losi：sigmoid，超慢起 + 超慢收，氛围音用。为什么本工具不开放：(1) 90% 用户分不清这些曲线的差异，给选项反而困惑；(2) 50ms 以下时长选什么曲线都听不出区别（主用途）；(3) 真正要选曲线的用户已经在用 DAW / Audacity / 命令行 ffmpeg。命令行示例：ffmpeg -i in.mp3 -af "afade=t=in:st=0:d=3:curve=qsin,afade=t=out:st=57:d=3:curve=qsin" out.mp3

2026-05-11 · 约 4 分钟 🌅 音频淡入淡出

“淡入淡出”是看似简单实际分层的概念——50ms 的淡入淡出和 3s 的淡入淡出做的是完全不同的事。这篇讲清四个层次的时长选择、为什么线性曲线听起来不自然、什么场景反而不应该加淡入淡出。

为什么需要淡入淡出：截断 click 的物理原因

直接剪掉音频两端会”啪”一声，原因是波形在非零位置被瞬间切断：

原始波形： /\  /\  /\  /\
截断位置：         ↑
截断后：   /\  /\  /
                  ↓
                  从 +0.6 振幅直接跳到 0

这一跳是个阶跃信号，频域上覆盖直流到奈奎斯特频率的全带宽能量——人耳听到就是高频 click。

两种解法：

方法	难度	效果
找零交叉点（zero crossing）切	需要精确定位	几乎完美消除 click
加 10–50ms 极短淡入淡出	拖滑块即可	通用方案，完全消除

本工具走第二条。

淡入淡出时长的四个层次

时长	用途	听感
10–50ms	工程目的：消除 click	听不出淡入淡出本身
100–500ms	柔和起停	感觉”开始 / 结束”
1–3s	自然过渡	进入 / 退出场景
3–10s	艺术化	营造情绪
>10s	慢起慢落	氛围 / 冥想

判断方法：你希望听众注意到这个过渡吗？

不希望 → 50ms 以下
希望感到开始/结束但不喧宾夺主 → 0.5–2s
希望过渡本身成为情绪的一部分 → 3s+

常见场景推荐表

场景	开头淡入	结尾淡出	备注
截断 click 修复	30ms	30ms	听不出来
Podcast 段落	100–300ms	200–500ms	段落感清晰
Podcast intro/outro	1–2s	3–5s	专业感
短视频 BGM（15–60s）	0.3–0.5s	0.5–1s	不浪费篇幅
YouTube 长视频	1–2s	2–3s	配画面淡黑
铃声 / 通知音	0ms	50–100ms	反应速度优先
闹铃	0ms	100ms	不要”温柔淡入”
电影配乐	3–10s	5–30s	跟随场景节奏
助眠 / ASMR	5–30s	30–60s	越慢越好
Lo-fi / 氛围乐	3–8s	5–15s	专辑级

为什么线性曲线听起来不自然

人耳响度感知是对数的，不是线性的：

振幅	dB	听感
1.0	0dB	全响
0.5	-6dB	中等响度
0.1	-20dB	”很轻”
0.01	-40dB	”几乎没有”
0.001	-60dB	听不到

线性淡入从 0 升到 1，前半段（0→0.5）你几乎听不到，后半段（0.5→1）声音”突然爆出来”——感觉”前面静，后面突然来”。

对策：

50ms 以下：听不出差异，用线性即可（默认）
3s 以上：用 curve=log 或 curve=qsin 才接近”自然渐入”
本工具默认走 tri（线性），需要其他曲线请用命令行

afade 内部做了什么

本工具背后的 ffmpeg 命令：

afade=t=in:st=0:d=3              # 从 0s 开始，3 秒淡入
afade=t=out:st=57:d=3            # 从 57s 开始（总长 60s），3 秒淡出

参数：

参数	含义
`t`	type，in 或 out
`st`	start time，开始时刻（秒）
`d`	duration，时长（秒）
`curve`	曲线类型（默认 tri）

实时试听 vs 实际导出：

行为	引擎	曲线
拖滑块即听	`<audio>.volume` 线性	tri
点”开始处理”	ffmpeg afade	tri（默认）

本工具两边都是线性，听感一致——但 3s 以上时长两边都会感觉”前面静后面陡”，这是预期的。

什么时候反而不要加淡入淡出

鼓点 / 强攻击开头的音乐：淡入会破坏第一拍的冲击力
铃声 / 通知音的开头：延迟感知，违背工具本意
DJ 切歌的硬切点：刻意保留瞬态
极短素材（<3s）：加了 fade 占比太大，整段都变了
已经做过 fade 的素材：再加一次会变成”双重淡入”，听起来像缓启动故障

输出格式与 generation loss

淡入淡出本身在 PCM 层完成，但保存时要重新编码：

输出格式	第二代编码损失	适用
MP3 192k/320k	有，轻微高频损失	单次处理直接用
AAC / M4A	有，与 MP3 类似	iOS 生态友好
WAV	无	还要继续编辑
FLAC	无（压缩比约 50%）	存档 / 母带

反复处理多次的话每一代叠加损失——先导 WAV 编辑、最后再压 MP3。

重叠的边界处理

工具限制 fade_in + fade_out ≤ duration（滑块上限 = min(10, duration/2)），避免两端重叠。

实际建议更保守：淡入 + 淡出 ≤ 时长的 50%，留至少一半给满音量段——否则就不是”淡入淡出”，而是”音量包络”了。

一句话总结

淡入淡出 50ms 解决爆音、500ms 柔和切换、3s 自然过渡、10s 艺术情绪；线性曲线在 3s 以上会觉得”前轻后重”，那是人耳响度感知对数曲线的体现——不是 bug；铃声、强攻击开头、极短素材反而不要加。

❓ 常见问题

为什么直接剪掉的音频开头/结尾会"啪"一声？

因为波形在非零位置被瞬间切断，造成阶跃（step）。原理：(1) 音频波形是连续的正负摆动，平均值理论为 0；(2) 你截断的位置如果波形正好在 +0.6 振幅处，从 +0.6 直接跳到 0，这一跳就是一个阶跃信号；(3) 阶跃在频域里 = 从直流到奈奎斯特频率的宽带能量分布——人耳听到就是"咔哒"或"啪"的高频脉冲。几个验证现象：(1) 静音段（波形已经是 0）截断不会有 click；(2) 高频内容（如镲片、嘶声）截断的 click 比低频（贝斯、人声）更明显——因为本身就在大振幅高频区切；(3) 同一段音频在不同位置截断，click 强度不同，正好对应波形振幅。解决：(1) 找零交叉点（zero crossing）切——专业软件能精确对齐，几乎完全消除 click；(2) 加 10–50ms 极短淡入淡出——通用方案，本工具就走这条；(3) 加完几乎听不出来，但 click 消失。

50ms 跟 3s 都叫"淡入淡出"，是同一回事吗？

机制相同，用途完全不同。机制：都是在指定时长内把音量从 0 渐变到 1（或反向），用 ffmpeg 的 afade 滤波器实现。用途分层：(1) 10–50ms——纯工程目的，消除截断 click，听感上你感觉不到淡入淡出，只感觉"干净"；(2) 100–500ms——柔和起停，避免突兀但仍有"开始/结束"感，podcast 段落切换常用；(3) 1–3s——自然过渡，进入 / 退出场景，YouTube 视频开头/结尾标准做法；(4) 3–10s——艺术化，营造情绪，电影配乐、ASMR、Lo-fi 编曲；(5) >10s——慢起慢落，氛围音乐、冥想 / 助眠音频。判断标准：你希望听众注意到这个过渡吗？(1) 不希望注意到 → 50ms 以下；(2) 希望感到"开始 / 结束"但不喧宾夺主 → 0.5–2s；(3) 希望淡入本身成为情绪的一部分 → 3s 以上。

为什么本工具默认是线性曲线？听起来不够"渐变"是 bug 吗？

不是 bug，是人耳响度感知是对数的。现象：线性淡入从 0 渐升到 1，前半段（0→0.5）你几乎听不到，后半段（0.5→1）声音突然爆出来——感觉"前面静，后面突然来"。原因：人耳对响度感知接近 dB（对数），振幅 0.5 ≈ -6dB，已经是中等响度；振幅 0.1 ≈ -20dB，听起来"很轻"；振幅 0.01 ≈ -40dB，听起来"几乎没有"。所以线性振幅在听感上 = 前 90% 时间在很轻的范围，最后 10% 跳到全响。怎么办：(1) afade 默认 curve=tri（三角形=线性），可换 curve=log（对数）或 curve=exp（指数）；(2) 本工具的实时试听用浏览器 audio.volume（线性）模拟，但导出走 ffmpeg 默认也是 tri——所以听感会有差异；(3) 实务：50ms 以下听不出差异，3s 以上建议手动用 ffmpeg 指定 curve=log（更接近"自然渐入"）。记忆点：人感觉自然的渐变 ≠ 振幅线性，而是 dB 线性。

同时设置 5s 淡入和 5s 淡出，但音频只有 8s，会怎样？

本工具会自动夹紧到时长一半。实现：滑块上限 = min(10, duration/2)，8s 音频两端各最多 4s。为什么不允许重叠：(1) 重叠区域音量 = 淡入曲线 × 淡出曲线，两端都接近 0 时中间也接近 0，整段几乎没声音；(2) 听感是"刚渐入就开始渐出"，没有 sustain 阶段，等同于把整段做成"音量包络是钟形"——这不是淡入淡出，是音量调制；(3) 如果真有这个需求，应该用音量调整工具按时间画包络。边界场景：(1) 8s 音频 + 4s 淡入 + 4s 淡出 = 全程都在淡入或淡出，中间没有满音量段——技术上合法，但听起来像"音量起伏"；(2) 实际建议淡入 + 淡出 ≤ 时长的 50%，留至少一半给满音量；(3) 短素材（<3s）干脆不加淡入淡出，加了反而把全段都改了。

输出格式选 MP3 vs WAV，淡入淡出效果会有差别吗？

效果一致，但会有 generation loss 差异。淡入淡出本身：发生在解码后的 PCM 层面，跟最终编码格式无关——所有格式输出的 envelope 形状完全相同。重新编码的损失：(1) MP3 / AAC / M4A 是有损编码，即便只做 fade 也要重新编码一次，相当于第二代编码（generation loss），高频会损失一点；(2) WAV / FLAC 是无损，重新编码无损失，跟原始 PCM 比特完全一致（除了 fade 本身改的样本）；(3) 多次反复处理（fade → 变速 → 合并 …）的话，每一步都是一代 MP3，叠加 3–4 代后能听出闷感。实务：(1) 单次处理后直接用：MP3 192k 够用；(2) 还要继续编辑（剪辑 / 混音）：先导 WAV，编辑完最后一步再压 MP3；(3) 母带 / 存档：始终 FLAC 或 WAV；(4) 不要把 96k MP3 渲染成 320k MP3——前者已经丢失的信息后者也找不回来，只是文件变大。

视频 BGM 上传到抖音 / B站，还需要自己加淡入淡出吗？

平台不会自动加，需要自己处理。常见误解：以为"上传后平台会处理音轨"——实际上平台只做转码（码率 / 格式适配），不动音量包络。典型场景：(1) 视频结尾突然黑屏 + 音乐瞬断——观众感觉"是不是网络断了"；(2) 片头音乐突然爆出——容易把观众吓退；(3) 多段素材拼接，每段开头都有微小 click。推荐配置：(1) 短视频（15–60s）：开头 0.3–0.5s 淡入、结尾 0.5–1s 淡出——足够柔和又不浪费篇幅；(2) 长视频片头：1–2s 淡入；(3) 长视频片尾：2–3s 淡出，配合画面淡黑；(4) 配音 / 解说：50ms 防爆音即可，不要让观众感觉"主播声音飘起来"。反面案例：教程类视频片尾用 10s 淡出——观众早就关掉了，浪费的全是观看时长。例外：(1) BGM 切换段间用"硬切"反而有节奏感，刻意不加淡入淡出；(2) 鼓点开头的音乐加淡入会破坏鼓点冲击力——保留原始攻击瞬态。

铃声 / 短提示音也要加淡入淡出吗？

只加最小化（10–30ms）防爆音，不要加感知得到的过渡。原因：(1) 铃声 / 通知音的核心是让人立刻注意到，任何感知得到的淡入都会延迟感知时间；(2) iOS / Android 的系统提示音几乎全部使用瞬态强攻击（鼓点、铃铛），完全不淡入；(3) 但结尾 50–100ms 淡出仍然推荐——避免循环铃声末尾 click。具体场景：(1) 来电铃声：开头 0ms、结尾 50ms；(2) 通知音：开头 0ms、结尾 30ms；(3) 闹铃：开头 0ms、结尾 100ms——避免醒不来的人按掉时听到 click；(4) 游戏音效（爆炸、技能释放）：开头 0ms、结尾保留 50ms。反例：(1) 听过有人给闹铃加 3s 淡入想"温柔唤醒"，实际效果是浅睡眠醒不来、深睡眠仍然听不到，只在"刚好睡浅"那 30 秒醒——失败率反而更高；(2) "温柔闹铃"应该用低频温暖的音色 + 渐强的旋律段落（音乐设计），而不是物理淡入。

ffmpeg afade 还有 exp、log、qsin 这些曲线，本工具支持选吗？

本工具只用默认 tri（线性），未暴露曲线选项——是有意取舍。afade 支持的曲线（共 17 种）：tri（默认，线性）、qsin（四分之一正弦）、esin（指数正弦）、hsin（半正弦）、log（对数）、ipar（逆抛物线）、qua（二次方）、cub（三次方）、squ（平方根）、cbr（立方根）、par（抛物线）、exp（指数）、iqsin、ihsin、dese（双指数啄出）、desi（双指数啄入）、losi（逻辑斯蒂 sigmoid）、nofade（不淡化）。听感差异：(1) tri：前轻后重，最不"自然"，但实现简单、CPU 最快；(2) qsin / hsin：S 形对称，听感最接近"自然"，专业混音首选；(3) log / exp：对数 / 指数，强调初始或末段；(4) losi：sigmoid，超慢起 + 超慢收，氛围音用。为什么本工具不开放：(1) 90% 用户分不清这些曲线的差异，给选项反而困惑；(2) 50ms 以下时长选什么曲线都听不出区别（主用途）；(3) 真正要选曲线的用户已经在用 DAW / Audacity / 命令行 ffmpeg。命令行示例：ffmpeg -i in.mp3 -af "afade=t=in:st=0:d=3:curve=qsin,afade=t=out:st=57:d=3:curve=qsin" out.mp3