⭐ 觉得好用？收藏备用，下次直接打开

🎙️

从视频抽音频做铃声/播客/转录

Q: MP4 抽音频应该选哪个格式输出？

默认选 M4A / AAC——视频里 90% 已经是 AAC，输出 M4A 走流复制零损耗、秒完成。只在这些情况换：(1) 接收方设备老（如老款 Android、车载、MP3 播放器），换 MP3 192kbps；(2) 后续要二次剪辑/混音，换 WAV 无损（最大兼容剪辑软件）；(3) 喂给 AI 做转录（Whisper、PaddleSpeech），WAV / FLAC 准确率最高。

Q: 抽出来的音频只有左/右单声道怎么办？

有些视频音轨是单声道（路演、单麦讲座），抽出来就只有一边声道——播放时左/右耳一只无声。解法：用 音频格式转换 选"输出立体声"，工具会把单声道复制到两个声道，听感和原始一致但不会单耳无声。不要追求"立体声化"——单声道转立体声只是复制，没有真的空间感，那需要专门的立体声扩展滤镜。

Q: 抽完音频时长和视频不一样怎么办？

几乎不会发生。除非你指定了时间段截取——这时输出的就是片段时长。如果你抽全段但时长对不上，常见原因：(1) 视频末尾有几秒黑屏/静音没被识别（差 5 秒检查是不是时间段输错了。

Q: 视频里有多个音轨（多语言/多人）怎么选？

多音轨 MP4（电影、配音版视频、多语言会议录像）抽音频默认抽第一个音轨（通常是主语言/中文）。本站工具暂不支持选择音轨——如果你要的不是第一轨，先用 VLC 或剪映打开看哪个轨道是要的、用 mkvtoolnix 调整顺序后再抽。临时变通：抽不同时间段（如果不同时间用不同语言），或用桌面 ffmpeg -map 0:a:1 指定轨道。

Q: 抽音频后做 AI 转文字应该用什么格式？

WAV 16kHz 单声道是 ASR 模型的"标准饲料"——Whisper、PaddleSpeech 等都按这个采样率训练，提交其他格式会被内部转换一次（多一步处理 + 可能引入伪影）。操作：视频提取音频 输出 WAV → 音频格式转换 重采样到 16kHz 单声道 → 喂给 AI。如果工具自动接受 MP3/M4A 输入也行（多数 ASR 服务内置转换），但精度通常比直接给 WAV 略低。

抽音轨 → 剪片段 → 调音量 → 转格式：让视频里的声音变成可用的音频文件

📅 发布于 2026-05-16

视频抽音频不是单步——抽出来要剪要调要转格式，每一步都要选对工具和参数。这条 pipeline 把”视频 → 可用音频”拆成 4 步，给出顺序的理由、平台规格、踩坑。

核心方法：先抽轨（尽量流复制不重编码）→ 再剪辑（消除非内容部分）→ 调音量（做平台要走 LUFS）→ 最后转格式（适配目标设备）。

本地处理：所有工具都用 ffmpeg.wasm 在浏览器跑——视频/音频字节不离开设备。1 小时视频抽 M4A 音轨通常 < 5 秒（流复制）；剪辑、调音量、转格式视长度可能数十秒到几分钟。

🛠 工具链（4 步）

1 🎙️ 视频提取音频

把视频里的音轨整段抽出来。指定时间段（如 12:30–18:45）只取需要的片段，输出 **MP3 / WAV / AAC**——日常听用 MP3 128–192kbps；要二次剪辑用 WAV 无损；iOS 设备/苹果生态用 AAC/M4A。

💡 若视频原音轨已经是 AAC（90% MP4 视频都是），输出 AAC/M4A **不会再编码一次**（流复制 stream copy），毫秒级完成、零质量损失。要 MP3 / WAV 就一定要重编码。详见 [视频抽音频的容器与编码](/tutorials/video-extract-audio-codec-vs-container-and-reencode/)。
2 ✂️ 音频剪辑可选

抽出来的音频还要精剪（如开头噪音、结尾环境音、嘉宾打喷嚏要剪掉）——用 [音频剪辑](/tools/audio-trim/) 拖时间轴精确到毫秒切片。

💡 切割点选在**静音/弱声段**，不要切在响亮的辅音或元音中——切口会有 click 杂音。剪辑工具有"切口淡入淡出 5ms"选项默认开启，能消除大部分 click。
3 🔊 音量调整可选

调整最终响度。做铃声 → 把高峰拉到 -3dB 防爆；做播客素材 → LUFS 标准化到 -16 LUFS（Apple Podcasts / Spotify 推荐）；日常听 → 保留原响度，不动。

💡 用 LUFS 标准化（不是 Peak / RMS）才能匹配平台要求。详见 [Peak/RMS/LUFS 区别](/tutorials/audio-volume-peak-rms-lufs-and-platforms/)。
4 🔄 音频格式转换可选

如果中间用了 WAV 处理，最后转回 MP3 / AAC 减体积。或 MP3 转 M4A（iOS 铃声专用格式）。

💡 做 iOS 铃声必须输出 M4A 且时长 ≤ 30 秒，文件改后缀 .m4r 才能识别。AAC 192kbps 对铃声/人声足够好。

👤 适合谁用

课程录像 只想留音频（路上听、不占带宽）
视频里的 BGM 想单独保存做素材库
播客嘉宾 用视频会议录的内容要发布到音频平台
Vlog 中段台词 想做成铃声 / 短音频分享
讲座录像 转音频再用 AI 转录文字
会议视频 只要语音不要画面，归档省空间
视频教程 抽音频喂给 AI 做笔记

⚠️ 顺序与踩坑

视频音轨格式 ≠ 输出格式

绝大多数 MP4 视频内部音轨已经是 AAC（H.264 + AAC 是 MP4 标准组合）。直接选输出 AAC/M4A 走 ffmpeg 的 stream copy（流复制），不重编码、不损质量、瞬间完成。如果选 MP3 输出，必须重编码（AAC → PCM → MP3），有一次有损过程。追求质量用 M4A；追求兼容用 MP3（所有设备/平台都能放）；做后期素材用 WAV。

抽完音频还要剪掉非内容部分

视频里常含开头片头 BGM、结尾推广、嘉宾打断、技术故障——直接抽出来当播客素材听感很糟。正确流程：先抽全段 → 再用音频剪辑切到只剩核心内容 → 最后调音量。如果同一视频要分多段输出（如把 1 小时讲座切成 5 个主题），用音频分割按时间点一次输出 ZIP。

做 iOS 铃声有严格限制

iPhone 铃声格式 = M4A + ≤ 30 秒 + 文件后缀 .m4r。三个条件缺一不可：(1) 必须 M4A 容器（不能是 MP3、不能是 WAV）——用音频格式转换转 M4A；(2) 时长严格 ≤ 30 秒（Apple 限制）；(3) 文件下载后把扩展名从 .m4a 改 .m4r（M4A audio → M4A ringtone）。然后通过 Finder（macOS Catalina 后）拖到 iPhone 的"铃声"区即可。

播客平台要 LUFS 标准化

直接发抽出来的"原响度音频"到 Apple Podcasts / Spotify，播放时听感时大时小——因为不同设备会按各自标准做响度匹配，源文件响度不一致就会被算法调亮调暗。专业做法：音量调整选 LUFS 标准化目标 -16 LUFS（Apple/Spotify 播客推荐），输出后所有平台听感统一。普通分享给朋友/微信不需要这步——但要发公开平台必走。

长视频抽音频很快但剪辑慢

抽音轨几乎是瞬时（GB 级视频 stream copy 也就 1–2 秒），剪辑/调音量/转格式都需要重编码会花更长时间。性能预期：1 小时课程视频抽 AAC 音轨 < 5 秒；同样长度的音频剪辑成 5 段，每段重编码可能 30–60 秒。先抽再剪是正确顺序——不要让视频 → 音频 → 剪辑都走视频解码（用视频压缩直接做这条链路会慢 10 倍以上）。

同一段录音存成 MP3 1MB、WAV 10MB、FLAC 5MB——选错格式可能要么爆体积、要么破音质，要么播放器打不开；这篇讲清五种格式的设计目标、码率上限、容器与编码的差异、有损链式转码的累积失真

2026-05-07

音频剪辑：精确裁切的帧对齐、起点 click 和淡入淡出衔接

把一段录音的开头结尾杂音剪掉，看似简单——但 MP3 / AAC 是帧编码，切点不一定能精确到样本，起点没做淡入会有 click 声；这篇讲清流复制 vs 重编码的精度差异、为什么裁完开头会"啪"一声、什么时候配合淡入淡出工具、和"分割"工具的区别

2026-05-07

音量调整不是简单"放大"：Peak / RMS / LUFS 和平台响度标准

同一段音频在不同平台听起来一边响一边闷，是因为现代流媒体都按 LUFS 自动归一化；这篇讲清峰值 / RMS / LUFS 三个度量、播客 −16 / Spotify −14 / 广播 −23 的来历、放大 6dB 是几倍能量、什么时候要开限幅器

2026-05-07

从视频里抽音频：容器与编码的差异、流复制 vs 重编码

MP4 视频里"抽音频"看似简单，但选 MP3 还是 M4A、要不要无损、为什么有时候输出文件比预期大——这些都和"容器与编码的关系"有关；这篇讲清流复制（copy）和重编码（re-encode）的取舍、各容器的音轨格式、什么时候选哪个

2026-05-07

❓ 常见问题

MP4 抽音频应该选哪个格式输出？

默认选 M4A / AAC——视频里 90% 已经是 AAC，输出 M4A 走流复制零损耗、秒完成。只在这些情况换：(1) 接收方设备老（如老款 Android、车载、MP3 播放器），换 MP3 192kbps；(2) 后续要二次剪辑/混音，换 WAV 无损（最大兼容剪辑软件）；(3) 喂给 AI 做转录（Whisper、PaddleSpeech），WAV / FLAC 准确率最高。

抽出来的音频只有左/右单声道怎么办？

有些视频音轨是单声道（路演、单麦讲座），抽出来就只有一边声道——播放时左/右耳一只无声。解法：用音频格式转换选"输出立体声"，工具会把单声道复制到两个声道，听感和原始一致但不会单耳无声。不要追求"立体声化"——单声道转立体声只是复制，没有真的空间感，那需要专门的立体声扩展滤镜。

抽完音频时长和视频不一样怎么办？

几乎不会发生。除非你指定了时间段截取——这时输出的就是片段时长。如果你抽全段但时长对不上，常见原因：(1) 视频末尾有几秒黑屏/静音没被识别（差 < 2 秒可忽略）；(2) 视频是 VFR（可变帧率）+ 音频是 CFR（恒定帧率），ffmpeg 处理可能略有差异。实操：差 < 1 秒不用管；差 > 5 秒检查是不是时间段输错了。

视频里有多个音轨（多语言/多人）怎么选？

多音轨 MP4（电影、配音版视频、多语言会议录像）抽音频默认抽第一个音轨（通常是主语言/中文）。本站工具暂不支持选择音轨——如果你要的不是第一轨，先用 VLC 或剪映打开看哪个轨道是要的、用 mkvtoolnix 调整顺序后再抽。临时变通：抽不同时间段（如果不同时间用不同语言），或用桌面 ffmpeg -map 0:a:1 指定轨道。

抽音频后做 AI 转文字应该用什么格式？

WAV 16kHz 单声道是 ASR 模型的"标准饲料"——Whisper、PaddleSpeech 等都按这个采样率训练，提交其他格式会被内部转换一次（多一步处理 + 可能引入伪影）。操作：视频提取音频输出 WAV → 音频格式转换重采样到 16kHz 单声道 → 喂给 AI。如果工具自动接受 MP3/M4A 输入也行（多数 ASR 服务内置转换），但精度通常比直接给 WAV 略低。

🛠 工具链（4 步）

👤 适合谁用

⚠️ 顺序与踩坑

📚 相关教程精选

❓ 常见问题