⭐ 觉得好用?收藏备用,下次直接打开
🎬

音频/视频处理工作流指南

按真实场景找工具组合,4 大高频音频/视频处理 pipeline 的串联指南

📅 发布于

音频/视频处理常常不是单工具能搞定的事——视频要发到平台要压、想留课程录音得抽轨再剪、做播客要拼接 + LUFS 标准化、字幕上传 YouTube 要换格式和编码。正确的工具顺序、参数选择、踩坑规避比工具本身更重要。

下面 4 条 pipeline 覆盖了音频/视频处理的最高频场景——每条都按真实工作流串联多个工具,给出顺序的理由、常见踩坑和邻近场景的边界。

怎么选 pipeline:先问目标——发到平台(YouTube / B站 / 抖音 / 微信)、要把视频转成可用音频(铃声 / 播客素材 / 转录饲料)、做播客后期、做字幕上传适配;再看素材现状——单段还是多段、原始码率分辨率多少、源编码格式。两个问题回答完,对应的 pipeline 也就定了。

本地处理:所有音频/视频工具用 ffmpeg.wasm 在浏览器跑——FFmpeg 的 WebAssembly 移植版,编解码核心约 32MB(首次下载后浏览器自动缓存)。视频/音频字节不上传服务器,处理全程在本地 CPU 完成。这对个人录音、未发布素材、敏感会议录音尤其重要。

性能预期:1080p 30fps 30 分钟以内的视频在 8GB 内存设备上稳定;超长或 4K 视频建议分段处理或先用桌面 ffmpeg 预压一遍。音频文件体积小,几乎不会触发性能瓶颈。

格式速查:视频统一选 MP4(H.264/AAC),所有播放器、剪辑软件、社交平台都直读;音频日常听用 MP3AAC,要二次剪辑用 WAV,长期归档用 FLAC

图片处理有另外一组工作流——压缩到能发邮件、上网前清 EXIF证件照换底色、社交媒体出图——请看 图片处理工作流指南

🔀 4 大高频工作流

找不到合适的 pipeline?回 音频/视频分类 直接挑工具用。

❓ 常见问题

音频/视频工具支持哪些格式?为什么我的 MKV 打不开?

最稳的输入是 MP4 / MOV / WebM——浏览器原生 <video> 元素能直接读元数据。MKV / AVI / FLV / WMV 等老格式即使扩展名对,也常因为浏览器读不出元数据而失败,工具会在 8 秒内识别失败并提示,不会卡死。若必须处理这些格式,先用 HandBrake、剪映等桌面工具转成 MP4 再来。视频压缩 输出统一为 MP4(H.264/AAC),兼容所有浏览器、手机、剪辑软件和社交平台。音频侧 MP3/WAV/AAC/M4A/FLAC/OGG 都直读。

音频/视频处理也是本地的吗?为什么首次要下载 ~32MB?

全部本地。音频/视频工具用 ffmpeg.wasm(FFmpeg 的 WebAssembly 移植版)在浏览器沙箱里直接解码-编码,编解码核心约 32MB,首次使用下载一次后浏览器自动缓存,同会话不重复下载,关掉再打开通常也命中缓存。所有处理在本地 CPU 跑,字节不上传服务器。代价是处理时占 CPU,500MB+ 大文件可能让风扇高转、电池快放,建议接电源处理。

视频压缩 vs 视频提取音频 怎么选?

只想要更小的视频文件视频压缩,调码率/分辨率/帧率,输出还是视频(MP4),可保留或移除音轨。只要声音、不要画面(课程录音、播客、留 BGM、做铃声)→ 视频提取音频,输出 MP3/WAV/AAC 纯音频文件,体积是视频的 1/10–1/20,还能指定时间段截取。两者都用 ffmpeg.wasm,处理速度看视频时长和电脑性能。

MP3 / WAV / AAC / M4A / FLAC 怎么选?

按目的选。日常听、要小体积 → MP3(128–192kbps 够听,所有设备兼容)或 AAC/M4A(同码率比 MP3 略好,iOS/苹果生态原生)。要保留二次剪辑、混音 → WAV(无损 PCM,体积大但任何 DAW 都能精确切)。要长期归档、追求无损但又比 WAV 省空间 → FLAC(无损压缩,约 WAV 一半体积)。详见 音频格式怎么选

音量调整为什么有 Peak / RMS / LUFS 三种?该用哪个?

Peak(峰值) 看的是瞬间最大幅度,防止"爆音"(削波)必看;RMS(均方根) 是一段时间内的平均能量,反映"听感响度";LUFS(响度单位) 是带 K 权重滤波后的 LUFS-I 综合响度,所有现代流媒体平台用这个做响度标准化。普通用途调音量看 Peak(不爆即可);要发 YouTube/Spotify/播客平台一定要看 LUFS——音量调整 内置 LUFS 标准化目标值(-14/-16/-23 LUFS)一键达标。

音频合并/分割能"无损"吗?为什么有时还是重编码了?

同格式同参数才能无损——concat demuxer 直接拼接码流不需要重编码(毫秒级完成、零质量损失)。只要源文件之间采样率、声道数、码率、编码器版本任一不同,就必须走 filter_complex 重编码,会有一次有损过程(即使设无损也会重新走一次编码器)。本站 音频合并 会自动检测:参数一致直接 concat;不一致先统一到目标参数再 concat,并明确提示一次。详见 音频合并 concat vs filter

视频/音频太大,浏览器会爆内存吗?

ffmpeg.wasm 用流式处理,1GB 内的视频在 8GB 内存设备上通常稳。极限情况下浏览器会拒绝分配内存并报 OOM,不会让系统挂——刷新页面即可。建议:1080p 30fps 30 分钟内的视频随便处理;4K 或 60fps 或 1 小时以上,分段处理或先用桌面 ffmpeg 预压缩到 1080p 再来。音频文件因为体积小很多,几乎不会触发限制。

字幕格式转换是什么场景?SRT / ASS / VTT / LRC 区别?

字幕在不同播放器/平台的容器要求不同:本地播放器、社交视频用 SRT(最通用、纯文本);做特效字幕(弹幕底色、字体特效、卡拉 OK 染色)必须 ASS;网页 <video> 嵌入用 VTT(HTML5 原生支持);歌词同步用 LRC(音乐播放器专用)。字幕格式转换 互转并自动修复 GBK/Big5 乱码、清样式标签。详见 字幕格式全解