视频压缩 / 提取音频 / 音频剪辑 / 格式转换 / 合并分割 / 音量标准化 / 变速 / 淡入淡出 / 字幕
这一组工具覆盖音频与视频的常见处理需求:视频压缩、视频提取音频、音频剪辑/合并/分割、音频格式转换、音量调整、变速、淡入淡出、字幕格式转换。
本地处理:所有工具在浏览器内完成。视频/音频字节不离开你的设备——音频/视频用 ffmpeg.wasm(FFmpeg 的 WebAssembly 移植版)解码-编码,编解码核心约 32MB(首次下载后浏览器自动缓存)。这对个人录音、课程素材、播客原始素材、未发布视频尤其重要。
性能预期:1080p 30fps 30 分钟以内的视频在 8GB 内存设备上稳定处理;超长或 4K 视频建议分段处理,或先用桌面 ffmpeg 预压一遍。音频文件体积小,几乎不会触发性能瓶颈。
格式速查:视频统一选 MP4(H.264/AAC)兼容性最好;音频日常听用 MP3 或 AAC,要二次剪辑用 WAV,长期归档用 FLAC。不知道选什么就转 MP4 / MP3。
最稳的视频输入是 MP4 / MOV / WebM——浏览器原生 <video> 元素能直接读元数据。MKV / AVI / FLV / WMV 等老格式即使扩展名对,也常因为浏览器读不出元数据而失败,工具会在 8 秒内识别失败并提示,不会卡死。若必须处理这些格式,先用 HandBrake、剪映等桌面工具转成 MP4 再来。视频压缩 输出统一为 MP4(H.264/AAC),兼容所有浏览器、手机、剪辑软件和社交平台。音频侧 MP3 / WAV / AAC / M4A / FLAC / OGG 都直读。
全部本地。音频/视频工具用 ffmpeg.wasm(FFmpeg 的 WebAssembly 移植版)在浏览器沙箱里直接解码-编码,编解码核心约 32MB,首次使用下载一次后浏览器自动缓存,同会话不重复下载,关掉再打开通常也命中缓存。所有处理在本地 CPU 跑,字节不上传服务器。代价是处理时占 CPU,500MB+ 大文件可能让风扇高转、电池快放,建议接电源处理。
只想要更小的视频文件 → 视频压缩,调码率/分辨率/帧率,输出还是视频(MP4),可保留或移除音轨。只要声音、不要画面(课程录音、播客、留 BGM、做铃声)→ 视频提取音频,输出 MP3 / WAV / AAC 纯音频文件,体积是视频的 1/10–1/20,还能指定时间段截取。两者都用 ffmpeg.wasm,处理速度看视频时长和电脑性能。
按目的选。日常听、要小体积 → MP3(128–192kbps 够听,所有设备兼容)或 AAC / M4A(同码率比 MP3 略好,iOS/苹果生态原生)。要保留二次剪辑、混音 → WAV(无损 PCM,体积大但任何 DAW 都能精确切)。要长期归档、追求无损但又比 WAV 省空间 → FLAC(无损压缩,约 WAV 一半体积)。详见 音频格式怎么选。
Peak(峰值) 看的是瞬间最大幅度,防止"爆音"(削波)必看;RMS(均方根) 是一段时间内的平均能量,反映"听感响度";LUFS(响度单位) 是带 K 权重滤波后的综合响度,所有现代流媒体平台用这个做响度标准化。普通用途调音量看 Peak(不爆即可);要发 YouTube / Spotify / 播客平台一定要看 LUFS——音量调整 内置 LUFS 标准化目标值(-14 / -16 / -23 LUFS)一键达标。
同格式同参数才能无损——concat demuxer 直接拼接码流不需要重编码(毫秒级完成、零质量损失)。只要源文件之间采样率、声道数、码率、编码器版本任一不同,就必须走 filter_complex 重编码,会有一次有损过程。本站 音频合并 会自动检测:参数一致直接 concat;不一致先统一到目标参数再 concat,并明确提示一次。
字幕在不同播放器/平台的容器要求不同:本地播放器、社交视频用 SRT(最通用、纯文本);做特效字幕(弹幕底色、字体特效、卡拉 OK 染色)必须 ASS;网页 <video> 嵌入用 VTT(HTML5 原生支持);歌词同步用 LRC(音乐播放器专用)。字幕格式转换 互转并自动修复 GBK / Big5 乱码、清样式标签。
图片相关(压缩、格式转换、抠图、水印、九宫格、证件照、二维码)见 图片分类——图片用 Canvas / jSquash / AI 抠图,和音频/视频的 ffmpeg.wasm 是两套技术栈。