Base64 编码大文件为什么会让浏览器卡死？

两个原因叠加。(1) 内存膨胀 × 3-4 倍：原文件 100MB → Base64 字符串 133MB → JS 字符串内部用 UTF-16 存储再翻倍 = 266MB → 整个编码过程中临时变量再 ×2 = 500MB+。10 倍于原文件的内存占用是常态。(2) 同步 API 阻塞主线程：FileReader.readAsDataURL 是异步的，但拿到结果后字符串拼接 / 处理时主线程阻塞——10MB 文件可能让浏览器卡 1-3 秒。修法：(1) 大文件不用 Base64，直接 ArrayBuffer 上传（multipart）；(2) 必须用就分片 + Web Worker；(3) 4MB 是 Base64 + Data URL 的实用上限，超过这个尺寸应换方案。

Data URL（data:image/png;base64,...）有大小限制吗？

有，但不在标准里写——浏览器和服务端各有限制。浏览器：(1) Chrome / Edge 理论支持 Data URL 长度无限，但 src 属性 / CSS background-image 实际超过 2MB 性能急剧下降；(2) Firefox 同；(3) iOS Safari 早期版本 Data URL 长度限制 100KB，新版放宽但仍建议 < 2MB。服务端：(1) 把 Data URL 作为 HTML 属性发送时，整个 HTML 受 URL 长度限制（Nginx 默认 8KB）；(2) 数据库存 LongText 字段最大 4GB 但每行查询效率低；(3) HTTP 头有限制（4-8KB）。实用上限：< 100KB 的小图标 / 缩略图用 Data URL 内联很方便，超过 100KB 走 URL + 单独请求更快。

Base64 不是加密，那为什么很多 API 用 Base64 传图？

Base64 不是为加密设计的，是为"二进制安全传输"设计的。HTTP / Email / JSON 这些协议设计时只支持文本（ASCII）——传二进制会被当成控制字符或换行错误解释。Base64 把任意二进制按 6 bit 一组转成 64 个可打印 ASCII 字符（A-Z a-z 0-9 + /），保证传输不破坏数据。常见用例：(1) JSON API 传二进制（图片、音频）；(2) Email 附件（MIME Base64）；(3) Data URL 内联资源；(4) JWT 的 header / payload 段；(5) HTTP Basic Auth 的 user:pass。代价：体积 +33%（4 字节 Base64 = 3 字节原数据，膨胀比 4/3 ≈ 1.33）。替代方案：现代 API 走 multipart/form-data 或直接 application/octet-stream，体积无膨胀。

Base64 vs multipart vs 直接二进制，怎么选？

按"协议是否文本""中间链路是否兼容"决定。(1) 必须文本协议（JSON API / SQL TEXT 字段 / 配置文件） → Base64，没得选；(2) HTTP 表单上传文件（ 100MB）→ application/octet-stream + chunked 或分片上传 + 断点续传；(4) 客户端到服务端二进制 RPC → gRPC / Protocol Buffers / MessagePack，体积比 JSON+Base64 小 3-5 倍且更快。结论：Base64 只在"必须用文本协议"的兼容场景，能避就避——multipart 和二进制协议永远更高效。

大文件 Base64 的真实代价：+33% 体积、内存爆炸、Data URL 限制

Q: Base64 不是加密，那为什么很多 API 用 Base64 传图？

Base64 不是为加密设计的，是为"二进制安全传输"设计的。HTTP / Email / JSON 这些协议设计时只支持文本（ASCII）——传二进制会被当成控制字符或换行错误解释。Base64 把任意二进制按 6 bit 一组转成 64 个可打印 ASCII 字符（A-Z a-z 0-9 + /），保证传输不破坏数据。常见用例：(1) JSON API 传二进制（图片、音频）；(2) Email 附件（MIME Base64）；(3) Data URL 内联资源；(4) JWT 的 header / payload 段；(5) HTTP Basic Auth 的 user:pass。代价：体积 +33%（4 字节 Base64 = 3 字节原数据，膨胀比 4/3 ≈ 1.33）。替代方案：现代 API 走 multipart/form-data 或直接 application/octet-stream，体积无膨胀。

Q: Base64 vs multipart vs 直接二进制，怎么选？

按"协议是否文本""中间链路是否兼容"决定。(1) 必须文本协议（JSON API / SQL TEXT 字段 / 配置文件） → Base64，没得选；(2) HTTP 表单上传文件（ 100MB）→ application/octet-stream + chunked 或分片上传 + 断点续传；(4) 客户端到服务端二进制 RPC → gRPC / Protocol Buffers / MessagePack，体积比 JSON+Base64 小 3-5 倍且更快。结论：Base64 只在"必须用文本协议"的兼容场景，能避就避——multipart 和二进制协议永远更高效。

Base64 是二进制 → 文本的标准编码——但它不是为大文件设计的。10MB 的文件 Base64 后膨胀到 13MB，浏览器编码过程吃 40MB+ 内存。理解 Base64 的边界、Data URL 的实用尺寸、可以替代的方案，能避开”上传大文件浏览器卡死""Data URL 太长加载慢”这些坑。

Base64 是什么 / 不是什么

是：一种把任意二进制数据编码成 ASCII 文本的方案。

不是：

不是加密——任何人能解码出原文
不是压缩——反而膨胀 33%
不是签名——不提供完整性验证

设计目的：让二进制数据安全通过文本协议（HTTP、SMTP、JSON）。

编码原理：6-bit 分组

Base64 把每 3 字节（24 bit）的输入分成 4 组 6 bit，每组 6 bit 映射到一个可打印字符：

原始 3 字节（24 bit）：M  a  n
                      01001101 01100001 01101110

按 6 bit 分组：       010011 010110 000101 101110

查表（A-Z=0-25, a-z=26-51, 0-9=52-61, +=62, /=63）：
                      19    22    5     46
                      T     W     F     u

输出：TWFu

字符集：

0-25 → A-Z
26-51 → a-z
52-61 → 0-9
62 → +
63 → /
末尾不足 3 字节用 = 填充

膨胀比：3 字节 → 4 字节，+33.3%。

变种：

URL-safe Base64：+ → -、/ → _，去掉 =，便于嵌 URL（JWT 用）
Base32 / Base16：6 bit 不够时用 5 bit / 4 bit 分组，字符集更小但膨胀更大

大文件的内存代价

文件 → Base64 看着简单一行代码，背后内存开销巨大：

// 看似简单
const reader = new FileReader();
reader.onload = (e) => {
  const dataUrl = e.target.result;  // 'data:image/png;base64,iVBORw0...'
};
reader.readAsDataURL(file);

实际内存峰值（10MB 原文件）：

阶段	内存占用
原 File	10MB
ArrayBuffer 拷贝	+10MB
Base64 字符串	+13MB
JS UTF-16 编码内部存储	×2 = +26MB
Data URL prefix（‘data:…,’）	+几 KB
临时变量、字符串拼接	+20MB
峰值	约 80MB

10MB 文件吃 80MB 内存——8 倍。

100MB 文件呢？

内存峰值约 800MB
桌面浏览器吃力但能扛
移动端浏览器（iOS Safari）通常崩溃

解决方案：

大文件不用 Base64，走 multipart 或 ArrayBuffer
必须用 → 分片 + Web Worker：

const CHUNK = 64 * 1024;  // 64KB 一片
async function fileToBase64(file) {
  const chunks = [];
  for (let off = 0; off < file.size; off += CHUNK) {
    const slice = file.slice(off, off + CHUNK);
    const buf = await slice.arrayBuffer();
    const b64 = btoa(String.fromCharCode(...new Uint8Array(buf)));
    chunks.push(b64);
  }
  return chunks.join('');
}

但这种分片拼接的 Base64 边界处理要小心——3 字节对齐才能拼接，不对齐会引入填充字符破坏中间。本工具实现是按 3 字节倍数分片避免这个问题。

Data URL 的实用尺寸

data: URL 是把二进制嵌入 URL 的方案：

data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAA...

理论上没有长度限制，实际上有多个层面的瓶颈：

浏览器层面

浏览器	软限制	硬限制
Chrome	≈2MB（性能开始下降）	无（理论无限）
Firefox	≈2MB	无
Safari (iOS)	≈100KB（旧版）/ 2MB（新版）	内存限制
Edge	≈2MB	无

超过软限制后：

src / background-image 解析变慢
DOM 操作卡顿
内存占用居高不下

HTML 层面

Data URL 嵌在 <img src="data:..."> 或 <style>background-image:url(data:...)</style> 中，整个 HTML 被服务端发送：

服务器 / CDN URL 长度限制（Nginx 8KB、Apache 8KB）
HTTP/2 头压缩对超长 URL 效果差
浏览器解析 HTML 时整段读入内存

数据库层面

Base64 存数据库的常见误用：

TEXT 字段最大 64KB（MySQL）→ 大文件存不下
LONGTEXT 4GB 上限 → 行查询慢、备份慢
直接用 BLOB 字段更合理（无 +33% 膨胀）

实用建议

文件大小	方案
< 4KB（小图标）	Data URL 内联（节省一次请求）
4-100KB	Data URL 可以用，但权衡
> 100KB	走单独 URL + 浏览器缓存
> 1MB	绝对走 URL，不要 Data URL

何时该用 Base64

场景	用 Base64？	备选
JSON API 传二进制	✓（必须）	多用一个 multipart 端点
HTML 表单文件上传	✗	multipart/form-data（浏览器原生）
Email 附件	✓（MIME 标准）	无
JWT 编码	✓（标准）	无
浏览器内嵌小图标	✓	单独 URL
数据库存图片	✗	文件系统 / 对象存储
客户端 → 服务端大文件	✗	multipart 或分片上传
WebSocket 传图	✗	binary frame

multipart/form-data：HTTP 上传的标准

浏览器原生表单上传走 multipart，无 Base64 膨胀：

<form enctype="multipart/form-data" method="POST">
  <input type="file" name="upload">
</form>

实际请求体：

------WebKitFormBoundary7MA4YWxkTrZu0gW
Content-Disposition: form-data; name="upload"; filename="photo.jpg"
Content-Type: image/jpeg

<原始二进制数据，无编码>
------WebKitFormBoundary7MA4YWxkTrZu0gW--

JS 代码：

const form = new FormData();
form.append('upload', file);  // file 是 File / Blob 对象
fetch('/upload', { method: 'POST', body: form });

优点：

无 +33% 膨胀
浏览器原生支持
服务端框架（Express、Spring、Django）都有现成解析器
支持多文件 + 表单字段混合

缺点：

不能直接放进 JSON 体（需要单独端点）
调试时 binary 不易读

现代二进制传输：gRPC / Protobuf / MessagePack

如果系统设计可控，二进制协议更高效：

协议	体积（vs JSON+Base64）	速度	适用
JSON + Base64	100%（基线）	慢	公网 API、需要可读性
MessagePack	60-80%	中	内部 API、Redis 序列化
Protocol Buffers	30-50%	快	gRPC、内部 RPC
FlatBuffers	30-50%	极快（零拷贝）	游戏、嵌入式
CBOR	50-70%	中	IoT、CoAP

实务建议：

公网 API、需要可调试 → JSON（不放二进制）+ 单独 multipart 上传文件
内部微服务 RPC → gRPC + Protobuf
实时消息（聊天 / 推送） → MessagePack 或 Protobuf

几个 Base64 的常见坑

1. 中文字符串 Base64 失败

btoa('中文');  // ❌ InvalidCharacterError

btoa 只接受 Latin-1 字符（ASCII + 扩展 ASCII）。要先转 UTF-8：

const utf8 = new TextEncoder().encode('中文');
const b64 = btoa(String.fromCharCode(...utf8));
// 或
const b64 = btoa(unescape(encodeURIComponent('中文')));  // 老 trick

2. URL-safe Base64 与标准 Base64 混淆

标准 Base64： SGVsbG8sIHdvcmxkIQ==
URL-safe：    SGVsbG8sIHdvcmxkIQ

URL-safe 把 + / = 替换成 - _ 去掉填充。两者不能混用——服务端必须知道用哪个变种。

3. 行宽换行

MIME 标准 Base64 每 76 字符换一行。HTTP / JSON 使用时不应换行，否则解析失败。检查时去掉换行：

const cleanBase64 = base64.replace(/[\r\n]/g, '');

4. Padding = 的处理

末尾的 = 是填充——0、1 或 2 个。少数实现要求严格匹配（多余 = 报错），少数实现宽容。最稳的做法：服务端两边都按标准（不省略 padding）。

一句话总结

Base64 不是大文件方案——4MB 是软上限、+33% 体积、内存峰值 ×8；HTTP 上传走 multipart、内部 RPC 走 Protobuf、JSON 必须传二进制时才用 Base64；Data URL < 100KB 才划算。