Unicode 编解码 + 字符检视:在 8 种常用转义格式间互转,并对任一字符实时展示码点、字节、分类、Script 与官方名称。
| 格式 | 示例 | 场景 |
|---|---|---|
\uXXXX | \u4E2D\u56FD | JavaScript 字符串字面量、JSON |
\u{X} | \u{1F600} | ES6 起的 JS 码点语法,星区字符更清晰 |
&#xX; | 中 | HTML 十六进制实体 |
&#N; | 中 | HTML 十进制实体 |
U+X | U+4E2D | Unicode 码点标准标注(文档、规范) |
%uXXXX | %u4E2D | 旧版 URL 转义,IE / 早期 JS |
| UTF-8 hex | E4 B8 AD | 字节层面调试 / 协议报文 |
| UTF-16 hex | 4E2D | JS 内存布局 / 代理对排错 |
U+XXXX · UTF-8 字节 · UTF-16 单元 · 分类 · Script · 所属块 · 官方名称所有解析、转义、规范化在浏览器内完成,输入文本不上传任何服务器,也不记录到日志。粘贴敏感字符串(密码、token、内部接口)安全。
\u4E2D\u56FD 能得到「中国」,但 \u1F600 显示成一个奇怪字符加数字 0?\uXXXX 是 UTF-16 代码单元,只能表示 BMP 内(U+0000-U+FFFF)的字符。😀(U+1F600)在星区,要么用 \u{1F600}(ES6 码点语法),要么拆成代理对 😀。本工具选「\uXXXX」格式会自动生成代理对,选「\u{X}」就是码点。
&#xXXXX; 和 &#NNN; 有什么区别?只是十六进制 vs 十进制。中 和 中 都代表「中」。HTML 两种都能识别,十六进制更易读(和 Unicode 码点标注一致),十进制历史更久、兼容性更好。任选一种都行。
当一段字符串里混合了多种转义格式(比如日志里同时出现 中 和 国 和 U+1F600),选「智能识别」一键全部解码。它能识别 \uXXXX / \u{X} / &#xX; / &#N; / U+X / %uXXXX 六种。但它只做解码,不能编码——编码必须先明确目标格式。
UTF-8 本身无字节序问题(单字节流)。UTF-16 本工具默认输出大端(BE),每个 code unit 两字节按高位在前拼成 4 位十六进制。如需小端(LE),把每个 4 位字节对调即可(如 4E2D → 2D4E)。解码同理。
简单记:存储对比用 NFC(合成形式,é = 单码点 U+00E9,更紧凑),iOS/macOS 文件系统默认用 NFD(分解形式,é = U+0065 + U+0301)。带 K 的(KC/KD)会做「兼容分解」,把全角数字、上下标、连字(fi→fi)等视觉等效字符归一化,适合搜索或比对,不适合保留原貌。多数场景选 NFC。
零宽字符家族:ZWSP (U+200B)、ZWNJ (U+200C)、ZWJ (U+200D)、LRM/RLM (U+200E/F)、Word Joiner (U+2060)、数学不可见 (U+2061-2064)、BOM (U+FEFF)、SOFT HYPHEN (U+00AD)、MONGOLIAN VS (U+180E)。这些字符看不见但占字节,常见于从网页/IM 复制粘贴,会让「看起来一样的字符串」字节级不相等,也可能被用来绕过关键词过滤。
来自 Unicode 16.0 官方数据(@unicode/unicode-16.0.0 包)。CJK 汉字、韩文音节、西夏文等按范围分组的命名(如 CJK UNIFIED IDEOGRAPH-4E2D)由程序算法直接生成,不占数据体积;其它 17 万个有独立名字的字符从官方表查。首次打开字符检视时会懒加载约 600KB 的数据,之后即时查询。
不会。所有编解码、字符检视、名称查询都在你的浏览器本地运行,不发任何网络请求(字符名称数据是页面资源的一部分,打开后就缓存在本地)。