Question 1

为什么 \u4E2D\u56FD 能得到「中国」，但 \u1F600 显示成一个奇怪字符加数字 0？

Accepted Answer

\uXXXX 是 UTF-16 代码单元，只能表示 BMP 内（U+0000-U+FFFF）的字符。😀（U+1F600）在星区，要么用 \u{1F600}（ES6 码点语法），要么拆成代理对 😀。本工具选「\uXXXX」格式会自动生成代理对，选「\u{X}」就是码点。

Question 2

HTML 实体 &#xXXXX; 和 &#NNN; 有什么区别？

Accepted Answer

只是十六进制 vs 十进制。&#x4E2D; 和 &#20013; 都代表「中」。HTML 两种都能识别，十六进制更易读（和 Unicode 码点标注一致），十进制历史更久、兼容性更好。任选一种都行。

Question 3

「智能识别」是什么？什么时候用？

Accepted Answer

当一段字符串里混合了多种转义格式（比如日志里同时出现 中 和 &#x56FD; 和 U+1F600），选「智能识别」一键全部解码。它能识别 \uXXXX / \u{X} / &#xX; / &#N; / U+X / %uXXXX 六种。但它只做解码，不能编码——编码必须先明确目标格式。

Question 4

UTF-8 hex 和 UTF-16 hex 的字节序怎么处理？

Accepted Answer

UTF-8 本身无字节序问题（单字节流）。UTF-16 本工具默认输出大端（BE），每个 code unit 两字节按高位在前拼成 4 位十六进制。如需小端（LE），把每个 4 位字节对调即可（如 4E2D → 2D4E）。解码同理。

Question 5

NFC / NFD / NFKC / NFKD 四种规范化选哪个？

Accepted Answer

简单记：存储对比用 NFC（合成形式，é = 单码点 U+00E9，更紧凑），iOS/macOS 文件系统默认用 NFD（分解形式，é = U+0065 + U+0301）。带 K 的（KC/KD）会做「兼容分解」，把全角数字、上下标、连字（ﬁ→fi）等视觉等效字符归一化，适合搜索或比对，不适合保留原貌。多数场景选 NFC。

Question 6

「去零宽」会去掉哪些字符？

Accepted Answer

零宽字符家族：ZWSP (U+200B)、ZWNJ (U+200C)、ZWJ (U+200D)、LRM/RLM (U+200E/F)、Word Joiner (U+2060)、数学不可见 (U+2061-2064)、BOM (U+FEFF)、SOFT HYPHEN (U+00AD)、MONGOLIAN VS (U+180E)。这些字符看不见但占字节，常见于从网页/IM 复制粘贴，会让「看起来一样的字符串」字节级不相等，也可能被用来绕过关键词过滤。

Question 7

字符名称从哪里来？

Accepted Answer

来自 Unicode 16.0 官方数据（@unicode/unicode-16.0.0 包）。CJK 汉字、韩文音节、西夏文等按范围分组的命名（如 CJK UNIFIED IDEOGRAPH-4E2D）由程序算法直接生成，不占数据体积；其它 17 万个有独立名字的字符从官方表查。首次打开字符检视时会懒加载约 600KB 的数据，之后即时查询。

Question 8

输入的内容会上传服务器吗？

Accepted Answer

不会。所有编解码、字符检视、名称查询都在你的浏览器本地运行，不发任何网络请求（字符名称数据是页面资源的一部分，打开后就缓存在本地）。

格式	示例	场景
`\uXXXX`	`\u4E2D\u56FD`	JavaScript 字符串字面量、JSON
`\u{X}`	`\u{1F600}`	ES6 起的 JS 码点语法，星区字符更清晰
`&#xX;`	`中`	HTML 十六进制实体
`&#N;`	`中`	HTML 十进制实体
`U+X`	`U+4E2D`	Unicode 码点标准标注（文档、规范）
`%uXXXX`	`%u4E2D`	旧版 URL 转义，IE / 早期 JS
UTF-8 hex	`E4 B8 AD`	字节层面调试 / 协议报文
UTF-16 hex	`4E2D`	JS 内存布局 / 代理对排错

支持格式

核心能力

纯本地运行

📍使用场景

❓常见问题

支持格式

核心能力

纯本地运行

📍使用场景

❓常见问题

🔧相关工具

📚延伸阅读