⭐ 觉得好用?收藏备用,下次直接打开
格式
文本
转义
规范化 清洗
字符检视
光标所在位置(单击或方向键移动)
码点 十进制
UTF-8 UTF-16
分类 Script
所属块
名称
在上方输入文本,点击任意字符查看详情

Unicode 编解码 + 字符检视:在 8 种常用转义格式间互转,并对任一字符实时展示码点、字节、分类、Script 与官方名称。

支持格式

格式示例场景
\uXXXX\u4E2D\u56FDJavaScript 字符串字面量、JSON
\u{X}\u{1F600}ES6 起的 JS 码点语法,星区字符更清晰
&#xX;中HTML 十六进制实体
&#N;中HTML 十进制实体
U+XU+4E2DUnicode 码点标准标注(文档、规范)
%uXXXX%u4E2D旧版 URL 转义,IE / 早期 JS
UTF-8 hexE4 B8 AD字节层面调试 / 协议报文
UTF-16 hex4E2DJS 内存布局 / 代理对排错

核心能力

  • 互转:任选格式,文本 ↔ 转义串双向实时转换
  • 智能识别:一段字符串里混用多种格式也能一键解码
  • 字符检视:光标落在哪个字符,立刻显示 U+XXXX · UTF-8 字节 · UTF-16 单元 · 分类 · Script · 所属块 · 官方名称
  • 规范化:NFC / NFD / NFKC / NFKD,解决「看起来一样但字符串不等」
  • 清洗:一键去零宽、去变体选择符、半 ↔ 全角互换

纯本地运行

所有解析、转义、规范化在浏览器内完成,输入文本不上传任何服务器,也不记录到日志。粘贴敏感字符串(密码、token、内部接口)安全。

📍使用场景

  • 程序里写特殊字符把 emoji、中文、特殊符号转成 `中` / `\u{1F600}` / `中` 等转义串,贴进 JS / JSON / HTML / CSS 源码,避免编码或乱码问题。
  • 排查乱码 / 不可见字符粘进一段文本,点任意字符立即看到码点、UTF-8 字节、Script、字符名称,秒认「这个看起来像 a 的到底是拉丁 a 还是西里尔 а」。
  • 处理字符串规范化é 这种字符既可以是单码点 U+00E9,也可以是 U+0065 + U+0301,看起来一样但字符串不相等。用 NFC/NFD 统一后再比对、存库、打哈希。
  • 清洗零宽 / 变体选择符不可见的零宽空格、变体选择符常被粘贴带入,一键去除避免排版/搜索/存储出问题。

常见问题

为什么 \u4E2D\u56FD 能得到「中国」,但 \u1F600 显示成一个奇怪字符加数字 0?

\uXXXXUTF-16 代码单元,只能表示 BMP 内(U+0000-U+FFFF)的字符。😀(U+1F600)在星区,要么用 \u{1F600}(ES6 码点语法),要么拆成代理对 😀。本工具选「\uXXXX」格式会自动生成代理对,选「\u{X}」就是码点。

HTML 实体 &#xXXXX;&#NNN; 有什么区别?

只是十六进制 vs 十进制。中中 都代表「中」。HTML 两种都能识别,十六进制更易读(和 Unicode 码点标注一致),十进制历史更久、兼容性更好。任选一种都行。

「智能识别」是什么?什么时候用?

当一段字符串里混合了多种转义格式(比如日志里同时出现 国U+1F600),选「智能识别」一键全部解码。它能识别 \uXXXX / \u{X} / &#xX; / &#N; / U+X / %uXXXX 六种。但它只做解码,不能编码——编码必须先明确目标格式。

UTF-8 hex 和 UTF-16 hex 的字节序怎么处理?

UTF-8 本身无字节序问题(单字节流)。UTF-16 本工具默认输出大端(BE),每个 code unit 两字节按高位在前拼成 4 位十六进制。如需小端(LE),把每个 4 位字节对调即可(如 4E2D2D4E)。解码同理。

NFC / NFD / NFKC / NFKD 四种规范化选哪个?

简单记:存储对比用 NFC(合成形式,é = 单码点 U+00E9,更紧凑),iOS/macOS 文件系统默认用 NFD(分解形式,é = U+0065 + U+0301)。带 K 的(KC/KD)会做「兼容分解」,把全角数字、上下标、连字(fi→fi)等视觉等效字符归一化,适合搜索或比对,不适合保留原貌。多数场景选 NFC。

「去零宽」会去掉哪些字符?

零宽字符家族:ZWSP (U+200B)、ZWNJ (U+200C)、ZWJ (U+200D)、LRM/RLM (U+200E/F)、Word Joiner (U+2060)、数学不可见 (U+2061-2064)、BOM (U+FEFF)、SOFT HYPHEN (U+00AD)、MONGOLIAN VS (U+180E)。这些字符看不见但占字节,常见于从网页/IM 复制粘贴,会让「看起来一样的字符串」字节级不相等,也可能被用来绕过关键词过滤。

字符名称从哪里来?

来自 Unicode 16.0 官方数据(@unicode/unicode-16.0.0 包)。CJK 汉字、韩文音节、西夏文等按范围分组的命名(如 CJK UNIFIED IDEOGRAPH-4E2D)由程序算法直接生成,不占数据体积;其它 17 万个有独立名字的字符从官方表查。首次打开字符检视时会懒加载约 600KB 的数据,之后即时查询。

输入的内容会上传服务器吗?

不会。所有编解码、字符检视、名称查询都在你的浏览器本地运行,不发任何网络请求(字符名称数据是页面资源的一部分,打开后就缓存在本地)。