JWT 验签的四个坑：alg confusion、kid 注入、JWKS 拉取、时钟漂移

Q: alg confusion 攻击到底怎么打？我代码里写了 RS256 也会中招吗？

会中招——只要你"按 header 选算法"。典型过程是：服务端原本想按 RS256 验签，攻击者却把 token header 改成 HS256，再拿公开公钥字符串当作 HMAC secret 重签。如果你的代码没有把允许算法写死，就可能被带偏。更稳妥的做法一直是：服务端自己配置算法白名单，不跟 token 自报的 alg 走。

Q: alg：none 攻击现在还有效吗？老问题了吧？

老问题但仍值得防。只要系统里还有老库、自定义解析逻辑，或者某一层只读 payload 不验签，alg=none 仍可能变成入口。工程上最稳的做法仍是：写死允许算法、升级依赖、并明确拒绝无签名 token。

Q: 用 OAuth/OIDC 拉对方的 JWKS 验签，会有什么坑？

JWKS 的核心风险是把验签依赖变成了网络依赖。常见问题包括：JWKS URL 来源校验不严、缓存策略不合理、未知 kid 触发频繁回源，以及没有强制 HTTPS。更稳妥的做法是：白名单 issuer / JWKS URL，做有限缓存，未知 kid 限速刷新，并把网络失败当成拒签而不是放行。

Q: 时钟漂移、leeway 是什么？要设多大？

服务器之间时钟差几秒就会让 token "未生效"或"已过期"，leeway 是允许的容差。问题来源：(1) 签发服务器时钟和验证服务器时钟不严格同步；(2) NTP 同步精度通常在毫秒级，但跨数据中心可能差 1-2 秒；(3) 容器/虚拟机时钟漂移更大，未严格同步可能差几十秒；(4) 用户终端时钟可能比服务器晚或早。影响：(1) 用户登录时拿到 access token，nbf=iat=now，验签时如果验证服务器时钟比签发慢 5 秒——nbf 在未来，token "未生效"，登录失败；(2) exp 临界点同理。leeway 设置：(1) 主流库都支持 clockTolerance / leeway 参数；(2) 推荐 30-60 秒——足够覆盖正常时钟漂移；(3) 不要超过 5 分钟——leeway 越大，过期 token 仍可用的窗口越长，安全性下降；(4) 检查 nbf 和 exp 都要应用 leeway。根本解法：(1) 所有服务用同一 NTP 源（chrony / ntpd）；(2) 监控时钟漂移——超过 1 秒报警；(3) iat 不带 leeway 校验——iat 在未来 30 秒内可接受，超过就拒绝（防签发服务器时钟设错）。

Q: 验签通过后还需要做什么？拿到 payload 直接用？

至少做四项额外校验，缺一不可。(1) iss 校验——iss 字段必须等于预期签发方。攻击者可能拿别处签的 token 来打你——同一公钥被多服务复用时尤其危险。(2) aud 校验——aud 必须等于本服务标识。例如 IdP 同时给 service-a 和 service-b 签 token，B 服务必须只接受 aud: "service-b" 的 token，否则 A 的 token 能用在 B 上。(3) typ 校验——header 的 typ 应是 JWT，不要接受 at+jwt、urn:ietf:params:oauth:token-type:jwt-introspection 之外的非预期值。(4) 用途隔离——access token 不能拿来当 refresh token 用，反之亦然。在 payload 加 token_use: "access" / "refresh" 字段，端点上验证。额外建议：(5) jti 黑名单——如果有强制注销需求，记录已撤销 jti；(6) sub 必须存在——别接受没有用户标识的 token；(7) 自定义 claims 严格校验类型——避免 role: ["admin", "user"] 数组绕过 role === "admin" 字符串比较；(8) 反序列化 payload 时限制深度和大小——攻击者可能塞超大 payload 做 DoS。

2026-04-27 · 更新于 2026-05-02 · 约 6 分钟 ✅ JWT 验签

JWT 验签代码看起来就是 jwt.verify(token, key) 一行，但常见问题几乎都出在“默认行为想当然”：算法跟着 token 走、kid 直接拼查询、JWKS 缓存失控、时钟漂移没人兜底。这篇把几个最常见的坑压成工程上更稳的检查清单。

验签的最小正确写法

先给个标杆，下面所有的坑都围绕这段代码展开：

// Node.js (jsonwebtoken v9+)
const decoded = jwt.verify(token, publicKey, {
  algorithms: ['RS256'],          // 1. 算法白名单——防 alg confusion
  issuer: 'https://auth.example.com',  // 2. 签发方校验
  audience: 'api.example.com',     // 3. 受众校验
  clockTolerance: 30,              // 4. 时钟容差 30s
  ignoreNotBefore: false,          // 5. 严格校验 nbf
});

// 验签后还要做：
if (decoded.token_use !== 'access') throw new Error('wrong token type');
if (await isRevoked(decoded.jti))    throw new Error('revoked');

接下来逐项讲为什么每条都重要。

坑一：alg confusion

攻击流程：

你的服务用 RS256 验签，公钥公开（OAuth 标准把公钥放在 /.well-known/jwks.json）
攻击者拿到一个合法 RS256 token
攻击者把 header 改成 {"alg":"HS256"}、payload 改成 {"role":"admin"}
攻击者用你公开的 RSA 公钥 PEM 字符串作为 HMAC secret，重新签名
你的代码 jwt.verify(token, publicKey) 没传 algorithms，库按 header 里的 alg 选算法
选 HS256，secret 正好是公钥——验证通过

根因：JWT 库默认根据 header 选算法，而你的 key 既能当 RSA 公钥又能被解读为 HMAC secret。

防御：算法白名单写死。

// ❌ 错
jwt.verify(token, publicKey);

// ✅ 对
jwt.verify(token, publicKey, { algorithms: ['RS256'] });

提醒：不同库、不同大版本的默认行为会变，尤其是 algorithms 是否必填、none 是否默认拒绝、JWKS 客户端的缓存策略。不要把任何一篇文章里的“某库默认如此”当永久事实，升级依赖后应重新核对文档和测试。

升级依赖 + 显式传算法白名单，才是关掉这条坑的稳定做法。

坑二：alg = none

攻击：

header  : {"alg":"none","typ":"JWT"}
payload : {"role":"admin"}
signature: （空）

token: eyJhbGciOiJub25lIiwidHlwIjoiSldUIn0.eyJyb2xlIjoiYWRtaW4ifQ.
                                                                   ↑ 末尾的点

老版本库见到 alg=none 直接跳过签名校验。RFC 7519 规范本身允许这个值，是为了”未签名 JWT”的场景保留的——但实际几乎没人需要。

防御：

算法白名单——algorithms: ['RS256'] 自动拒绝 none
升级库——主流库现在默认拒 none
额外断言——验签后再判 header.alg !== 'none'
网关或审计层也要避免出现“只读 payload 不验签”的旁路

坑三：kid 注入

kid（Key ID） 是 header 里指向”用哪把密钥验证”的字段，多密钥场景必备：

{"alg":"RS256","typ":"JWT","kid":"key-2026-q2"}

服务端拿到 kid 去查密钥库找对应公钥。如果实现不当：

SQL 注入：

// ❌ 危险
const key = await db.query(
  `SELECT pubkey FROM keys WHERE kid = '${kid}'`
);
// 攻击者 kid: ' UNION SELECT 'attacker_pubkey' --

路径穿越：

// ❌ 危险
const key = fs.readFileSync(`./keys/${kid}.pem`);
// 攻击者 kid: ../../etc/passwd

指向不存在 / 空文件：

// ❌ 危险
const key = fs.readFileSync(`./keys/${kid}.pem`);
// 找不到 → catch 后 fallback 到默认 HMAC secret 空字符串
// 空 secret 对空签名 HMAC = 通过

防御：

const ALLOWED_KIDS = new Set(['key-2026-q1', 'key-2026-q2']);

if (!ALLOWED_KIDS.has(kid)) {
  throw new Error('unknown kid');
}
// 严格白名单，找不到直接拒，不 fallback
const key = await db.query('SELECT pubkey FROM keys WHERE kid = ?', [kid]);

或者干脆不允许动态 kid——把 kid 硬编码到验签逻辑里，密钥轮换通过部署解决。

坑四：JWKS 拉取陷阱

JWKS（JSON Web Key Set） 是 OAuth/OIDC 用的”公钥分发端点”。验签端从 /.well-known/jwks.json 拉一份 JSON：

{
  "keys": [
    {"kid": "key-2026-q2", "kty": "RSA", "n": "...", "e": "AQAB"}
  ]
}

四个常见坑：

4.1 JWKS URL 来源不验证

一些库允许动态发现：根据 token 里的 iss，去 <iss>/.well-known/openid-configuration 拉 jwks_uri，再从 jwks_uri 拉公钥。

攻击：攻击者签一个 token，iss 设成自己控制的 IdP——你的服务一路跟到攻击者的 JWKS、用攻击者的公钥验签，验证通过。

防御：iss 和 jwks_uri 必须白名单，不接受动态发现。

4.2 不缓存 JWKS

每次验签都拉一次 IdP——单次验签 100ms+，QPS 一上去 IdP 直接挂，你的服务也挂。

防御：缓存 5-15 分钟。

4.3 缓存太长

密钥轮换后，老服务还用旧公钥几小时——过期窗口期内，新签发的 token 验不通过。

防御：缓存 ≤ 15 分钟；密钥轮换前 IdP 应提前几小时把新 kid 加入 JWKS。

4.4 未知 kid 触发反复拉取

部分库的逻辑：缓存里没找到 kid → 立刻去 IdP 重新拉一次 → 仍找不到再拉 → ……

攻击：构造大量未知 kid 的 token，DoS 你的服务和 IdP。

防御：未知 kid 时限速刷新缓存——每分钟最多 1 次。仍找不到就拒签。

4.5 强制 HTTPS

JWKS 拉取必须 HTTPS + 验证证书。HTTP 拉 JWKS 等于把公钥扔在 MITM 桌上。

坑五：时钟漂移

问题：服务器之间时钟不严格同步——容器、跨数据中心、用户终端，差 1-2 秒甚至几十秒都常见。

影响：

签发服务器时钟正常，验证服务器时钟慢 5 秒
用户登录拿到 access token，nbf = iat = 1714200000
验证服务器看当前时间是 1714199998 —— nbf 在未来，token “未生效”
用户登录立刻失败

防御：设置 clockTolerance / leeway —— 30-60 秒。

jwt.verify(token, key, {
  algorithms: ['RS256'],
  clockTolerance: 30,  // 30 秒容差
});

不要超过 5 分钟——leeway 越大，过期 token 仍可用的窗口越长。

根本解法：所有服务统一 NTP 源，监控时钟漂移 > 1 秒报警。

坑六：验签后还要校验的字段

验签通过 ≠ 这个 token 是给你这个服务用的。至少校验：

字段	校验内容
`iss`	等于预期签发方
`aud`	等于本服务标识
`exp`	未过期（库自动处理）
`nbf`	已生效（库自动处理）
`token_use`	是 “access” 而非 “refresh”
`sub`	非空
`jti`	不在黑名单

为什么 aud 重要：IdP 给整个组织签发 token，service-a / service-b 共用同一公钥。如果你的 service-b 不验 aud，service-a 的 token 也能用在 service-b 上——权限越界。

主流库都支持 audience 参数，自动校验。

坑七：payload 反序列化的边界

JWT 的 payload 理论上没有大小限制——攻击者可以塞个 1MB 的 payload。验签后服务端 JSON.parse 时：

内存激增
超深嵌套触发栈溢出
字段类型混淆——role: ["admin"] 数组绕过 role === "admin" 字符串比较

防御：

验签前先判 token 总长——> 8KB 直接拒
payload 字段类型严格校验——用 zod / joi 等 schema 校验
自定义 claims 不接受意外类型

一份验签加固清单

按顺序检查你的验签代码：

算法白名单：algorithms: ['RS256'] 写死，绝不省
拒绝 alg=none：升级库 + 白名单兜底
kid 严格校验：白名单或参数化查询，禁止 fallback
JWKS 缓存 + 限速：5-15 分钟缓存，未知 kid 限速刷新
时钟容差 30-60s：clockTolerance 参数
iss / aud 校验：白名单签发方和受众
token_use 隔离：access / refresh 不混用
payload 大小限制：> 8KB 直接拒
黑名单/吊销：jti 在已撤销列表中拒签

把这九条全过一遍，JWT 验签的攻击面基本就关掉了。

❓ 常见问题

alg confusion 攻击到底怎么打？我代码里写了 RS256 也会中招吗？

会中招——只要你"按 header 选算法"。典型过程是：服务端原本想按 RS256 验签，攻击者却把 token header 改成 HS256，再拿公开公钥字符串当作 HMAC secret 重签。如果你的代码没有把允许算法写死，就可能被带偏。更稳妥的做法一直是：服务端自己配置算法白名单，不跟 token 自报的 alg 走。

alg：none 攻击现在还有效吗？老问题了吧？

老问题但仍值得防。只要系统里还有老库、自定义解析逻辑，或者某一层只读 payload 不验签，alg=none 仍可能变成入口。工程上最稳的做法仍是：写死允许算法、升级依赖、并明确拒绝无签名 token。

kid 字段是什么？为什么会被注入攻击？

kid（Key ID）是 header 里指向"用哪把密钥验证"的字段，注入风险来自服务端拿 kid 直接拼 SQL 或路径。正常用途：(1) 一个服务有多把签发密钥（轮换、多租户）；(2) 签发时 header 写 kid: "key-2026-q2"；(3) 验签端拿 kid 查密钥库找对应公钥。经典注入：(1) SQL 注入——SELECT pubkey FROM keys WHERE kid = '" + kid + "'，攻击者把 kid 写成 " UNION SELECT 'my-public-key' --；(2) 路径穿越——fs.readFileSync("./keys/" + kid + ".pem")，攻击者把 kid 写成 ../../etc/passwd；(3) 命令注入——某些库把 kid 拼进 shell 命令；(4) kid 指向 /dev/null ——读出空内容，HMAC 用空 secret 验证空签名通过（罕见但出现过）。防御：(1) 白名单——kid 必须在已知集合里，否则拒绝；(2) 参数化查询 —— SQL 用 prepared statement；(3) 路径验证 —— path.basename 后再拼，禁止 .. 和 /；(4) kid 字符限制——只允许 [A-Za-z0-9_-]{1,64}；(5) 找不到 kid 对应密钥时直接拒签，不要 fallback 到默认密钥。

用 OAuth/OIDC 拉对方的 JWKS 验签，会有什么坑？

JWKS 的核心风险是把验签依赖变成了网络依赖。常见问题包括：JWKS URL 来源校验不严、缓存策略不合理、未知 kid 触发频繁回源，以及没有强制 HTTPS。更稳妥的做法是：白名单 issuer / JWKS URL，做有限缓存，未知 kid 限速刷新，并把网络失败当成拒签而不是放行。

时钟漂移、leeway 是什么？要设多大？

服务器之间时钟差几秒就会让 token "未生效"或"已过期"，leeway 是允许的容差。问题来源：(1) 签发服务器时钟和验证服务器时钟不严格同步；(2) NTP 同步精度通常在毫秒级，但跨数据中心可能差 1-2 秒；(3) 容器/虚拟机时钟漂移更大，未严格同步可能差几十秒；(4) 用户终端时钟可能比服务器晚或早。影响：(1) 用户登录时拿到 access token，nbf=iat=now，验签时如果验证服务器时钟比签发慢 5 秒——nbf 在未来，token "未生效"，登录失败；(2) exp 临界点同理。leeway 设置：(1) 主流库都支持 clockTolerance / leeway 参数；(2) 推荐 30-60 秒——足够覆盖正常时钟漂移；(3) 不要超过 5 分钟——leeway 越大，过期 token 仍可用的窗口越长，安全性下降；(4) 检查 nbf 和 exp 都要应用 leeway。根本解法：(1) 所有服务用同一 NTP 源（chrony / ntpd）；(2) 监控时钟漂移——超过 1 秒报警；(3) iat 不带 leeway 校验——iat 在未来 30 秒内可接受，超过就拒绝（防签发服务器时钟设错）。

验签通过后还需要做什么？拿到 payload 直接用？

至少做四项额外校验，缺一不可。(1) iss 校验——iss 字段必须等于预期签发方。攻击者可能拿别处签的 token 来打你——同一公钥被多服务复用时尤其危险。(2) aud 校验——aud 必须等于本服务标识。例如 IdP 同时给 service-a 和 service-b 签 token，B 服务必须只接受 aud: "service-b" 的 token，否则 A 的 token 能用在 B 上。(3) typ 校验——header 的 typ 应是 JWT，不要接受 at+jwt、urn:ietf:params:oauth:token-type:jwt-introspection 之外的非预期值。(4) 用途隔离——access token 不能拿来当 refresh token 用，反之亦然。在 payload 加 token_use: "access" / "refresh" 字段，端点上验证。额外建议：(5) jti 黑名单——如果有强制注销需求，记录已撤销 jti；(6) sub 必须存在——别接受没有用户标识的 token；(7) 自定义 claims 严格校验类型——避免 role: ["admin", "user"] 数组绕过 role === "admin" 字符串比较；(8) 反序列化 payload 时限制深度和大小——攻击者可能塞超大 payload 做 DoS。