Question 1

为什么 .*? 比 .* 在某些场景更安全？

Accepted Answer

.* 是贪婪匹配，会尽可能多吃字符；.*? 是懒惰（非贪婪）匹配，尽可能少吃。例如 <.*> 匹配 bold 会吃掉整个字符串（到最后一个 >），<.*?> 只匹配到第一个 >。提取 HTML 标签、JSON 字段时优先用懒惰匹配，避免"吞"过界。

Question 2

(...) 和 (?:...) 有什么区别？

Accepted Answer

(...) 是捕获组，可通过 $1、\1 或 match.group(1) 引用；(?:...) 是非捕获组，只分组不捕获，性能略好，编号不占位。替换场景用捕获组；仅需分组逻辑（比如 (?:foo|bar)+）用非捕获组避免污染捕获编号。

Question 3

\d 和 [0-9] 一样吗？

Accepted Answer

大多数语言下在 ASCII 范围内等价。但启用 Unicode 模式（JS u flag、Python re.UNICODE）后 \d 匹配所有 Unicode 数字（阿拉伯数字、全角数字、藏数字等），范围更广；[0-9] 始终只匹配 ASCII 0-9。表单校验场景建议用 [0-9] 更保守。

Question 4

不同语言写正则有什么差异？

Accepted Answer

三大差异——转义：JavaScript 用字面量 /\d+/ 免二次转义；Java 字符串里要 "\d+"；Python 推荐 r"\d+" 原始字符串。flag 写法：JS 写在末尾 /…/gi；Python 传参 re.IGNORECASE；Java 传 Pattern.CASE_INSENSITIVE。方言：PCRE（PHP/Perl）最强；Go 的 RE2 禁用反向引用和回溯（保证线性时间）；JS 支持度居中。

Question 5

正则会导致性能问题吗？

Accepted Answer

会。灾难性回溯（Catastrophic Backtracking）是主要元凶，模式形如 (a+)+ 配合不匹配输入可能指数级爆炸，几秒到几分钟不收敛，2019 年 Cloudflare 就因此宕机。避免方法：减少嵌套量词、用原子组 (?>...) 或占有量词 a++、优先用 Go 的 RE2 引擎。复杂替换建议测试极端输入。

Question 6

常用正则有哪些？

Accepted Answer

邮箱 ^[\w.+-]+@[\w-]+(\.[\w-]+)+$；中国手机号 ^1[3-9]\d{9}$；18 位身份证 ^\d{17}[\dX]$；IPv4 ^(\d{1,3}\.){3}\d{1,3}$（需再做 0-255 范围校验）；URL ^https?://[^\s]+$；中文 [\u4e00-\u9fa5]。参考教程 common-regex-10-patterns 有更细分场景。

正则测试

核心语法速查

常用 flag

实战要点

📍使用场景

❓常见问题