这个测试到底准不准？误差有多大？

所有"自报式"词汇量测试（你勾认识 / 不认识）的准确度都受限于一个天花板——你的诚实度，本工具也不例外。在此前提下，100 词分层抽样的标准误差大约在 ±10-12%，加上诱饵词温和矫正后能再压低一点。结果页会直接给你置信区间：8200 ± 600 表示真实词汇量大概率落在 7600-8800 之间。把它当区间看，别盯着那个中间数。

诱饵词是什么？为什么要故意放一些假词？

诱饵词（如 splanter、morbous、crentish）是拼写很英语化、但根本不存在的伪词。如果你把它们勾成"认识"，说明你有把眼熟拼写当认识的倾向——这种虚报会让估算偏高。工具采用温和矫正：按诱饵命中率的一半，从每个词频段的认识率里扣掉（命中 1/12 约 8.3%，每段认识率减 4.2 个百分点）。比"按比例整体放大缩减"温和，偶尔手滑勾错一两个不会把结果砸得过低。

为什么用 COCA，而不是直接用四六级 / 雅思词表？

COCA 是 Corpus of Contemporary American English（当代美国英语语料库），按真实使用频率给词排名。词汇量测试想衡量的是"你在实际阅读听力里遇到一个词、还认得出的概率"，而频率正好对应这个概率。教学大纲词表是"应该背什么"，COCA 是"实际会遇到什么"——测水平用后者更贴合。

为什么结果是一个区间，不是一个精确数字？

因为只抽了 100 个词去推断上万词的掌握情况，本身就有抽样波动。每个词频段用二项分布估方差，汇总后取 ±1.96σ 给出 95% 置信区间。给区间是更诚实的做法：宣称"你的词汇量是 8237"是一种精确的错觉，"7600-8800"才是这次测试真正能支撑的结论。

高考 / 四级 / 六级 / 雅思分别对应多少词汇量？

常用参考：中考 1600-2500、高考 3500-3800、CET-4 约 4500、CET-6 约 6000、雅思 6.0-6.5 约 7000-8000、雅思 7.0+ 或托福 95+ 约 9000-10000、母语高中生 12000 以上。注意"能认识"不等于"能在写作里主动用"，词汇量只是英语能力的一个维度，别拿它当唯一标尺。

为什么 testyourvocab.com 测出来的数字往往更大？

两个原因：一是它的词库上限到约 45000，覆盖更多长尾罕用词，对母语者更友好；二是它的样本构成和归一化方式不公开，跟 COCA 口径不同。所以把两个工具的数字直接比没有意义——要看进步，用同一个工具自己跟自己纵向比才稳定。

每次抽到的词都不一样，结果还能比吗？

能，但要用对方式。每次开始测试都重新分层抽样，是为了防止"背题"刷分；代价是相邻两次会有抽样波动。正确用法是看区间是否整体抬升——这次 7600-8800、三个月后 8800-10000，就是真实的进步信号；而同一次里中间数从 8200 变 8350 这种小跳动属于噪声，不必在意。

数据会上传服务器吗？

不会。抽样、勾选、估算、画图全部在你浏览器本地完成，词表 JSON 是预先静态下发的，没有任何接口回传你的答题数据，断网也能测。

英语词汇量测试准不准——COCA 分层抽样、诱饵词矫正、置信区间一次讲透

打开一个英语词汇量测试，勾几十个词，它甩给你一个”你的词汇量：9418”——这个数字到底能信几分？

答案是：它能告诉你大致段位，但精确到个位数纯属错觉。这篇文章把基于 COCA 词频的测试是怎么算出来的讲清楚，让你看懂结果，而不是被一个漂亮数字唬住。先说结论：把它当成”7600-8800 这个区间”来用，比当成”8237”有用得多。

词汇量测试到底在测什么

严格说，它测的不是”你背过多少单词”，而是你在真实英语里遇到一个词、还认得出它意思的概率。

这两件事差别很大。你可能背过 abandon 但三年没用早忘了，也可能从没”背”过 awesome 却天天见。词汇量测试关心的是后者——识别能力，而不是记忆账本。这也是为什么它用”按真实频率抽样”的方式，而不是让你对着大纲词表逐个打勾。

为什么用 COCA 而不是教学大纲

COCA 全称 Corpus of Contemporary American English（当代美国英语语料库），由杨百翰大学维护，规模 10 亿词级，覆盖美国 1990 年至今的书面、口语、学术、新闻语料。所谓”COCA 20000 词表”就是按出现频率从高到低排出的前 20000 个词。

维度	教学大纲词表	COCA 词频表
回答的问题	应该背什么	实际会遇到什么
排序依据	考纲编排	真实使用频率
能否复现	各版本不一	学术公开、可验证
适合用途	制定背诵计划	测量识别水平

测水平用 COCA：一个词排得越靠前，说明你在日常阅读里撞见它的概率越高，认识它对”读懂英语”的边际贡献也越大。本测试用的是去重后约 17800 个独立原形（lemma），理论估算上限也就在这个量级附近。

分层抽样：100 个真词是怎么选的

如果从 17800 个词里纯随机抽 100 个，会有个大问题：高频词占比极大，抽出来的样本会扎堆在你早就会的简单词上，对中高频段几乎没有分辨率。

解法是分层抽样——把词表切成 9 个频段，每段单独抽 8-12 个，凑够 100 个真词：

频段（COCA 排名）	大致难度
101–500	极高频，几乎人人会
501–1500	初中
1501–3000	初高中过渡
3001–5000	高考 / 四级
5001–7500	六级
7501–10000	雅思 6.5+ / 托福 90+
10001–13000	母语高中生
13001–16000	GRE / 母语成年人
16001–20200	罕用长尾

这样每个频段都有独立的”采样探针”，柱状图才能告诉你到底从哪一段开始崩——这是单一数字给不了的信息。前 100 名（the / of / and / to 这种功能词）直接跳过、默认算掌握，因为它们对区分度没有贡献，全勾满分反而稀释信号。

诱饵词与温和矫正：堵住”虚报”

自报式测试最大的漏洞是虚报：拼写眼熟就勾”认识”，哪怕说不出意思。

工具在 100 个真词里掺入 12 个诱饵词——splanter、morbous、crentish 这类拼写很英语化、但根本不存在的伪词。你勾中几个诱饵，就暴露了你的虚报倾向。

矫正方式是温和矫正，不是简单粗暴地整体打折：

每段实际认识率 = 原始认识率 − ½ × 诱饵命中率（按百分点扣）

举例：你勾中 12 个诱饵里的 1 个，命中率约 8.3%，那么每个频段的认识率都减去 4.2 个百分点。取一半、而不是全额，是为了避免偶尔手滑勾错一两个就把整体估算砸到不合理的低位。

估算公式与置信区间

最终估算其实就是”分段加权外推”：

总词汇量 ≈ 100（默认掌握的功能词）
        + Σ（各频段总词数 × max(0, 该段认识率 − ½×诱饵命中率)）

每个频段：你在样本里的认识比例，乘以这个频段实际有多少个词，加起来再补上跳过的 100 个功能词。

置信区间则来自统计：每段按二项分布估方差，汇总后取 ±1.96σ，给出 95% CI。所以结果长这样：

8200 ± 600（95% 置信：7600 – 8800）

为什么不直接给 8237？因为只用 100 个样本推断上万词，本身就带着抖动。给区间是诚实，给精确数字是表演。下次中间数从 8200 跳到 8350，多半只是抽样噪声，别当成退步或进步。

考试锚点：我的词汇量够考什么

结果页会把你的区间映射到常见考试锚点，便于判断离目标还差多远：

阶段 / 考试	参考词汇量
中考	1600 – 2500
高考	3500 – 3800
CET-4 四级	约 4500
CET-6 六级	约 6000
雅思 6.0 – 6.5	7000 – 8000
雅思 7.0+ / 托福 95+	9000 – 10000
母语高中生	12000+

提醒一句：能识别 ≠ 能主动用。同样 8000 词汇量，有人能写出地道句子、有人只能读不能写。词汇量是地基，不是房子本身。

怎么用结果指导背单词

一个数字本身没用，配合柱状图才有用。流程是这样：

看柱状图，找到认识率明显下滑的那个频段（比如 5000 内都 90%+，到 8000-10000 段掉到 40%）。
用 COCA 词频表生成把这一段（如填”从 8000 到 10000”）单独导出成 Anki CSV，集中突破薄弱区，别从 1 号词从头背。
平时读英文撞到生词，先用 COCA 词频查询查它排第几——排名靠前的优先背，排到 15000 开外的罕用词不必单开卡。
拿不准一篇英文够不够你读，用英文文章难度分析看它的覆盖率曲线和超纲词数。

和 testyourvocab.com 的区别

testyourvocab.com 是这个领域最有名的工具，但它和本工具定位不同：

维度	本工具	testyourvocab.com
词库来源	COCA 公开语料	自建（方法不公开）
估算上限	约 17800	约 45000
中国学习者主战场（3000–15000）	分辨率高	分辨率一般
透明度	给置信区间、诱饵命中、分段掌握率	只给单一数字
锚点	中文 + 高考/四六级/雅思	英文 + 美国年级

不吹”比它更准”——自报机制的天花板都在用户诚实度，谁也突破不了。本工具的价值是更透明、更可解释：你能看到自己在哪段崩、虚报了多少、区间多宽，这些对实际背单词比一个黑箱数字有用得多。母语者或资深读者测到接近上限时精度会饱和，那种情况下 testyourvocab 的长尾覆盖更合适。

几个常见误区

盯着中间数比高低——应该比区间。区间整体上移才算进步。
为了好看的数字猛勾——勾中诱饵会触发矫正反而拉低，且自欺没有任何意义。
拿它和别的工具数字硬比——口径不同，跨工具比较无效，只跟自己比。
以为测完就等于会用——词汇量是识别能力，输出能力还得靠写和说去练。

测一次摸清家底，找到薄弱频段，再拿去 COCA 词频表生成针对性地背——这才是词汇量测试该有的用法。一个数字不会让你的英语变好，它告诉你下一步该往哪使劲才有价值。