英语词汇量测试准不准——COCA 分层抽样、诱饵词矫正、置信区间一次讲透

· 约 5 分钟 📚 英语词汇量测试

打开一个英语词汇量测试,勾几十个词,它甩给你一个”你的词汇量:9418”——这个数字到底能信几分?

答案是:它能告诉你大致段位,但精确到个位数纯属错觉。这篇文章把基于 COCA 词频的测试是怎么算出来的讲清楚,让你看懂结果,而不是被一个漂亮数字唬住。先说结论:把它当成”7600-8800 这个区间”来用,比当成”8237”有用得多。

词汇量测试到底在测什么

严格说,它测的不是”你背过多少单词”,而是你在真实英语里遇到一个词、还认得出它意思的概率

这两件事差别很大。你可能背过 abandon 但三年没用早忘了,也可能从没”背”过 awesome 却天天见。词汇量测试关心的是后者——识别能力,而不是记忆账本。这也是为什么它用”按真实频率抽样”的方式,而不是让你对着大纲词表逐个打勾。

为什么用 COCA 而不是教学大纲

COCA 全称 Corpus of Contemporary American English(当代美国英语语料库),由杨百翰大学维护,规模 10 亿词级,覆盖美国 1990 年至今的书面、口语、学术、新闻语料。所谓”COCA 20000 词表”就是按出现频率从高到低排出的前 20000 个词。

维度教学大纲词表COCA 词频表
回答的问题应该背什么实际会遇到什么
排序依据考纲编排真实使用频率
能否复现各版本不一学术公开、可验证
适合用途制定背诵计划测量识别水平

测水平用 COCA:一个词排得越靠前,说明你在日常阅读里撞见它的概率越高,认识它对”读懂英语”的边际贡献也越大。本测试用的是去重后约 17800 个独立原形(lemma),理论估算上限也就在这个量级附近。

分层抽样:100 个真词是怎么选的

如果从 17800 个词里纯随机抽 100 个,会有个大问题:高频词占比极大,抽出来的样本会扎堆在你早就会的简单词上,对中高频段几乎没有分辨率

解法是分层抽样——把词表切成 9 个频段,每段单独抽 8-12 个,凑够 100 个真词:

频段(COCA 排名)大致难度
101–500极高频,几乎人人会
501–1500初中
1501–3000初高中过渡
3001–5000高考 / 四级
5001–7500六级
7501–10000雅思 6.5+ / 托福 90+
10001–13000母语高中生
13001–16000GRE / 母语成年人
16001–20200罕用长尾

这样每个频段都有独立的”采样探针”,柱状图才能告诉你到底从哪一段开始崩——这是单一数字给不了的信息。前 100 名(the / of / and / to 这种功能词)直接跳过、默认算掌握,因为它们对区分度没有贡献,全勾满分反而稀释信号。

诱饵词与温和矫正:堵住”虚报”

自报式测试最大的漏洞是虚报:拼写眼熟就勾”认识”,哪怕说不出意思。

工具在 100 个真词里掺入 12 个诱饵词——splanter、morbous、crentish 这类拼写很英语化、但根本不存在的伪词。你勾中几个诱饵,就暴露了你的虚报倾向。

矫正方式是温和矫正,不是简单粗暴地整体打折:

每段实际认识率 = 原始认识率 − ½ × 诱饵命中率(按百分点扣)

举例:你勾中 12 个诱饵里的 1 个,命中率约 8.3%,那么每个频段的认识率都减去 4.2 个百分点。取一半、而不是全额,是为了避免偶尔手滑勾错一两个就把整体估算砸到不合理的低位。

估算公式与置信区间

最终估算其实就是”分段加权外推”:

总词汇量 ≈ 100(默认掌握的功能词)
        + Σ(各频段总词数 × max(0, 该段认识率 − ½×诱饵命中率))

每个频段:你在样本里的认识比例,乘以这个频段实际有多少个词,加起来再补上跳过的 100 个功能词。

置信区间则来自统计:每段按二项分布估方差,汇总后取 ±1.96σ,给出 95% CI。所以结果长这样:

8200 ± 600(95% 置信:7600 – 8800)

为什么不直接给 8237?因为只用 100 个样本推断上万词,本身就带着抖动。给区间是诚实,给精确数字是表演。下次中间数从 8200 跳到 8350,多半只是抽样噪声,别当成退步或进步。

考试锚点:我的词汇量够考什么

结果页会把你的区间映射到常见考试锚点,便于判断离目标还差多远:

阶段 / 考试参考词汇量
中考1600 – 2500
高考3500 – 3800
CET-4 四级约 4500
CET-6 六级约 6000
雅思 6.0 – 6.57000 – 8000
雅思 7.0+ / 托福 95+9000 – 10000
母语高中生12000+

提醒一句:能识别 ≠ 能主动用。同样 8000 词汇量,有人能写出地道句子、有人只能读不能写。词汇量是地基,不是房子本身。

怎么用结果指导背单词

一个数字本身没用,配合柱状图才有用。流程是这样:

  1. 看柱状图,找到认识率明显下滑的那个频段(比如 5000 内都 90%+,到 8000-10000 段掉到 40%)。
  2. COCA 词频表生成 把这一段(如填”从 8000 到 10000”)单独导出成 Anki CSV,集中突破薄弱区,别从 1 号词从头背。
  3. 平时读英文撞到生词,先用 COCA 词频查询 查它排第几——排名靠前的优先背,排到 15000 开外的罕用词不必单开卡。
  4. 拿不准一篇英文够不够你读,用 英文文章难度分析 看它的覆盖率曲线和超纲词数。

和 testyourvocab.com 的区别

testyourvocab.com 是这个领域最有名的工具,但它和本工具定位不同:

维度本工具testyourvocab.com
词库来源COCA 公开语料自建(方法不公开)
估算上限约 17800约 45000
中国学习者主战场(3000–15000)分辨率高分辨率一般
透明度给置信区间、诱饵命中、分段掌握率只给单一数字
锚点中文 + 高考/四六级/雅思英文 + 美国年级

不吹”比它更准”——自报机制的天花板都在用户诚实度,谁也突破不了。本工具的价值是更透明、更可解释:你能看到自己在哪段崩、虚报了多少、区间多宽,这些对实际背单词比一个黑箱数字有用得多。母语者或资深读者测到接近上限时精度会饱和,那种情况下 testyourvocab 的长尾覆盖更合适。

几个常见误区

  • 盯着中间数比高低——应该比区间。区间整体上移才算进步。
  • 为了好看的数字猛勾——勾中诱饵会触发矫正反而拉低,且自欺没有任何意义。
  • 拿它和别的工具数字硬比——口径不同,跨工具比较无效,只跟自己比。
  • 以为测完就等于会用——词汇量是识别能力,输出能力还得靠写和说去练。

测一次摸清家底,找到薄弱频段,再拿去 COCA 词频表生成 针对性地背——这才是词汇量测试该有的用法。一个数字不会让你的英语变好,它告诉你下一步该往哪使劲才有价值。

❓ 常见问题

这个测试到底准不准?误差有多大?

所有"自报式"词汇量测试(你勾认识 / 不认识)的准确度都受限于一个天花板——你的诚实度,本工具也不例外。在此前提下,100 词分层抽样的标准误差大约在 ±10-12%,加上诱饵词温和矫正后能再压低一点。结果页会直接给你置信区间:8200 ± 600 表示真实词汇量大概率落在 7600-8800 之间。把它当区间看,别盯着那个中间数。

诱饵词是什么?为什么要故意放一些假词?

诱饵词(如 splanter、morbous、crentish)是拼写很英语化、但根本不存在的伪词。如果你把它们勾成"认识",说明你有把眼熟拼写当认识的倾向——这种虚报会让估算偏高。工具采用温和矫正:按诱饵命中率的一半,从每个词频段的认识率里扣掉(命中 1/12 约 8.3%,每段认识率减 4.2 个百分点)。比"按比例整体放大缩减"温和,偶尔手滑勾错一两个不会把结果砸得过低。

为什么用 COCA,而不是直接用四六级 / 雅思词表?

COCA 是 Corpus of Contemporary American English(当代美国英语语料库),按真实使用频率给词排名。词汇量测试想衡量的是"你在实际阅读听力里遇到一个词、还认得出的概率",而频率正好对应这个概率。教学大纲词表是"应该背什么",COCA 是"实际会遇到什么"——测水平用后者更贴合。

为什么结果是一个区间,不是一个精确数字?

因为只抽了 100 个词去推断上万词的掌握情况,本身就有抽样波动。每个词频段用二项分布估方差,汇总后取 ±1.96σ 给出 95% 置信区间。给区间是更诚实的做法:宣称"你的词汇量是 8237"是一种精确的错觉,"7600-8800"才是这次测试真正能支撑的结论。

高考 / 四级 / 六级 / 雅思分别对应多少词汇量?

常用参考:中考 1600-2500、高考 3500-3800、CET-4 约 4500、CET-6 约 6000、雅思 6.0-6.5 约 7000-8000、雅思 7.0+ 或托福 95+ 约 9000-10000、母语高中生 12000 以上。注意"能认识"不等于"能在写作里主动用",词汇量只是英语能力的一个维度,别拿它当唯一标尺。

为什么 testyourvocab.com 测出来的数字往往更大?

两个原因:一是它的词库上限到约 45000,覆盖更多长尾罕用词,对母语者更友好;二是它的样本构成和归一化方式不公开,跟 COCA 口径不同。所以把两个工具的数字直接比没有意义——要看进步,用同一个工具自己跟自己纵向比才稳定。

每次抽到的词都不一样,结果还能比吗?

能,但要用对方式。每次开始测试都重新分层抽样,是为了防止"背题"刷分;代价是相邻两次会有抽样波动。正确用法是看区间是否整体抬升——这次 7600-8800、三个月后 8800-10000,就是真实的进步信号;而同一次里中间数从 8200 变 8350 这种小跳动属于噪声,不必在意。

数据会上传服务器吗?

不会。抽样、勾选、估算、画图全部在你浏览器本地完成,词表 JSON 是预先静态下发的,没有任何接口回传你的答题数据,断网也能测。

📚 打开 英语词汇量测试 基于 COCA 词频·分层抽样 100 词+诱饵词矫正·估算词汇量±区间·掌握率柱状图·考试锚点(高考/四六级/雅思)·背词清单导出 Anki·本地运行