⭐ 觉得好用?收藏备用,下次直接打开

来自 COCA 美国当代英语语料库的 100 个真词 + 12 个诱饵词,覆盖词频段 100 到 20000。 勾选你认识词义的单词,提交后估算总词汇量 ± 置信区间。

  • 诱饵词是英语化的伪词,勾了会被算作虚报并矫正你的估算
  • 跳过 the / of / and 这种功能词,直接从 rank 101 开始
  • 结果包含考试锚点(高考、四六级、雅思)和各词频段掌握率柱状图
  • 全程本地运行,不向任何服务器发送数据

英语词汇量测试 基于 COCA 美国当代英语语料库的词频表,从 rank 101 到 20000 之间分层抽取 100 个真词 + 12 个诱饵词,让你勾选”认识词义”的单词,提交后给出估算词汇量 ± 置信区间、考试锚点(高考/四六级/雅思)和各词频段掌握率柱状图。

测试方法

  • 数据源 — COCA 20000 词频表,去重后约 17800 个独立词
  • 抽样 — 9 个词频段分层抽样(101-500、501-1500、1501-3000、3001-5000、5001-7500、7501-10000、10001-13000、13001-16000、16001-20200),每段 8-12 个,共 100 词
  • 诱饵 — 12 个英语化但不存在的伪词(splanter、morbous、crentish 等)
  • 矫正 — 温和矫正:从每段认识率里扣掉 ½ × 诱饵命中率(pp),再外推到该段总词数

估算公式

总词汇量 ≈ 100(默认掌握的功能词)+ Σ 各频段总词数 × max(0, 该段认识率 − ½×诱饵命中率)

置信区间用各频段二项分布方差汇总后取 ±1.96σ 给出 95% CI。

与 testyourvocab.com 的差异

维度本工具testyourvocab.com
词库来源COCA 公开语料自建(不公开)
上限~17800(COCA 20000 去重)~45000
中国学习者主战场(3000-15000)分辨率高分辨率一般
透明度显示置信区间、诱饵命中、词频段掌握率仅给单一数字
界面中文 + 考试锚点英文 + 美国年级锚点

做不到比 testyourvocab 显著更准(自报机制的天花板都在用户诚实度),但更透明、更可解释:你能看到自己在哪一段开始崩、虚报了多少、置信区间多宽——这些信息对实际指导背单词比一个黑箱数字更有用。

📍使用场景

  • 备考前的水平摸底准备四六级/雅思/托福时,先测一下当前词汇量大概在哪个区间,判断离目标分还差多远。
  • 找出短板词频段你可能 5000 内的词都熟,但 8000-10000 段开始崩。柱状图直接显示在哪一段开始掉链子,背单词时有的放矢。
  • 学习一段时间后复测背了三个月单词,复测看是否真的有提升。同一抽样口径,结果可比。
  • 自我评估与好友 PK测出来 8200 ± 600 比"我感觉我词汇量大概一万"靠谱得多;复制结果文本可发朋友圈/群里 PK。

常见问题

这个测试准不准?误差有多大?

准确度数量级与 testyourvocab.com 相当(自报机制的天花板都在这里)。100 词分层抽样的标准误差大约在 ±10-12%,加上诱饵词温和矫正后能进一步压低。结果页面会给出置信区间,比"一个数字"更诚实——估算 8200 ± 600 意味着真实词汇量大概率落在 7600-8800 之间。

诱饵词是什么?为什么要勾错?

诱饵词(如 splanter、morbous)是英语化但不存在的伪词。如果你勾了"认识",说明你倾向于把眼熟的拼写当作认识——这种"虚报偏差"会膨胀估算。本工具采用温和矫正:按你的诱饵命中率的一半,从每段认识率里直接扣除(如命中 1/12 ≈ 8.3% 虚报,每段认识率 -4.2pp)。比起"按比例放大缩减"的激进做法,温和矫正不会因为偶尔勾错一两个诱饵就把整体估算压得过低。

COCA 是什么?为什么用它?

COCA 全称 Corpus of Contemporary American English(当代美国英语语料库),是杨百翰大学维护的 10 亿词级英语语料库,按真实使用频率给单词排名。常见的"COCA 20000 词表"就是按词频排序的前 20000 个词。基于真实使用频率而不是教学大纲,意味着排名反映你在实际阅读/听力中遇到这个词的概率——这正是词汇量测试想衡量的东西。

我勾了一个其实不认识词义的词怎么办?

建议严格只勾真正知道意思的词。诱饵词机制能矫正一定的虚报,但矫正的前提是诱饵词和你虚报的真词有相似的"勾选倾向"——这并不总成立。最准确的方式是:见到不确定的词就不勾。结果反而更接近你的真实水平。

测试结果上限是 20000 吗?

是的,本测试基于 COCA 20000 词频表,理论上限约 17800(去重后实际独立词数)。母语英语成年人词汇量典型在 20000-35000 之间,测到接近上限说明你已经掌握了 COCA 高频段几乎全部。若你是母语者或资深读者,本测试的精度会饱和,结果仅供参考。

跳过的前 100 个词是哪些?为什么跳过?

前 100 是 the / of / and / to / be / in / I / you / it / that 这种功能词和最高频实义词。几乎所有学英语超过半年的人都认识,全部勾上等于一段连续的 100% 满分,对结果几乎没有区分度,反而稀释统计信号。结果页面会默认把这 100 词全算掌握计入估算。

高考/四级/六级/雅思对应多少词汇量?

常用参考值:中考 1600-2500、高考 3500-3800、CET-4 ≈ 4500、CET-6 ≈ 6000、雅思 6.0-6.5 ≈ 7000-8000、雅思 7.0+ / 托福 95+ ≈ 9000-10000、母语高中生 12000+。但同样的词汇量在不同人身上"产能"差异很大——能识别 ≠ 能在写作中主动使用,词汇量只是英语能力的一个维度。

数据会上传到服务器吗?

不会。所有抽样、勾选、估算都在你本地浏览器内完成,词表 JSON 也是预先静态下发的。没有任何接口请求你的答题数据。可断网测试。

每次抽到的词都不一样吗?

是的。每次点击"开始测试"或"换一组"都会重新分层抽样,所以相邻两次测试的具体单词不会重复。这是为了防止"背题",但也意味着两次结果会有抽样波动——这正是为什么我们给置信区间而不是一个精确数字。

为什么 testyourvocab.com 给的数字往往更大?

主要两个原因:一是 testyourvocab 词库上限到 ~45000,覆盖更长尾的罕用词,对母语者更友好;二是它的样本构成和归一化方式与 COCA 不同(具体方法未公开)。把两个工具的数字直接比较意义不大;用同一个工具自己对自己纵向比较才是稳定的进步信号。