读英文文章最常见的纠结:撞到一个生词,到底要不要停下来查、要不要专门背它?背太多浪费时间,漏掉高频词又拖累阅读。
判断标准其实很简单——看它有多常见。一个排进 COCA 前 3000 的词,你迟早还会撞见无数次,现在背了一劳永逸;一个排在 16000 开外的罕用词,可能这辈子就这篇文章见这一次,为它单开一张 Anki 卡纯属浪费。COCA 词频查询就是把这个”有多常见”变成一个可查的数字。
COCA 排名是什么、怎么来的
COCA 全称 Corpus of Contemporary American English(当代美国英语语料库),杨百翰大学维护,规模 10 亿词级,覆盖美国 1990 年至今的书面、口语、学术、新闻语料。
排名 = 这个词在语料库里出现次数从高到低的位次。 排第 1 的是 the,排第 500 的远比排第 5000 的常见。本工具用的是去重后约 17800 个原形(lemma),最高排名接近 20000。
它和你在词典软件里看到的”词频星级”有本质区别:
| 维度 | COCA 词频查询 | 商业词典软件 |
|---|---|---|
| 数据源 | COCA 学术语料库(公开) | 自家统计 / 网络抓取(私有) |
| 能否复现 | 是,可对账验证 | 否,口径不公开 |
| 排名上限 | 20000 | 一般不公开 |
| 难度锚点 | 高考/四六级/雅思/母语级 | 通常没有 |
决策表:排名 → 该不该背
把排名映射成行动,这张表是核心:
| COCA 排名 | 定位 | 该不该背 |
|---|---|---|
| 1 – 3000 | 高频核心 | 几乎必背,遇到不会的立刻补 |
| 3001 – 5000 | 四级线 | 备考四级 / 通用阅读要背 |
| 5001 – 7000 | 六级线 | 目标六级 / 考研按需背 |
| 7001 – 10000 | 雅思 6.5+ / 托福 90+ | 出国考试要背,普通阅读按需 |
| 10001 – 14000 | 母语高中生 / GRE | 冲高分 / 学术阅读才值得 |
| 14001 – 18000 | 母语成年人 | 一般放过,靠上下文猜即可 |
| 18000+ | 罕用长尾 | 不必单背,查一次就走 |
一句话原则:排名越靠前,背它的边际收益越高。同样花十分钟,背一个 #2000 的词,未来回报远高于背一个 #16000 的词。
lemma 原形:为什么 running、boxes 查不到
最容易踩的坑:查 running 显示”不在表内”。
原因是 COCA 20000 表只收 lemma(词典原形),所有派生形态都不单独占位。查询前先在脑子里还原:
| 你撞到的形态 | 要查的原形 |
|---|---|
| running、ran | run |
| studies、studied | study |
| boxes、boxed | box |
| higher、highest | high |
| quickly | quick |
| went、gone | go |
| children | child |
工具会自动把输入转小写(the / The / THE 视为同一个词),但屈折变化要你自己还原。如果还原后仍查不到,那基本是拼错了,或者真是 20000 名开外的罕用词。专有名词、品牌、地名也一律不收。
颜色条不是”难度条”
结果里有一根绿→黄→红的频率位置条,圆点标你查的词。它表示的是常见程度,不是难度。
- 绿色 = 高频,红色 = 低频
- 理解简单 ≠ 频率高:however 排进前 1000(高频、绿色),但很多学习者用不好它,比某些 5000 名的具体名词更”难掌握”
所以颜色帮你回答”这词常不常见、值不值得背”,至于”难不难学会”,那是另一回事。
三个高频实战用法
1. 备考时给真题”测超纲度”。 把一套真题里挑出的生词逐个查排名,如果大量落在你目标考试锚点之外,说明这套题偏难——心里有数,不必为每个超纲词焦虑。
2. 写作选更高级的替换词。 想把平庸的 important 换得高级些,点它的同义词看各自 COCA 排名,挑一个比原词低频、但语义贴合的(比如 crucial / pivotal)。低频一档显文风,低频太多反而生僻——COCA 排名让你拿捏这个度。
3. 给孩子 / 学生定背诵清单。 初中生主攻 1500-3000 段,高中生攻 3000-5000 段。查每个词所在频段,就能筛掉那些”超出当前阶段、暂时不用背”的词。
命中后还能顺手做的事
查到词后,工具会自动从 Free Dictionary API(公益免费、无需 key)加载英文释义、例句、同反义词、发音音频。两个建议:
- 读英文释义,别只记中文意思——英英解释更接近母语者的理解方式,是顺手的免费练习。
- 点同反义词联查,自动填回查询框并查 COCA 排名,一次理清一组近义词的频率高低。
离线时这部分不显示,但 COCA 排名、中文释义、外链词典(人人词典 / 柯林斯 / 朗文,按 ?w=词 规则直接拼接跳转)照常工作。
配套工具:从单查到成体系
单查一个词只是起点,配合这几个能形成完整的背词闭环:
- 不知道自己整体水平在哪段?先做 英语词汇量测试,找到开始崩的频段。
- 发现某频段薄弱,用 COCA 词频表生成 把那一段批量导出成 Anki 卡,别一个个手查手抄。
- 想知道一整篇英文够不够你读,用 英文文章难度分析 看覆盖率曲线和超纲词清单。
查频率不是为了得到一个数字,而是为了把有限的背单词时间花在回报最高的词上。3000 内的高频词值得你停下来认真背,15000 开外的罕用词扫一眼意思继续读就好——这就是 COCA 词频查询要帮你做的那个决策。