怎么判断一个英语生词值不值得背——用 COCA 词频排名、难度锚点和 lemma 原形查询

· 约 4 分钟 🔎 COCA 词频查询

读英文文章最常见的纠结:撞到一个生词,到底要不要停下来查、要不要专门背它?背太多浪费时间,漏掉高频词又拖累阅读。

判断标准其实很简单——看它有多常见。一个排进 COCA 前 3000 的词,你迟早还会撞见无数次,现在背了一劳永逸;一个排在 16000 开外的罕用词,可能这辈子就这篇文章见这一次,为它单开一张 Anki 卡纯属浪费。COCA 词频查询就是把这个”有多常见”变成一个可查的数字。

COCA 排名是什么、怎么来的

COCA 全称 Corpus of Contemporary American English(当代美国英语语料库),杨百翰大学维护,规模 10 亿词级,覆盖美国 1990 年至今的书面、口语、学术、新闻语料。

排名 = 这个词在语料库里出现次数从高到低的位次。 排第 1 的是 the,排第 500 的远比排第 5000 的常见。本工具用的是去重后约 17800 个原形(lemma),最高排名接近 20000。

它和你在词典软件里看到的”词频星级”有本质区别:

维度COCA 词频查询商业词典软件
数据源COCA 学术语料库(公开)自家统计 / 网络抓取(私有)
能否复现是,可对账验证否,口径不公开
排名上限20000一般不公开
难度锚点高考/四六级/雅思/母语级通常没有

决策表:排名 → 该不该背

把排名映射成行动,这张表是核心:

COCA 排名定位该不该背
1 – 3000高频核心几乎必背,遇到不会的立刻补
3001 – 5000四级线备考四级 / 通用阅读要背
5001 – 7000六级线目标六级 / 考研按需背
7001 – 10000雅思 6.5+ / 托福 90+出国考试要背,普通阅读按需
10001 – 14000母语高中生 / GRE冲高分 / 学术阅读才值得
14001 – 18000母语成年人一般放过,靠上下文猜即可
18000+罕用长尾不必单背,查一次就走

一句话原则:排名越靠前,背它的边际收益越高。同样花十分钟,背一个 #2000 的词,未来回报远高于背一个 #16000 的词。

lemma 原形:为什么 running、boxes 查不到

最容易踩的坑:查 running 显示”不在表内”。

原因是 COCA 20000 表只收 lemma(词典原形),所有派生形态都不单独占位。查询前先在脑子里还原:

你撞到的形态要查的原形
running、ranrun
studies、studiedstudy
boxes、boxedbox
higher、highesthigh
quicklyquick
went、gonego
childrenchild

工具会自动把输入转小写(the / The / THE 视为同一个词),但屈折变化要你自己还原。如果还原后仍查不到,那基本是拼错了,或者真是 20000 名开外的罕用词。专有名词、品牌、地名也一律不收。

颜色条不是”难度条”

结果里有一根绿→黄→红的频率位置条,圆点标你查的词。它表示的是常见程度,不是难度。

  • 绿色 = 高频,红色 = 低频
  • 理解简单 ≠ 频率高:however 排进前 1000(高频、绿色),但很多学习者用不好它,比某些 5000 名的具体名词更”难掌握”

所以颜色帮你回答”这词常不常见、值不值得背”,至于”难不难学会”,那是另一回事。

三个高频实战用法

1. 备考时给真题”测超纲度”。 把一套真题里挑出的生词逐个查排名,如果大量落在你目标考试锚点之外,说明这套题偏难——心里有数,不必为每个超纲词焦虑。

2. 写作选更高级的替换词。 想把平庸的 important 换得高级些,点它的同义词看各自 COCA 排名,挑一个比原词低频、但语义贴合的(比如 crucial / pivotal)。低频一档显文风,低频太多反而生僻——COCA 排名让你拿捏这个度。

3. 给孩子 / 学生定背诵清单。 初中生主攻 1500-3000 段,高中生攻 3000-5000 段。查每个词所在频段,就能筛掉那些”超出当前阶段、暂时不用背”的词。

命中后还能顺手做的事

查到词后,工具会自动从 Free Dictionary API(公益免费、无需 key)加载英文释义、例句、同反义词、发音音频。两个建议:

  • 读英文释义,别只记中文意思——英英解释更接近母语者的理解方式,是顺手的免费练习。
  • 点同反义词联查,自动填回查询框并查 COCA 排名,一次理清一组近义词的频率高低。

离线时这部分不显示,但 COCA 排名、中文释义、外链词典(人人词典 / 柯林斯 / 朗文,按 ?w=词 规则直接拼接跳转)照常工作。

配套工具:从单查到成体系

单查一个词只是起点,配合这几个能形成完整的背词闭环:

  • 不知道自己整体水平在哪段?先做 英语词汇量测试,找到开始崩的频段。
  • 发现某频段薄弱,用 COCA 词频表生成 把那一段批量导出成 Anki 卡,别一个个手查手抄。
  • 想知道一整篇英文够不够你读,用 英文文章难度分析 看覆盖率曲线和超纲词清单。

查频率不是为了得到一个数字,而是为了把有限的背单词时间花在回报最高的词上。3000 内的高频词值得你停下来认真背,15000 开外的罕用词扫一眼意思继续读就好——这就是 COCA 词频查询要帮你做的那个决策。

❓ 常见问题

为什么 running、boxes、higher 这种常见词查不到?

COCA 20000 表只收 lemma(词典原形),派生形态不单独占位。查的时候要还原成原形:running → run、boxes → box、higher → high、quickly → quick、went → go。专有名词、品牌、地名也不收。如果原形还查不到,大概率是拼写错了,或确实属于 20000 名之外的罕用词。

排名是按什么算的?英式英语适用吗?

COCA 是 Corpus of Contemporary American English,杨百翰大学维护的 10 亿词级语料库,覆盖 1990 年至今的美国书面 / 口语 / 学术 / 新闻语料。排名就是该词出现次数从高到低的位次。英式英语的高频词大体一致(the / of / and 不分国别),但偏美式口语的词(如 awesome)在 COCA 里会排得更靠前。

难度等级(高考 / 四六级 / 雅思)是怎么映射的?

基于行业经验值的粗映射,不是官方标准:1-500 极高频、501-1500 初中、1501-3500 高考、3501-5000 四级、5001-7000 六级、7001-10000 雅思 6.5+/托福 90+、10001-14000 母语高中生/GRE、14001-18000 母语成年人、18000 以上罕用。同一个词在不同考纲里归类可能不同,这里只给"大致位置"。

频率位置条上绿黄红的颜色代表难度吗?

不代表难度,只反映在 COCA 语料里出现频率的相对位置:绿(高频)→ 黄(中频)→ 红(低频),圆点标你查的词落在哪。理解上简单不等于频率高——however 排进前 1000,但比某些 5000 名开外的具体名词更难真正掌握。颜色帮你判断"常不常见",不是"难不难"。

命中后显示的英文释义、例句、发音是哪来的?

查到词后会自动从 Free Dictionary API(公益、免费、无需 key)加载英文释义、例句、同反义词和发音音频。读英文释义本身就是练习,比中文释义更贴近母语者的理解方式。离线时这块不显示,但 COCA 排名、中文释义和外链词典照常可用。

点同义词 / 反义词会发生什么?

点击会自动填进查询框并查它的 COCA 排名。如果该同义词在 COCA 20000 内,能直接看到它的频率位置和难度等级——这对比较"哪个替代词更高级"特别有用:用一个比原词低频但语义贴合的词,往往更显文风。不在表内的会走 Free Dictionary 兜底。

它和金山词霸 / 有道的"词频"有什么不同?

通用词典软件的频率多基于自家查询统计或网络抓取,口径不公开、不可重现。COCA 是学术公认的语料库,频率来自真实语料、可被复现验证。本工具直接采用 COCA 排名,不做二次合并或混淆,所以你看到的数字是有出处、能对账的。

数据来自哪个版本的 COCA?会和最新版差很多吗?

来自开源项目 coca-vocabulary-20000 整理的 COCA 高频前 20000 词,原始为 2017 年前后的快照。高频段几乎不变(常用词的排名很稳定),低频段会有少量词进出。对"该不该背"这种量级判断完全够用,不影响决策。

🔎 打开 COCA 词频查询 输入英文单词查 COCA 20000 词频排名·难度等级(高考/四六级/雅思/母语)·音标释义·人人词典/柯林斯/朗文外链·频率位置可视化