按 COCA 词频段背单词,比教辅词表强在哪——频段选择、词性筛选与导出 Anki / 扇贝

· 约 4 分钟 📋 COCA 词频表生成

背单词最大的浪费,是顺序错了:抱着一本按字母排序的单词书,从 abandon 背到 zucchini,结果一半时间花在你这辈子未必用到的罕用词上,真正高频的常用词反而和生僻词混在一起没被重点对待。

更高效的做法是按真实使用频率背——先把最常遇到的词吃透,再往低频段推进。COCA 词频表生成就是干这件事:选一个频段,它按 COCA 真实词频排出单词表,附音标和中文释义,一键导成 Anki 卡或扇贝词库。

为什么按频率背 > 按字母背 / 按教辅书背

维度字母序单词书教辅大纲词表COCA 频段词表
排序依据拼写首字母考纲编排真实使用频率
高频词优先否,打散在各字母部分是,先背最常遇到的
能否只补薄弱段容易,自填区间
数据可复现各版本不一COCA 公开可验证

核心逻辑:一个词排得越靠前,你未来遇到它的次数越多,先背它的回报越高。把前 3000 个高频词吃透,就能覆盖日常英语里绝大多数词次——这是字母序和很多教辅书做不到的”优先级排序”。

预设是”累计前 N 词”,不是”某一段”

这是最该先搞清的一点。点”高考""四级”这些预设,填进去的是累计前 N 个高频词

预设对应范围说明
高考前 3500从第 1 名到 3500 名全部
四级前 5000从第 1 名到 5000 名全部

所以直接点”四级”会给你前 5000 个词,不是”四级独有的那一段”。如果你已经掌握了高考 3500,只想补 3500-5000 这一段,就别用预设——手动把”从”改成 3500、“到”改成 5000。预设只是快捷填值,真正的范围由”从 # 到 #“决定,完全可以自定义。

频段难度对照

每个频段对应的大致难度(经验映射、非官方分级,与 COCA 词频查询 口径一致):

频段(COCA 排名)难度定位
≤ 1000高频核心
≤ 1500初中
≤ 3500高考
≤ 5000四级
≤ 7000六级
≤ 10000雅思 6.5+ / 托福 90+
≤ 14000母语高中 / GRE
更高罕用

词性筛选:做专项练习用

只勾”动词”或”形容词”,就能从某个频段里筛出某一类词,适合:

  • 写作选词专项——集中看高级动词 / 形容词,扩充表达
  • 词性辨析——名词、动词分开背,减少混淆

注意一词多性的处理:只要命中任一所选词性就保留。study 既是名词又是动词,勾”动词”它也会出现。词性标记来自 COCA 释义的粗标注,个别词可能不全——做严格专项时建议结合释义再确认。

lemma 原形:背了原形就覆盖变形

导出的是原形(lemma)词表——COCA 表只收原形,running、boxes、higher、quickly 这些派生形态不单独占位,对应的 run、box、high、quick 才在表内。专有名词、地名、品牌也不收。

这其实是优点:背一个原形 = 顺带掌握它的所有常见变形。背了 run,running / ran / runs 自然就会,不必为每个变形单独建卡。背的时候自行扩展即可。

顺带解释一个常见疑问:选”全部”为什么只有约 17600 词、不是 20000?因为原始表里同一原形会因大小写或多词性重复出现,整理时按原形去重合并,剩约 17600 个独立词,但最高排名仍接近 20000——所以编号有跳号是正常的,不是漏词

三种导出,对应不同去处

导出方式内容用在哪
导出 CSV(Anki)两列:正面 = 单词,背面 = 音标 + 释义 + 词频导入 Anki 批量成卡
复制单词每行一个原形,纯列表粘进扇贝 / 不背单词 / 欧路词典等 App
导出 TXT带音标释义的文本自己在 Excel / 文本里二次加工

Anki 导入:菜单”文件 → 导入”,分隔符选逗号,字段映射成”正面 / 背面”,几千词几秒建好。导入前先在 Anki 选好牌组和卡片类型。

扇贝 / 不背单词等 App:用”复制单词”拿到的每行一词纯列表,正是这些 App”导入单词列表 / 自建词库”功能要的格式,直接粘进去即可。

完整的背词闭环

按频段出词表只是其中一环,配合这几个工具效率更高:

  1. 先用 英语词汇量测试 测出自己开始崩的频段,确定背词起点——别从第 1 个词从头背,从你薄弱的那段开始。
  2. 用本工具把那一段(如”从 8000 到 10000”)导出成 Anki 卡,集中突破
  3. 平时读英文撞到生词,用 COCA 词频查询 查它排第几,决定值不值得单独加卡。
  4. 读完整篇文章想系统补它的难词,用 英文文章难度分析 导出超纲生词清单。

背单词不该是”从头啃一本书”,而是按优先级、按需补缺:高频段先吃透,薄弱段单独攻,导成卡片用间隔重复巩固。把顺序理顺,同样的时间能记住的有用词会多得多。

❓ 常见问题

预设里的"高考""四级"是多少词?怎么只要某一段?

预设是累计前 N 个高频词:高考 = 前 3500、四级 = 前 5000,符合"X 词表"的常见说法。如果你只想要某一段(比如已经会了 3500、只补 3500-5000),把"从"改成 3500、"到"改成 5000 即可——预设只是帮你快捷填值,范围完全可以自定义。

频段难度是按什么分的?

沿用本站统一的经验映射,不是官方分级:≤1000 高频核心、≤1500 初中、≤3500 高考、≤5000 四级、≤7000 六级、≤10000 雅思 6.5+/托福 90+、≤14000 母语高中/GRE,更高为罕用。和 COCA 词频查询的难度等级口径一致,只作"大致位置"参照。

导出的 CSV 怎么导入 Anki?

点"导出 CSV(Anki)"得到两列文件——正面 = 单词,背面 = 音标 + 中文释义 + COCA 词频。在 Anki 里"文件 → 导入",分隔符选逗号,字段映射成"正面 / 背面"即可批量成卡。导入前在 Anki 选好牌组和卡片类型,几千词几秒钟就建好。

"复制单词"复制的是什么格式?能导进扇贝吗?

每行一个单词原形,不带音标释义。这种纯列表正是扇贝、不背单词、欧路词典等"导入单词列表"功能要的格式——直接粘进去就能建自定义词库。也可以贴进 Excel / 文本文件自己加工。

词性筛选准吗?一个词有多个词性怎么办?

词性来自 COCA 释义里的标记,归并成名词 / 动词 / 形容词 / 副词 / 其他五组。一词多性时只要命中任一所选词性就保留(如 study 既是名词又是动词,勾"动词"也会出现它)。标记本身是词表整理时的粗标注,个别词可能不全,做严格词性专项时建议结合释义再判断。

为什么有些常见词在表里查不到 / 导不出来?

COCA 表只收 lemma 原形:派生形态(running、boxes、higher、quickly)不单独占位,对应原形(run、box、high、quick)才在表内。专有名词、品牌、地名也不收。所以按频段导出的是原形词表,背的时候自行扩展常见变形(背了 run 就顺带掌握 running / ran)。

"全部"为什么只有约 17600 词,不是 20000?

原始 COCA 20000 词表里同一个原形可能因大小写或多词性重复出现,整理时按原形去重合并,得到约 17600 个独立词,最高排名仍接近 20000——所以编号会有跳号,属正常现象,不是漏词。

数据来自哪个版本的 COCA?生成的词表会上传吗?

来自开源项目 coca-vocabulary-20000 整理的 COCA 高频前 20000 词,与 COCA 词频查询、英文文章难度分析、英语词汇量测试同一份数据,原始为 2017 年前后快照(高频段稳定)。整份词表一次性下发到浏览器,筛选、排序、导出全部本地完成,不上传任何数据,离线也能用。

📋 打开 COCA 词频表生成 按 COCA 词频段(高频核心/初中/高考/四六级/雅思托福/GRE)一键生成单词表·按词性筛选名词动词形容词·含音标中文释义·导出 Anki CSV / TXT / 纯单词列表·本地运行无网络