拿到一篇英文文章,最想知道的两件事:我现在能不能读懂?值不值得花时间精读? 凭感觉翻两眼很容易误判——可能开头简单后面突然变难,也可能满眼生词其实都是人名。
英文文章难度分析把这件事量化:粘进文本,它按 COCA 词频算出覆盖率曲线、难度评级和超纲生词清单,并在原文里高亮生词。核心指标只有一个——覆盖率,搞懂它,整篇文章的难度就一目了然。
覆盖率:读懂一篇英文的关键数字
覆盖率(K) 的定义:掌握 COCA 前 K 个高频词后,你能认出本文里多大比例的词。
词汇研究里有两条公认的阈值:
| 覆盖率 | 含义 | 体验 |
|---|---|---|
| 95% | 能借上下文基本读懂 | 每 20 个词约 1 个生词,连蒙带猜能跟上 |
| 98% | 不查词典也能顺畅读 | 每 50 个词约 1 个生词,几乎无障碍 |
工具会反过来算:本文要达到 95% / 98% 覆盖,各需要掌握到 COCA 前多少词。比如一篇文章”95% 覆盖需掌握前 5200 词、98% 需前 9800 词”——如果你的词汇量是 6000,那它你能借上下文读懂,但还做不到完全无障碍。
这就是为什么覆盖率比”生词个数”有用:它直接和你的词汇量挂钩,告诉你”够不够”,而不只是”有多少不认识”。
难度评级与”内容词中位词频”
工具把”达到 95% 覆盖所需的词量”映射成一个难度锚点:
| 95% 覆盖所需词量 | 难度评级 |
|---|---|
| ≤ 1500 | 入门 |
| ≤ 3500 | 高考 |
| ≤ 5000 | 四级 |
| ≤ 7000 | 六级 |
| ≤ 10000 | 雅思 6.5+ / 托福 90+ |
| ≤ 14000 | 母语高中 / GRE |
| 更高 | 母语成人 / 学术 |
这是粗略锚点,不是官方分级——适合横向比较”A 篇和 B 篇哪个更难”,别拿去当精确的 CEFR 或蓝思值。
除覆盖率外还有一个补充指标:内容词中位词频——去掉 the / of / and 这类功能词后,所有实义词排名的中位数。它能抓住覆盖率漏掉的难度:有些文章覆盖率不低,但实义词整体偏冷门(中位数大),读起来照样”硬”。两个指标一起看更全面。
lemma 还原:不会把 studies 当生词
英文里同一个词有大量变形,而 COCA 表只收原形。如果不做还原,running、studies、boxes 全会被当成”查不到的生词”,覆盖率会被严重低估。
工具内置反向去屈折规则 + 不规则动词 / 复数表,会先还原再查频:
| 原文形态 | 还原为 | 查的频率 |
|---|---|---|
| running、ran | run | run 的排名 |
| studies、studied | study | study 的排名 |
| boxes | box | box 的排名 |
| bigger、biggest | big | big 的排名 |
| went、gone | go | go 的排名 |
| children | child | child 的排名 |
遇到歧义——比如 studied 既是 study 的过去式、又是个罕用形容词——取更常见的那个读法,绝不会把一个常见变形误判成超纲生词。同形词如 saw(see 的过去式 / “锯”)按最低词频排名取,算作 see。这对难度画像无伤大雅,两种读法难度往往同档;要精确区分某个词的多重词性,用 COCA 词频查询 单查。
“未收录”和”超纲生词”是两回事
这是最容易混淆、也最影响判断的一点。工具把不在你水平线内的词分成两类,处理方式完全不同:
| 类型 | 是什么 | 进超纲清单吗 | 影响覆盖率吗 |
|---|---|---|---|
| 超纲生词 | 在 COCA 表内、但排名超出你的水平线 | 进,值得背 | 影响 |
| 未收录词 | 还原后仍不在 COCA 20000 内 | 不进,背它性价比太低 | 拉低覆盖率 |
未收录词多是专有名词(人名 / 地名 / 品牌)、拼写错误、或 20000 名外的罕用专业词。它们会拉低覆盖率(你确实不靠高频词表认识它们),但不进超纲生词清单——因为为一个只在这篇出现的人名单开 Anki 卡毫无意义,何况靠上下文就能认出。
所以专名密集的新闻 / 小说,覆盖率和 98% 阅读线会偏保守。 指标卡单列了”未收录词”数量,看到这个数字大,就知道覆盖率的虚低主要是专名造成的,不必被吓到——真正该关注的是超纲生词清单。
把超纲生词变成 Anki 卡
分析完,在”超纲生词”卡片选你的水平线(高考 / 四级 / 六级 / 雅思),工具列出超出这条线的词,每个带音标、释义、在本文出现次数,并已按词去重、按词频从难到易排序。
导出两种格式:
- Anki CSV:两列(正面 = 单词,背面 = 音标 + 释义 + 词频)。Anki 里”文件 → 导入”选逗号分隔即可批量成卡。
- TXT:自己再加工。
生词还会在原文里整篇高亮,鼠标悬停看释义——读的时候一眼定位难点在哪。
谁用得上、怎么用
| 场景 | 怎么用 |
|---|---|
| 判断一篇英文超不超纲 | 看 95% 覆盖所需词量是否在你词汇量以内 |
| 备考给真题定难度 | 贴真题阅读,看难度评级和生词分布,决定值不值得精读 |
| 老师 / 家长选读物 | 过一遍覆盖率曲线 + 超纲生词数,判断适不适合学生当前阶段 |
| 写作自查用词 | 贴自己写的英文,看有没有堆砌生僻词影响可读性 |
配套工具
- 不确定自己词汇量在哪条线?先做 英语词汇量测试,得到一个区间再来看覆盖率。
- 想单独查某个生词排第几、要不要背?用 COCA 词频查询。
- 想按频段系统性补词、而不只背这一篇的生词?用 COCA 词频表生成。
读英文不该靠”硬啃到底”或”看一眼就放弃”这两个极端。先量一下覆盖率:在你水平线以内的就放心读、顺手背几个超纲词;远超你水平的就先搁置、换更合适的材料——把精力花在”跳一跳够得着”的文章上,进步最快。