一篇英文我能读懂吗——95% / 98% 词汇覆盖率、超纲生词和难度评级怎么算

· 约 5 分钟 📊 英文文章难度分析

拿到一篇英文文章,最想知道的两件事:我现在能不能读懂?值不值得花时间精读? 凭感觉翻两眼很容易误判——可能开头简单后面突然变难,也可能满眼生词其实都是人名。

英文文章难度分析把这件事量化:粘进文本,它按 COCA 词频算出覆盖率曲线、难度评级和超纲生词清单,并在原文里高亮生词。核心指标只有一个——覆盖率,搞懂它,整篇文章的难度就一目了然。

覆盖率:读懂一篇英文的关键数字

覆盖率(K) 的定义:掌握 COCA 前 K 个高频词后,你能认出本文里多大比例的词。

词汇研究里有两条公认的阈值:

覆盖率含义体验
95%能借上下文基本读懂每 20 个词约 1 个生词,连蒙带猜能跟上
98%不查词典也能顺畅读每 50 个词约 1 个生词,几乎无障碍

工具会反过来算:本文要达到 95% / 98% 覆盖,各需要掌握到 COCA 前多少词。比如一篇文章”95% 覆盖需掌握前 5200 词、98% 需前 9800 词”——如果你的词汇量是 6000,那它你能借上下文读懂,但还做不到完全无障碍。

这就是为什么覆盖率比”生词个数”有用:它直接和你的词汇量挂钩,告诉你”够不够”,而不只是”有多少不认识”。

难度评级与”内容词中位词频”

工具把”达到 95% 覆盖所需的词量”映射成一个难度锚点:

95% 覆盖所需词量难度评级
≤ 1500入门
≤ 3500高考
≤ 5000四级
≤ 7000六级
≤ 10000雅思 6.5+ / 托福 90+
≤ 14000母语高中 / GRE
更高母语成人 / 学术

这是粗略锚点,不是官方分级——适合横向比较”A 篇和 B 篇哪个更难”,别拿去当精确的 CEFR 或蓝思值。

除覆盖率外还有一个补充指标:内容词中位词频——去掉 the / of / and 这类功能词后,所有实义词排名的中位数。它能抓住覆盖率漏掉的难度:有些文章覆盖率不低,但实义词整体偏冷门(中位数大),读起来照样”硬”。两个指标一起看更全面。

lemma 还原:不会把 studies 当生词

英文里同一个词有大量变形,而 COCA 表只收原形。如果不做还原,running、studies、boxes 全会被当成”查不到的生词”,覆盖率会被严重低估。

工具内置反向去屈折规则 + 不规则动词 / 复数表,会先还原再查频:

原文形态还原为查的频率
running、ranrunrun 的排名
studies、studiedstudystudy 的排名
boxesboxbox 的排名
bigger、biggestbigbig 的排名
went、gonegogo 的排名
childrenchildchild 的排名

遇到歧义——比如 studied 既是 study 的过去式、又是个罕用形容词——取更常见的那个读法,绝不会把一个常见变形误判成超纲生词。同形词如 saw(see 的过去式 / “锯”)按最低词频排名取,算作 see。这对难度画像无伤大雅,两种读法难度往往同档;要精确区分某个词的多重词性,用 COCA 词频查询 单查。

“未收录”和”超纲生词”是两回事

这是最容易混淆、也最影响判断的一点。工具把不在你水平线内的词分成两类,处理方式完全不同:

类型是什么进超纲清单吗影响覆盖率吗
超纲生词在 COCA 表内、但排名超出你的水平线进,值得背影响
未收录词还原后仍不在 COCA 20000 内不进,背它性价比太低拉低覆盖率

未收录词多是专有名词(人名 / 地名 / 品牌)、拼写错误、或 20000 名外的罕用专业词。它们会拉低覆盖率(你确实不靠高频词表认识它们),但不进超纲生词清单——因为为一个只在这篇出现的人名单开 Anki 卡毫无意义,何况靠上下文就能认出。

所以专名密集的新闻 / 小说,覆盖率和 98% 阅读线会偏保守。 指标卡单列了”未收录词”数量,看到这个数字大,就知道覆盖率的虚低主要是专名造成的,不必被吓到——真正该关注的是超纲生词清单。

把超纲生词变成 Anki 卡

分析完,在”超纲生词”卡片选你的水平线(高考 / 四级 / 六级 / 雅思),工具列出超出这条线的词,每个带音标、释义、在本文出现次数,并已按词去重、按词频从难到易排序

导出两种格式:

  • Anki CSV:两列(正面 = 单词,背面 = 音标 + 释义 + 词频)。Anki 里”文件 → 导入”选逗号分隔即可批量成卡。
  • TXT:自己再加工。

生词还会在原文里整篇高亮,鼠标悬停看释义——读的时候一眼定位难点在哪。

谁用得上、怎么用

场景怎么用
判断一篇英文超不超纲看 95% 覆盖所需词量是否在你词汇量以内
备考给真题定难度贴真题阅读,看难度评级和生词分布,决定值不值得精读
老师 / 家长选读物过一遍覆盖率曲线 + 超纲生词数,判断适不适合学生当前阶段
写作自查用词贴自己写的英文,看有没有堆砌生僻词影响可读性

配套工具

读英文不该靠”硬啃到底”或”看一眼就放弃”这两个极端。先量一下覆盖率:在你水平线以内的就放心读、顺手背几个超纲词;远超你水平的就先搁置、换更合适的材料——把精力花在”跳一跳够得着”的文章上,进步最快。

❓ 常见问题

覆盖率是什么意思?95% 和 98% 怎么理解?

覆盖率(K) 指掌握 COCA 前 K 个高频词后,能认出本文里多大比例的词。词汇研究里 95% 覆盖约等于"能借上下文基本读懂",98% 约等于"不查词典也能顺畅读"。工具会算出本文达到这两条线各需掌握到前多少词,再把这个词量映射成考试水平。

为什么有些词被标成"未收录"?

"未收录"指还原成原形后仍不在 COCA 20000 词表内,多数是专有名词(人名 / 地名 / 品牌)、拼写变体或错误、或确实属于 20000 名之外的罕用专业词。处理上:未收录词会拉低覆盖率(你确实不靠高频词表认识它们),但不进"超纲生词"清单(背它们性价比太低)。

running、studies 这种变形能正确识别吗?

能。COCA 表只收原形(lemma),工具内置反向去屈折规则 + 不规则动词 / 复数表:running → run、studies → study、boxes → box、bigger → big、went → go、children → child 都会先还原再查频。遇到一个形态既是常见词的变形、又对应某个罕用词条时,取更常见那个读法,绝不会把常见变形误判成超纲生词。

难度评级是怎么定的?准吗?

用"达到 95% 覆盖所需的词量"经经验值映射:≤1500 入门、≤3500 高考、≤5000 四级、≤7000 六级、≤10000 雅思 6.5+/托福 90+、≤14000 母语高中/GRE,更高为母语成人 / 学术。这是粗略锚点不是官方分级,适合横向比"哪篇更难",别当成精确的 CEFR 或蓝思值。

同形词怎么处理?比如 saw 既是 see 的过去式又是"锯"。

工具按"最常见读法"取最低词频排名的解释,所以 saw 会算作 see。对"难度画像"来说无伤大雅——两种读法的难度往往同档。如果你需要某个具体词的精确词性和多重释义,用 COCA 词频查询单独查那一个词。

专有名词会不会让覆盖率虚低?

会有一点。人名、地名、品牌不在 COCA 表里,被算作未收录、不计入覆盖,所以专名密集的新闻 / 小说,覆盖率和"98% 阅读线"会偏保守。指标卡里单独列了"未收录词"数量,方便你判断有多少是专名造成的虚低——其实它们靠上下文就能认出,不必当成真正的阅读障碍。

超纲生词清单怎么配合 Anki?

点"导出 Anki CSV"得到两列文件(正面 = 单词,背面 = 音标 + 释义 + 词频),在 Anki 里"文件 → 导入"选逗号分隔即可成卡。清单已按词去重、标注出现次数、按词频从难到易排序,也可导出 TXT 自己加工。

我粘贴的文章会被上传吗?

不会。词频表一次性下发到浏览器,分词、还原、查表、统计、高亮全部在本地完成,不向任何服务器发送你的文本,可以放心贴敏感或未公开的内容,断网也能分析。

"内容词中位词频"是什么指标?

去掉 the / of / and 这类功能词(前 100 名)后,文中所有实义词词频排名的中位数。它是覆盖率之外的另一个难度参考:中位数越大,说明文章用的实义词整体越偏冷门,即便覆盖率不低,读起来也可能更"硬"。

📊 打开 英文文章难度分析 粘贴英文文章·按 COCA 词频算词汇覆盖率与阅读难度评级·超纲生词在原文高亮+音标释义·对标高考/四六级/雅思·一键导出 Anki·本地运行