覆盖率是什么意思？95% 和 98% 怎么理解？

覆盖率(K) 指掌握 COCA 前 K 个高频词后，能认出本文里多大比例的词。词汇研究里 95% 覆盖约等于"能借上下文基本读懂"，98% 约等于"不查词典也能顺畅读"。工具会算出本文达到这两条线各需掌握到前多少词，再把这个词量映射成考试水平。

为什么有些词被标成"未收录"？

"未收录"指还原成原形后仍不在 COCA 20000 词表内，多数是专有名词（人名 / 地名 / 品牌）、拼写变体或错误、或确实属于 20000 名之外的罕用专业词。处理上：未收录词会拉低覆盖率（你确实不靠高频词表认识它们），但不进"超纲生词"清单（背它们性价比太低）。

running、studies 这种变形能正确识别吗？

能。COCA 表只收原形(lemma)，工具内置反向去屈折规则 + 不规则动词 / 复数表：running → run、studies → study、boxes → box、bigger → big、went → go、children → child 都会先还原再查频。遇到一个形态既是常见词的变形、又对应某个罕用词条时，取更常见那个读法，绝不会把常见变形误判成超纲生词。

难度评级是怎么定的？准吗？

用"达到 95% 覆盖所需的词量"经经验值映射：≤1500 入门、≤3500 高考、≤5000 四级、≤7000 六级、≤10000 雅思 6.5+/托福 90+、≤14000 母语高中/GRE，更高为母语成人 / 学术。这是粗略锚点不是官方分级，适合横向比"哪篇更难"，别当成精确的 CEFR 或蓝思值。

同形词怎么处理？比如 saw 既是 see 的过去式又是"锯"。

工具按"最常见读法"取最低词频排名的解释，所以 saw 会算作 see。对"难度画像"来说无伤大雅——两种读法的难度往往同档。如果你需要某个具体词的精确词性和多重释义，用 COCA 词频查询单独查那一个词。

专有名词会不会让覆盖率虚低？

会有一点。人名、地名、品牌不在 COCA 表里，被算作未收录、不计入覆盖，所以专名密集的新闻 / 小说，覆盖率和"98% 阅读线"会偏保守。指标卡里单独列了"未收录词"数量，方便你判断有多少是专名造成的虚低——其实它们靠上下文就能认出，不必当成真正的阅读障碍。

超纲生词清单怎么配合 Anki？

点"导出 Anki CSV"得到两列文件（正面 = 单词，背面 = 音标 + 释义 + 词频），在 Anki 里"文件 → 导入"选逗号分隔即可成卡。清单已按词去重、标注出现次数、按词频从难到易排序，也可导出 TXT 自己加工。

我粘贴的文章会被上传吗？

不会。词频表一次性下发到浏览器，分词、还原、查表、统计、高亮全部在本地完成，不向任何服务器发送你的文本，可以放心贴敏感或未公开的内容，断网也能分析。

"内容词中位词频"是什么指标？

去掉 the / of / and 这类功能词（前 100 名）后，文中所有实义词词频排名的中位数。它是覆盖率之外的另一个难度参考：中位数越大，说明文章用的实义词整体越偏冷门，即便覆盖率不低，读起来也可能更"硬"。

一篇英文我能读懂吗——95% / 98% 词汇覆盖率、超纲生词和难度评级怎么算

拿到一篇英文文章，最想知道的两件事：我现在能不能读懂？值不值得花时间精读？ 凭感觉翻两眼很容易误判——可能开头简单后面突然变难，也可能满眼生词其实都是人名。

英文文章难度分析把这件事量化：粘进文本，它按 COCA 词频算出覆盖率曲线、难度评级和超纲生词清单，并在原文里高亮生词。核心指标只有一个——覆盖率，搞懂它，整篇文章的难度就一目了然。

覆盖率：读懂一篇英文的关键数字

覆盖率(K) 的定义：掌握 COCA 前 K 个高频词后，你能认出本文里多大比例的词。

词汇研究里有两条公认的阈值：

覆盖率	含义	体验
95%	能借上下文基本读懂	每 20 个词约 1 个生词，连蒙带猜能跟上
98%	不查词典也能顺畅读	每 50 个词约 1 个生词，几乎无障碍

工具会反过来算：本文要达到 95% / 98% 覆盖，各需要掌握到 COCA 前多少词。比如一篇文章”95% 覆盖需掌握前 5200 词、98% 需前 9800 词”——如果你的词汇量是 6000，那它你能借上下文读懂，但还做不到完全无障碍。

这就是为什么覆盖率比”生词个数”有用：它直接和你的词汇量挂钩，告诉你”够不够”,而不只是”有多少不认识”。

难度评级与”内容词中位词频”

工具把”达到 95% 覆盖所需的词量”映射成一个难度锚点：

95% 覆盖所需词量	难度评级
≤ 1500	入门
≤ 3500	高考
≤ 5000	四级
≤ 7000	六级
≤ 10000	雅思 6.5+ / 托福 90+
≤ 14000	母语高中 / GRE
更高	母语成人 / 学术

这是粗略锚点，不是官方分级——适合横向比较”A 篇和 B 篇哪个更难”，别拿去当精确的 CEFR 或蓝思值。

除覆盖率外还有一个补充指标：内容词中位词频——去掉 the / of / and 这类功能词后，所有实义词排名的中位数。它能抓住覆盖率漏掉的难度：有些文章覆盖率不低，但实义词整体偏冷门（中位数大），读起来照样”硬”。两个指标一起看更全面。

lemma 还原：不会把 studies 当生词

英文里同一个词有大量变形，而 COCA 表只收原形。如果不做还原，running、studies、boxes 全会被当成”查不到的生词”，覆盖率会被严重低估。

工具内置反向去屈折规则 + 不规则动词 / 复数表，会先还原再查频：

原文形态	还原为	查的频率
running、ran	run	run 的排名
studies、studied	study	study 的排名
boxes	box	box 的排名
bigger、biggest	big	big 的排名
went、gone	go	go 的排名
children	child	child 的排名

遇到歧义——比如 studied 既是 study 的过去式、又是个罕用形容词——取更常见的那个读法，绝不会把一个常见变形误判成超纲生词。同形词如 saw（see 的过去式 / “锯”）按最低词频排名取，算作 see。这对难度画像无伤大雅，两种读法难度往往同档；要精确区分某个词的多重词性，用 COCA 词频查询单查。

“未收录”和”超纲生词”是两回事

这是最容易混淆、也最影响判断的一点。工具把不在你水平线内的词分成两类，处理方式完全不同：

类型	是什么	进超纲清单吗	影响覆盖率吗
超纲生词	在 COCA 表内、但排名超出你的水平线	进，值得背	影响
未收录词	还原后仍不在 COCA 20000 内	不进，背它性价比太低	拉低覆盖率

未收录词多是专有名词（人名 / 地名 / 品牌）、拼写错误、或 20000 名外的罕用专业词。它们会拉低覆盖率（你确实不靠高频词表认识它们），但不进超纲生词清单——因为为一个只在这篇出现的人名单开 Anki 卡毫无意义，何况靠上下文就能认出。

所以专名密集的新闻 / 小说，覆盖率和 98% 阅读线会偏保守。 指标卡单列了”未收录词”数量，看到这个数字大，就知道覆盖率的虚低主要是专名造成的，不必被吓到——真正该关注的是超纲生词清单。

把超纲生词变成 Anki 卡

分析完，在”超纲生词”卡片选你的水平线（高考 / 四级 / 六级 / 雅思），工具列出超出这条线的词，每个带音标、释义、在本文出现次数，并已按词去重、按词频从难到易排序。

导出两种格式：

Anki CSV：两列（正面 = 单词，背面 = 音标 + 释义 + 词频）。Anki 里”文件 → 导入”选逗号分隔即可批量成卡。
TXT：自己再加工。

生词还会在原文里整篇高亮，鼠标悬停看释义——读的时候一眼定位难点在哪。

谁用得上、怎么用

场景	怎么用
判断一篇英文超不超纲	看 95% 覆盖所需词量是否在你词汇量以内
备考给真题定难度	贴真题阅读，看难度评级和生词分布，决定值不值得精读
老师 / 家长选读物	过一遍覆盖率曲线 + 超纲生词数，判断适不适合学生当前阶段
写作自查用词	贴自己写的英文，看有没有堆砌生僻词影响可读性

配套工具

不确定自己词汇量在哪条线？先做英语词汇量测试，得到一个区间再来看覆盖率。
想单独查某个生词排第几、要不要背？用 COCA 词频查询。
想按频段系统性补词、而不只背这一篇的生词？用 COCA 词频表生成。

读英文不该靠”硬啃到底”或”看一眼就放弃”这两个极端。先量一下覆盖率：在你水平线以内的就放心读、顺手背几个超纲词；远超你水平的就先搁置、换更合适的材料——把精力花在”跳一跳够得着”的文章上，进步最快。