Question 1

扫描件能提取吗？

Accepted Answer

不能。本工具只读 PDF 的文字层（用 pdf.js 的 getTextContent），扫描件本质是图片，文字层为空，提取结果也是空。处理扫描件需要先 OCR——可以先用 PDF 转图片 导出每页 PNG，再用本地 OCR（Tesseract、PaddleOCR）或在线 OCR 服务识别为文字。

Question 2

Markdown 的标题（# / ##）准确吗？

Accepted Answer

启发式判断，按字号比例：全文出现频率最高的字号被视为"正文字号"，比正文大 1.6× 且行长 < 80 字 → #；大 1.3× → ##；大 1.1× 且单行 → ###。这对有清晰章节标题的论文、报告、说明书识别效果好；对纯散文（字号无差异）则全是普通段落。识别错了请手动改。

Question 3

双栏排版 / 复杂版式怎么处理？

Accepted Answer

会按 y 坐标分行——双栏 PDF 的左右两栏在同一 y 高度，会被错误地拼到同一行。解决：先用 PDF 拆分 按页拆，或先用 PDF 编辑工具裁成单栏；或者直接用纯 TXT 格式后手动整理。本工具不做复杂版面分析，定位是"快速、轻量、不上传"。

Question 4

表格、公式能保留吗？

Accepted Answer

表格：单元格按位置读出来再按行拼，结果是纯文本流，原本的列对齐会丢失。需要保留表格结构请走专业工具（Tabula、camelot-py）。公式：LaTeX 渲染的公式在 PDF 里通常只有图像，文字层为空——会丢失；MathJax 渲染的公式有时能抽出 Unicode 字符（不全）。简单说：纯文字段落 → 效果好；含表格/公式 → 注意检查。

Question 5

中英文混排会乱吗？

Accepted Answer

不会。中文和英文在文字流里是独立 char，按 x 坐标拼接；中文之间不插空格，英文单词之间根据 x 间距判断是否插空格——和原文保持一致。注意：某些 PDF 用了不规范字体导致中文出现"乱码字符"（Unicode PUA 私有码点），是字体编码问题，本工具无能为力，需要用 OCR 重新识别。

Question 6

大文件处理慢怎么办？

Accepted Answer

提取在浏览器主线程跑，每 4 页让出一次让 UI 不卡。100 页文档大概 2-5 秒；500 页可能需要 10-20 秒。Mac M 系列、PC 桌面端会更快，老安卓机会慢。没必要先抽全文——可以先填"页面范围"如 1-20，只看前面几节确认效果，再扩到全部。

格式	写法	适合
纯文字 TXT	段落用空行分隔，无任何标记	翻译、文本对比、纯阅读
Markdown	`#` `##` `###` 标题 + `-` 列表	AI 投喂、笔记软件、保留章节感

两种输出格式

启发式拆解

范围选择

局限与提醒

📍使用场景

❓常见问题

两种输出格式

启发式拆解

范围选择

局限与提醒

📍使用场景

❓常见问题

🔧相关工具

🗂所属主题专题

📚延伸阅读