Question 1

识别准确率怎么样？

Accepted Answer

中等偏上。使用百度 PaddleOCR 的 PP-OCRv4 中文 mobile 模型，常见印刷体、屏幕截图、清晰拍照可达 90%+ 字符准确率。手写、艺术字体、严重模糊或反光会明显下降。中英文混排、繁体、数字符号一并支持，但不识别公式、乐谱。

Question 2

为什么首次要下载 27 MB？

Accepted Answer

模型权重 + ONNX 运行时是真正干活的二进制：检测模型 4.5 MB、识别模型 10.3 MB、字符表 26 KB、ONNX wasm 12 MB。完成后浏览器会长期缓存这些静态文件，下次打开秒开，不再重新下载。

Question 3

图片真的不上传吗？

Accepted Answer

不上传。模型权重从本站静态目录加载，推理在浏览器 WebAssembly 里跑，原图、文字结果完全不离开你的电脑。可以打开 DevTools Network 面板验证：识别过程中无任何对外请求。适合处理含敏感信息的合同、票据、身份证。

Question 4

为什么有的字识别错了？

Accepted Answer

常见原因：(1) 字太小——文字高度建议 ≥ 20 px，太小可先放大或裁切；(2) 反差不够——白底黑字最佳，复杂背景或彩色底字易丢；(3) 倾斜/扭曲——大角度倾斜先用截图工具拉正；(4) 罕见字/异体字——字典外的字（如部分繁体、化学符号）会被识别成形近字。同一段先排除前三类，再考虑字符集问题。

Question 5

为什么处理一张图要好几秒？

Accepted Answer

检测 + 识别两段流水线在主线程上跑：检测找出所有文本框（约 0.5–2 秒），识别再逐框抽字符（每框约 50–200 ms，框越多越慢）。500 字以内通常 2–5 秒完事；超大全屏长截图可能十几秒，建议先截切到关注的区域。我们没用 GPU/WebGPU 加速以保证 Safari 兼容性。

Question 6

为什么有的图识别完一片空白？

Accepted Answer

检测网络一个文本框都没找出来。常见情况：(1) 字太小（< 16 px）；(2) 字与背景对比度太低（淡灰底浅灰字、半透明水印）；(3) 整张图远小于 320 px 短边——模型检测分辨率是 640 × N，太小会被先放大、噪声放大盖过文字。先用图片放大 2 × 再扔进来通常就好了。

Question 7

能识别 PDF 文件吗？

Accepted Answer

当前不行。本工具只接图片格式（PNG/JPG/WEBP/BMP）。如果 PDF 里就是文字层（非扫描件），用 PDF 提取文字 直接读字符层，比 OCR 快百倍且无错。如果 PDF 是扫描件（图像），先用 PDF 转图片 把页面转 PNG，再丢这里识别。

场景	准确率预期
印刷体（书页、文档、海报）	95%+
屏幕截图（网页、App、报错）	92%+
拍照清晰 + 略倾斜	85–92%
拍照模糊 / 反光 / 强阴影	50–80%
手写体（楷书工整）	70–85%
手写体（行/草）	< 50%，不推荐
艺术字、变形 logo	不稳定

工作流程

适用与不适用

隐私与合规

为什么准确率不是 100%

已知限制

📍使用场景

❓常见问题