Question 1

文件会上传到服务器吗？

Accepted Answer

完全不会。底层是 hyparquet 这个纯 JavaScript 的 Parquet 解析器，全部在浏览器里跑。文件用 File.arrayBuffer() 读进内存就开始解析，没有任何网络请求。可以断网用，也可以打开 DevTools 的 Network 面板自行验证。适合处理敏感数据：内部表、客户日志、未脱敏的 dump 都不会离开你的电脑。

Question 2

支持哪些压缩格式？

Accepted Answer

常见的 Snappy / GZIP / ZSTD / Brotli / LZ4_RAW 都直接读，由 hyparquet-compressors 配套库提供。不需要 wasm 也不需要外部解压器。如果遇到 LZO（已废弃）或 LZ4_HADOOP 这种小众 codec 会报错——这些已经基本没人用了，pandas/polars/duckdb/spark 默认都不会写出。

Question 3

多大的文件能打开？

Accepted Answer

1-2 GB 以内比较稳定。整个文件被读进 ArrayBuffer，再加上解码列时的临时数组，内存峰值大约是文件大小的 2-3 倍。如果你的文件超过 2 GB，建议先用本地的 DuckDB / pandas 拆成多个 row group 再过来看，或者直接用本工具兄弟项目「DuckDB SQL 查询台」——它支持流式读取，对超大文件更友好。

Question 4

嵌套字段（struct/list/map）能看吗？

Accepted Answer

能解析、能预览。叶子列会显示完整的点分路径（例如 address.city、tags.list.element），数据预览中嵌套对象/数组会被序列化成 JSON 字符串显示。如果你的 Parquet 来自 Spark / Iceberg / GeoParquet，结构会很深，建议在专门的「DuckDB SQL 查询台」里用 UNNEST / ->> 操作符更舒服。

Question 5

翻页是把整个文件读完再翻吗？

Accepted Answer

不是，按需读取。每翻一页只解码当前页对应的行范围（hyparquet 的 rowStart / rowEnd 参数），所以即使是几千万行的文件也能瞬间翻到第 1 页。但「导出全部」会把整个文件解码到内存，超过 50 万行会自动降级为只导出当前页防止浏览器卡死——大文件请用 DuckDB SQL 工具的 SQL 导出。

Question 6

时间戳/Decimal/UUID 显示对吗？

Accepted Answer

基本对。Timestamp 按 logical type 解码（毫秒/微秒/纳秒，是否带 UTC），显示为 ISO-8601；Decimal 当前以原始整数显示（待补 scale 还原）；Date 转成 YYYY-MM-DD；UUID 显示为字节预览。如果某列显示成 <bytes 16> 类的字节预览，多半是 FIXED_LEN_BYTE_ARRAY 但没带 logical type 提示——原始 Parquet 文件本身没标注，工具无从猜测。

Question 7

这工具和 DuckDB SQL 查询台有什么区别？

Accepted Answer

预览器专注「快速看一眼」：拖进去 3 秒看到 schema、统计、前 N 行，零学习成本，包体积小（hyparquet 约 50 KB）。SQL 查询台面向「真分析」：能跑 SELECT/JOIN/聚合/窗口函数，能多文件 JOIN，能在浏览器里跑复杂 SQL，但 DuckDB-Wasm 包体积约 35 MB，首次加载需要几秒。只想看下文件结构用本工具；想做查询/聚合点页面底部的「DuckDB SQL 查询台」。

为什么单独做一个预览器

隐私设计

一屏看完

翻页按需读

配套工具

📍使用场景

❓常见问题