📊

Parquet 示例文件

.parquet

Apache Parquet 列式存储格式,大数据分析常用格式

扩展名
.parquet
MIME 类型
application/x-parquet
格式
Parquet 示例文件

下载

📊
sample-100KB.parquet
sample-100KB.parquet
下载
📊
sample-500KB.parquet
sample-500KB.parquet
下载
📊
sample-1MB.parquet
sample-1MB.parquet
下载

为什么选择下载 Parquet 示例文件?

Parquet 是列式存储格式,擅长分析型工作负载:压缩按列同类数据更紧,谓词下推读取列子集时 IO 与 CPU 解码成本都会下降。它在数据湖(Iceberg、Delta、Hudi)、Spark、Pandas 与云上查询引擎之间扮演“共同语言”,但实现细节如字典编码、RLE/bit-packing 混合页、嵌套与 repeated 结构的 Repetition/Definition Level 规则,让同样自称 Parquet 的文件在兼容性上并非 trivial。示例文件可以验证 pyarrow、fastparquet、Trino 之间对时间戳时区、decimal 精度与 nullability 的共识是否一致;也能暴露 writer 版本升级后的页统计信息变化是否影响优化器选择。对隐私治理而言,列级统计(min/max)有时会泄露敏感范围;样本帮助你在脱敏策略讨论里用具体字段演示风险。小文件问题(many small files)虽不属格式本身,但往往与 Parquet on object storage 共生;示例也能用于演练 compaction 前后查询成本对比。综上,Parquet 把性能问题前移到“编码与 schema”层面,样本是让团队对齐这种思维切换的工具。

如何下载并使用 Parquet 示例文件?

  1. 确认样本的 schema、行组大小与是否含嵌套结构,再选择与你查询引擎版本相近的构建参数下载。
  2. 用 parquet-tools 或 DuckDB 读取 metadata 与前几行,核对统计信息与字典页是否存在。
  3. 跑一次典型过滤+投影查询并记录扫描字节数,把结果作为压缩与分区策略评审的量化依据。

Parquet 示例相关常见问题

Parquet 能做事务 OLTP 吗?
它面向批量分析与追加写入优化,不适合高频小事务;示例帮助你在架构图上把在线库与分析湖用正确边界划开而不是混用同一访问模式。
为什么会有小文件治理?
对象存储列出大量小对象昂贵且破坏数据局部性;样本用于演示 compaction 前后 listing 成本与查询延迟的差异以推动自动化治理。
Schema 演化要注意什么?
新增可选列、重命名与类型兼容性需要与读取端协商;示例包含多版本文件混合目录时可以验证合并读取规则是否按预期补齐默认值。
如何验证压缩算法?
查看 column chunk 的 codec(SNAPPY、ZSTD 等)并与业务 CPU 预算对照;样本轮换不同 codec 帮助你找到延迟与体积的平衡点。
嵌套数据怎么表示?
使用 repeated/optional 组合与子列拆分;示例能让你检查 Spark 与 Arrow 对同一逻辑类型的内存布局是否一致以免 silent 截断。
More versions