29.3. Описание параметров хранения Parquet-файлов #

Вы можете указать следующие параметры хранения Parquet-файлов в JSON-файле, после чего применить их при выполнении хранимой процедуры metastore.add_files или metastore.copy_table:

  • compression: алгоритм сжатия данных.

    Возможные значения:

    • snappy

    • zstd

    • gzip

    • lz4/lz4_raw

    • brotli

    • uncompressed

  • compression_level: уровень сжатия данных.

    Возможны значения от 1 до 22.

    Значение по умолчанию: 3.

    Необязательный параметр. Игнорируется, если используется любой алгоритм сжатия, кроме zstd.

  • row_group_size: максимальное количество строк в группе строк. Чем больше значение, тем лучше сжатие. Чем меньше значение, тем больше потоков используется при чтении Parquet-файлов и тем лучше фильтрация по статистике.

    Минимальное значение: 2048.

    Значение по умолчанию: 122_880.

    Рекомендуемый диапазон значений — от 100_000 до 1_000_000.

Пример 29.3.

  {
      "compression": "zstd",
      "compression_level": 9,
      "row_group_size": 500000
  }