29.3. Описание параметров хранения Parquet-файлов #
Вы можете указать следующие параметры хранения Parquet-файлов в JSON-файле, после чего применить их при выполнении хранимой процедуры metastore.add_files или metastore.copy_table:
compression: алгоритм сжатия данных.Возможные значения:
snappyzstdgziplz4/lz4_rawbrotliuncompressed
compression_level: уровень сжатия данных.Возможны значения от
1до22.Значение по умолчанию:
3.Необязательный параметр. Игнорируется, если используется любой алгоритм сжатия, кроме zstd.
row_group_size: максимальное количество строк в группе строк. Чем больше значение, тем лучше сжатие. Чем меньше значение, тем больше потоков используется при чтении Parquet-файлов и тем лучше фильтрация по статистике.Минимальное значение:
2048.Значение по умолчанию:
122_880.Рекомендуемый диапазон значений — от
100_000до1_000_000.
Пример 29.3.
{
"compression": "zstd",
"compression_level": 9,
"row_group_size": 500000
}