39.5. Получение отфильтрованных Parquet-файлов #

Получить Parquet-файлы можно после получения столбцов аналитической таблицы. Полученные Parquet-файлы можно отфильтровать с помощью статистики из таблицы метаданных pga_file_column_statistics.

Выполните следующую команду на сервере с каталогом метаданных:

SELECT data_file_id
FROM axe_catalog.pga_file_column_statistics
WHERE
    table_id = идентификатор_таблицы AND
    column_id = идентификатор_столбца AND
    (SCALAR >= min_value OR min_value IS NULL) AND
    (SCALAR <= max_value OR max_value IS NULL);

Где:

  • идентификатор_таблицы: идентификатор аналитической таблицы из таблицы метаданных pga_table, которая содержит Parquet-файлы.

  • идентификатор_столбца: идентификатор столбца, значения которого используются для фильтрации Parquet-файлов, из таблицы метаданных pga_column.

    Вы получаете только Parquet-файлы, диапазон значений столбцов которых содержит указанное скалярное значение.

Чтобы отфильтровать значения столбцов, можно использовать разные условия, такие как > (больше чем), изменяя команду соответствующим образом. Минимальные и максимальные значения для каждого столбца хранятся в виде массивов строк и должны быть преобразованы к числовому типу.