28.5. Вывод отфильтрованных Parquet-файлов #

Вывести Parquet-файлы можно после вывода столбцов аналитической таблицы. Полученные Parquet-файлы можно отфильтровать с помощью статистики из таблицы метаданных pga_file_column_statistics.

Чтобы вывести список Parquet-файлов и отфильтровать их по значениям столбцов, выполните следующий запрос:

SELECT data_file_id
FROM ducklake_file_column_stats
WHERE
    table_id = идентификатор_таблицы AND
    column_id = идентификатор_столбца AND
    (SCALAR >= min_value OR min_value IS NULL) AND
    (SCALAR <= max_value OR max_value IS NULL);

Где:

  • идентификатор_таблицы: идентификатор таблицы из таблицы метаданных pga_table, к которой относятся Parquet-файлы.

  • идентификатор_столбца: идентификатор столбца из таблицы метаданных pga_column, значения которого используются для фильтрации Parquet-файлов.

    В этом примере будут выведены только те Parquet-файлы, у которых в столбце column_ID нет скалярных значений.

Чтобы отфильтровать значения столбцов, можно использовать разные условия, такие как > (больше чем), изменяя запрос соответствующим образом.

Минимальные и максимальные значения для каждого столбца хранятся в виде массивов строк и должны быть преобразованы к числовому типу.