Приложение I. Глоссарий

Аналитическая схема

Отдельное пространство имён для метаданных аналитических таблиц. Аналитические схемы похожи на схемы Postgres Pro.

Метаданные аналитических схем хранятся в таблице метаданных pga_schema.

За подробной информацией о работе с аналитическими схемами обратитесь к Разделу 3.5.

Аналитическая таблица

Набор столбцов и строк с OLAP-данными, предоставляющий полную историю изменений данных и типа таблицы.

Строки аналитических таблиц хранятся в виде Parquet-файлов в хранилище. Метаданные аналитических таблиц хранятся в таблице метаданных pga_table.

За подробной информацией о работе с аналитическими таблицами обратитесь к Разделу 3.3.

Тип аналитической таблицы

Упорядоченный набор столбцов аналитической таблицы, состоящий из их имён, типов и ограничений. Тип аналитической таблицы обновляется при работе со столбцами.

Представление аналитической таблицы

Представление Postgres Pro, которое предоставляет пользователям набор столбцов и строк аналитической таблицы. Представления используют метаданные аналитических таблиц каталога pgpro_metastore для эффективного выполнения аналитических запросов с отсечением секций (partition pruning) и проталкиванием предикатов (predicate pushdown).

За подробной информацией о создании представлений аналитических таблиц обратитесь к Подразделу 3.3.3.

Операция выгрузки, преобразования и загрузки (Extract, Transform, Load — ETL)

Операция, которая выгружает, преобразовывает или загружает OLAP-данные аналитических таблиц. В настоящее время pgpro_metastore поддерживает следующие ETL-операции:

Таблица-куча

Стандартная таблица Postgres Pro.

Parquet

Бинарный формат файлов с открытым исходным кодом, разработанный для хранения и обработки больших объёмов данных. Данные организованы в виде столбцов, а не строк. Подобная столбцовая структура позволяет выполнять аналитические запросы быстрее, так как сканируются только требуемые столбцы, за счёт чего уменьшается объём обрабатываемых данных. Формат Parquet также поддерживает сжатие и кодирование для снижения размера файлов, например сжатие по столбцам, кодирование словаря, а также кодирование длин серий (Run-Lengh Encoding, RLE).

pgpro_metastore хранит OLAP-данные в виде Parquet-файлов.

Информация о Parquet-файлах хранится в таблицах метаданных pga_data_file, pga_files_scheduled_for_deletion и pga_file_partition_value.

За подробной информацией о формате Parquet обратитесь к https://parquet.apache.org.

Секция

Группа Parquet-файлов, созданных на основании критериев секционирования, таких как определённые значения столбцов или диапазоны значений столбцов. Каждая аналитическая таблица имеет как минимум одну секцию. Дополнительные секции могут быть созданы одним из следующих способов:

  • автоматически при достижении лимита количества Parquet-файлов в секции;

  • на основании критериев секционирования.

Секционирование

Процесс распределения OLAP-данных аналитических таблиц между Parquet-файлами на основании значений столбцов. Секционирование выполняется таким образом, чтобы оптимизировать время выполнения запросов к аналитическим таблицам и позволить использовать проталкивание предикатов для исключения из сканирования Parquet-файлов, не удовлетворяющих условиям запроса. Секционирование аналитических таблиц можно изменить в любой момент.

В настоящее время поддерживается только hive-секционирование, предоставляемое DuckDB.

Каталог pgpro_metastore

Схема axe_catalog, в которой хранятся таблицы метаданных. Она может быть создана на сервере pgpro_metastore или на отдельном сервере.

Объекты pgpro_metastore

Основные сущности pgpro_metastore, к которым можно предоставлять права доступа:

Общий каталог

Каталог хранилища, в котором располагаются Parquet-файлы при добавлении или экспорте OLAP-данных из аналитических таблиц.

Метаданные общих каталогов хранятся в таблице метаданных pga_folder.

За подробной информацией об общих каталогах обратитесь к Разделу 3.6.

Снимок

Сущность, которая поддерживает темпоральность pgpro_metastore за счёт ведения истории изменений OLAP-данных и метаданных. Снимки создаются в результате каждого действия пользователя и каждый снимок связан с одним изменением.

Конкретным примером использования снимков являются снимки аналитической таблицы. Они отображают состояние аналитической таблицы, включая её OLAP-данные, имя и тип на определённый момент времени. Аналитические таблицы изменяются в транзакциях, и для каждого изменения создаётся снимок. Вы можете восстановить любое состояние аналитической таблицы при условии, что её OLAP-данные не были удалены с помощью ETL-операции expire_snapshot.

Метаданные снимков хранятся в таблице метаданных pga_snapshot.

За примерами использования снимков обратитесь к Приложению H.

Хранилище

Физическое расположение Parquet-файлов и общих каталогов. Postgres Pro AXE поддерживает локальные, сетевые и S3-хранилища.

S3-хранилища (Simple Storage Service) — это облачные хранилища для любых типов данных, к которым можно обращаться через API. Данные хранятся в виде объектов внутри бакетов (контейнеров) с уникальными идентификаторами и метаданными, такими как тип, дата и время создания, а также права доступа. Основными преимуществами таких хранилищ являются их масштабируемость, гибкость и доступность из любой точки мира через Интернет.

Метаданные хранилищ хранятся в таблице метаданных pga_storage.

За подробной информацией о работе с хранилищами обратитесь к Разделу 3.2.

Унифицированный идентификатор ресурса (Universal Resource Identifier — URI)

Строка подключения для хранилища, которая содержит информацию, необходимую для инициализации слоя хранения данных. Состоит из префикса подключения (например, 'file://', 's3://'), сетевого адреса, номера порта и пути. Дополнительно могут быть указаны имя S3-бакета, регион хранилища и протокол.