Глава 34. Встроенная аналитическая платформа

Содержание

34.1. Архитектура
34.1.1. Экспорт и импорт данных
34.1.2. Каталог файлов и автоматизация процессов
34.2. Особенности и ограничения
34.3. Рекомендации по развёртыванию
34.3.1. Влияние аналитических запросов на OLTP-нагрузку
34.3.2. Требования к безопасности данных и распределению OLAP-нагрузки
34.3.3. Доступные сетевые и вычислительные ресурсы, а также ресурсы хранения
34.4. Планирование ресурсов
34.4.1. Общий объём OLAP-данных в хранилище
34.4.2. Объём данных, обрабатываемых стандартным аналитическим запросом
34.4.3. Требуемое время выполнения аналитических запросов
34.4.4. Количество аналитических запросов, выполненных за единицу времени
34.5. Хранилище для аналитических файлов
34.5.1. Parquet-файлы
34.5.2. Структура каталогов
34.6. Соотношение типов данных в таблицах Postgres Pro, DuckDB и Parquet
34.7. Использование встроенной аналитической платформы
34.7.1. Начало
34.7.2. Настройка безопасного доступа к OLAP-ресурсам
34.7.3. Экспорт OLAP-данных в хранилище
34.7.4. Создание представления для работы с Parquet-файлами
34.7.5. Настройка ограничений вычислительных ресурсов
34.7.6. Базовый сценарий работы аналитика
34.8. Результаты тестов производительности
34.8.1. Подготовка тестовых данных и таблиц
34.8.2. Результаты теста производительности TCP-H
34.8.3. Результаты теста производительности TCP-DS
34.8.4. Выводы

Встроенная аналитическая платформа — это решение Postgres Pro, предназначенное для работы с OLAP-нагрузками (Online Analytical Processing). Ключевым компонентом платформы является расширение pgpro_duckdb, которое позволяет построить современную аналитическую платформу в рамках экземпляра Postgres Pro без использования дополнительных инструментов.

Как правило, современные аналитические платформы содержат несколько независимых компонентов, что предоставляет большую гибкость и масштабируемость. Основными компонентами системы являются механизм выполнения запросов, хранилище данных и каталог аналитических таблиц. Встраиваемый механизм DuckDB поддерживает векторное выполнение запросов и столбцовые форматы данных. Этот механизм может работать как с таблицами Postgres Pro, так и с внешними хранилищами.

Встроенная аналитическая платформа предоставляет следующие преимущества:

  • Позволяет построить полноценное хранилище данных (Data Warehouse, DWH), используя только компоненты Postgres Pro, а также предоставляет функциональность OLAP любому экземпляру Postgres Pro.

  • Минимизирует количество компонентов, необходимых для построения хранилища данных, а также упрощает стек разработки, развёртывание и использование возможностей OLAP.

  • Значительно ускоряет выполнение аналитических запросов при чтении данных столбцовых форматов.

  • Позволяет построить полноценный ETL-процесс с поддержкой основных форматов файлов и источников данных.

  • Обеспечивает анализ данных в реальном времени для сценариев гибридной транзакционной/аналитической обработки (hybrid transactional/analytical processing, HTAP). В рамках таких сценариев аналитические запросы могут выполняться к представлениям, которые объединяют таблицы Postgres Pro и источники данных OLAP.

  • Снижает совокупную стоимость владения (total cost of ownership, TCO) оборудованием. Как правило, нагрузки OLTP и OLAP не возникают одновременно: пик OLTP-нагрузок приходится на рабочие часы, в то время как выполнение ресурсоёмких OLAP-операций обычно запланировано на ночное время.

  • Позволяет использовать реплики Postgres Pro для выполнения аналитических запросов, чтобы более эффективно использовать ресурсы и снизить негативное влияние на OLTP-нагрузки.

  • Позволяет построить хранилище данных с неограниченными возможностями масштабирования с помощью интеграции с Tengri Data Platform — аналитическим решением OpenLakeHouse.

  • Позволяет использовать утилиту procopy для изначальной и постепенной загрузки OLAP-данных в аналитические хранилища. Обратитесь в службу поддержки Postgres Pro, чтобы узнать больше об утилите procopy.

Примечание

В настоящее время расширение pgpro_duckdb находится в экспериментальной фазе.