Глава 34. Встроенная аналитическая платформа
Содержание
- 34.1. Архитектура
- 34.2. Особенности и ограничения
- 34.3. Рекомендации по развёртыванию
- 34.4. Планирование ресурсов
- 34.5. Хранилище для аналитических файлов
- 34.6. Соотношение типов данных в таблицах Postgres Pro, DuckDB и Parquet
- 34.7. Использование встроенной аналитической платформы
- 34.8. Результаты тестов производительности
Встроенная аналитическая платформа — это решение Postgres Pro, предназначенное для работы с OLAP-нагрузками (Online Analytical Processing). Ключевым компонентом платформы является расширение pgpro_duckdb, которое позволяет построить современную аналитическую платформу в рамках экземпляра Postgres Pro без использования дополнительных инструментов.
Как правило, современные аналитические платформы содержат несколько независимых компонентов, что предоставляет большую гибкость и масштабируемость. Основными компонентами системы являются механизм выполнения запросов, хранилище данных и каталог аналитических таблиц. Встраиваемый механизм DuckDB поддерживает векторное выполнение запросов и столбцовые форматы данных. Этот механизм может работать как с таблицами Postgres Pro, так и с внешними хранилищами.
Встроенная аналитическая платформа предоставляет следующие преимущества:
Позволяет построить полноценное хранилище данных (Data Warehouse, DWH), используя только компоненты Postgres Pro, а также предоставляет функциональность OLAP любому экземпляру Postgres Pro.
Минимизирует количество компонентов, необходимых для построения хранилища данных, а также упрощает стек разработки, развёртывание и использование возможностей OLAP.
Значительно ускоряет выполнение аналитических запросов при чтении данных столбцовых форматов.
Позволяет построить полноценный ETL-процесс с поддержкой основных форматов файлов и источников данных.
Обеспечивает анализ данных в реальном времени для сценариев гибридной транзакционной/аналитической обработки (hybrid transactional/analytical processing, HTAP). В рамках таких сценариев аналитические запросы могут выполняться к представлениям, которые объединяют таблицы Postgres Pro и источники данных OLAP.
Снижает совокупную стоимость владения (total cost of ownership, TCO) оборудованием. Как правило, нагрузки OLTP и OLAP не возникают одновременно: пик OLTP-нагрузок приходится на рабочие часы, в то время как выполнение ресурсоёмких OLAP-операций обычно запланировано на ночное время.
Позволяет использовать реплики Postgres Pro для выполнения аналитических запросов, чтобы более эффективно использовать ресурсы и снизить негативное влияние на OLTP-нагрузки.
Позволяет построить хранилище данных с неограниченными возможностями масштабирования с помощью интеграции с Tengri Data Platform — аналитическим решением OpenLakeHouse.
Позволяет использовать утилиту procopy для изначальной и постепенной загрузки OLAP-данных в аналитические хранилища. Обратитесь в службу поддержки Postgres Pro, чтобы узнать больше об утилите procopy.
Примечание
В настоящее время расширение pgpro_duckdb находится в экспериментальной фазе.