F.14. file_fdw
Модуль file_fdw
реализует обёртку сторонних данных file_fdw
, с помощью которой можно обращаться к файлам данных в файловой системе сервера или выполнять программы на сервере и читать их вывод. Файлы и вывод программ должны быть в формате, который понимает команда COPY FROM
; он рассматривается в описании COPY. В настоящее время файлы доступны только для чтения.
Для сторонней таблицы, создаваемой через эту обёртку, можно задать следующие параметры:
filename
Определяет имя файла, который нужно прочитать. При указании относительного пути он рассматривается от каталога данных. Вы должны определить либо параметр
filename
, либоprogram
, но не оба сразу.program
Определяет команду, которая будет выполнена. Поток стандартного вывода этой команды будет прочитан так же, как и с
COPY FROM PROGRAM
. Необходимо определить либо параметрprogram
, либоfilename
, но не оба сразу.format
Определяет формат файла (аналогично указанию
FORMAT
в командеCOPY
).header
Указывает, что данные содержат строку заголовка с именами столбцов (аналогично указанию
HEADER
в командеCOPY
).delimiter
Задаёт символ, разделяющий столбцы в данных (аналогично указанию
DELIMITER
в командеCOPY
).quote
Задаёт символ, используемый для заключения данных в кавычки (аналогично указанию
QUOTE
в командеCOPY
).escape
Задаёт символ, используемый для экранирования данных (аналогично указанию
ESCAPE
в командеCOPY
).null
Определяет строку, задающую значение
NULL
в данных (аналогично указаниюNULL
в командеCOPY
).encoding
Задаёт кодировку данных (аналогично указанию
ENCODING
в командеCOPY
).
Заметьте, что хотя COPY
принимает указания, такие как HEADER
, без соответствующего значения, синтаксис обёртки сторонних данных требует, чтобы значение присутствовало во всех случаях. Чтобы активировать указания COPY
, которым значение обычно не передаётся, им можно просто передать значение TRUE, так как все они являются логическими.
Для столбцов сторонней таблицы, создаваемой через эту обёртку, можно задать следующие параметры:
force_not_null
Логическое значение. Если true, то значение столбца не должно сверяться со значением NULL (заданным в параметре
null
на уровне таблицы). Аналогично включению столбца в список указанияFORCE_NOT_NULL
командыCOPY
.force_null
Логическое значение. Если true, значения столбцов нужно сверять со значением NULL (заданным в параметре
NULL
), даже если они заключены в кавычки. Без этого параметра только значения без кавычек, соответствующие значениюnull
, будут возвращаться как NULL. Аналогично включению столбца в список указанияFORCE_NULL
командыCOPY
.
В настоящее время file_fdw
не поддерживает указание FORCE_QUOTE
команды COPY
.
Перечисленные параметры применимы только для сторонних таблиц или их столбцов. Их нельзя указать для обёртки сторонних данных file_fdw
, серверов или сопоставлений пользователей, использующих эту обёртку.
Для изменения параметров, определяемых для таблицы, требуется быть суперпользователем или иметь права роли pg_read_server_files
(для указания имени файла) или роли pg_execute_server_program
(для указания программы). Это сделано в целях безопасности: только избранные пользователи должны выбирать, какой файл читать или какую программу запускать. В принципе право изменения остальных параметров можно предоставить и обычным пользователям, но в настоящий момент это не реализовано.
Задавая параметр program
, помните, что эта строка выполняется оболочкой ОС. Если вы хотите передавать заданной команде параметры из недоверенного источника, позаботьтесь об исключении или экранировании всех символов, которые могут иметь особое назначение в оболочке. По соображениям безопасности лучше, чтобы эта командная строка была фиксированной или как минимум в ней не передавались данные, поступающие от пользователя.
Для сторонних таблиц, работающих через file_fdw
, команда EXPLAIN
показывает имя используемого файла или запускаемой программы. Если не указывать COSTS OFF
, то выводится и размер файла (в байтах).
Пример F.1. Создание сторонней таблицы для журнала сервера PostgreSQL
Одно из очевидных применений file_fdw
— это предоставление доступа к журналу сообщений PostgreSQL как к таблице. Для этого необходимо предварительно настроить вывод сообщений в файл CSV (дальше мы будем считать, что это файл pglog.csv
). Сначала установите расширение file_fdw
:
CREATE EXTENSION file_fdw;
Затем создайте сторонний сервер:
CREATE SERVER pglog FOREIGN DATA WRAPPER file_fdw;
Всё готово для создания сторонней таблицы. В команде CREATE FOREIGN TABLE
нужно перечислить столбцы таблицы, указать файл CSV и его формат:
CREATE FOREIGN TABLE pglog ( log_time timestamp(3) with time zone, user_name text, database_name text, process_id integer, connection_from text, session_id text, session_line_num bigint, command_tag text, session_start_time timestamp with time zone, virtual_transaction_id text, transaction_id bigint, error_severity text, sql_state_code text, message text, detail text, hint text, internal_query text, internal_query_pos integer, context text, query text, query_pos integer, location text, application_name text, backend_type text, leader_pid integer, query_id bigint ) SERVER pglog OPTIONS ( filename 'log/pglog.csv', format 'csv' );
Вот и всё. Теперь для просмотра журнала сервера можно просто выполнять запросы к таблице. В производственной среде, разумеется, ещё потребуется как-то учесть ротацию файлов журнала.
F.3. auto_explain
The auto_explain
module provides a means for logging execution plans of slow statements automatically, without having to run EXPLAIN by hand. This is especially helpful for tracking down un-optimized queries in large applications.
The module provides no SQL-accessible functions. To use it, simply load it into the server. You can load it into an individual session:
LOAD 'auto_explain';
(You must be superuser to do that.) More typical usage is to preload it into some or all sessions by including auto_explain
in session_preload_libraries or shared_preload_libraries in postgresql.conf
. Then you can track unexpectedly slow queries no matter when they happen. Of course there is a price in overhead for that.
F.3.1. Configuration Parameters
There are several configuration parameters that control the behavior of auto_explain
. Note that the default behavior is to do nothing, so you must set at least auto_explain.log_min_duration
if you want any results.
-
auto_explain.log_min_duration
(integer
) auto_explain.log_min_duration
is the minimum statement execution time, in milliseconds, that will cause the statement's plan to be logged. Setting this to zero logs all plans. Minus-one (the default) disables logging of plans. For example, if you set it to250ms
then all statements that run 250ms or longer will be logged. Only superusers can change this setting.-
auto_explain.log_analyze
(boolean
) auto_explain.log_analyze
causesEXPLAIN ANALYZE
output, rather than justEXPLAIN
output, to be printed when an execution plan is logged. This parameter is off by default. Only superusers can change this setting.Note
When this parameter is on, per-plan-node timing occurs for all statements executed, whether or not they run long enough to actually get logged. This can have an extremely negative impact on performance. Turning off
auto_explain.log_timing
ameliorates the performance cost, at the price of obtaining less information.-
auto_explain.log_buffers
(boolean
) auto_explain.log_buffers
controls whether buffer usage statistics are printed when an execution plan is logged; it's equivalent to theBUFFERS
option ofEXPLAIN
. This parameter has no effect unlessauto_explain.log_analyze
is enabled. This parameter is off by default. Only superusers can change this setting.-
auto_explain.log_timing
(boolean
) auto_explain.log_timing
controls whether per-node timing information is printed when an execution plan is logged; it's equivalent to theTIMING
option ofEXPLAIN
. The overhead of repeatedly reading the system clock can slow down queries significantly on some systems, so it may be useful to set this parameter to off when only actual row counts, and not exact times, are needed. This parameter has no effect unlessauto_explain.log_analyze
is enabled. This parameter is on by default. Only superusers can change this setting.-
auto_explain.log_triggers
(boolean
) auto_explain.log_triggers
causes trigger execution statistics to be included when an execution plan is logged. This parameter has no effect unlessauto_explain.log_analyze
is enabled. This parameter is off by default. Only superusers can change this setting.-
auto_explain.log_verbose
(boolean
) auto_explain.log_verbose
controls whether verbose details are printed when an execution plan is logged; it's equivalent to theVERBOSE
option ofEXPLAIN
. This parameter is off by default. Only superusers can change this setting.-
auto_explain.log_format
(enum
) auto_explain.log_format
selects theEXPLAIN
output format to be used. The allowed values aretext
,xml
,json
, andyaml
. The default is text. Only superusers can change this setting.-
auto_explain.log_nested_statements
(boolean
) auto_explain.log_nested_statements
causes nested statements (statements executed inside a function) to be considered for logging. When it is off, only top-level query plans are logged. This parameter is off by default. Only superusers can change this setting.
In ordinary usage, these parameters are set in postgresql.conf
, although superusers can alter them on-the-fly within their own sessions. Typical usage might be:
# postgresql.conf session_preload_libraries = 'auto_explain' auto_explain.log_min_duration = '3s'
F.3.2. Example
postgres=# LOAD 'auto_explain'; postgres=# SET auto_explain.log_min_duration = 0; postgres=# SET auto_explain.log_analyze = true; postgres=# SELECT count(*) FROM pg_class, pg_index WHERE oid = indrelid AND indisunique;
This might produce log output such as:
LOG: duration: 3.651 ms plan: Query Text: SELECT count(*) FROM pg_class, pg_index WHERE oid = indrelid AND indisunique; Aggregate (cost=16.79..16.80 rows=1 width=0) (actual time=3.626..3.627 rows=1 loops=1) -> Hash Join (cost=4.17..16.55 rows=92 width=0) (actual time=3.349..3.594 rows=92 loops=1) Hash Cond: (pg_class.oid = pg_index.indrelid) -> Seq Scan on pg_class (cost=0.00..9.55 rows=255 width=4) (actual time=0.016..0.140 rows=255 loops=1) -> Hash (cost=3.02..3.02 rows=92 width=4) (actual time=3.238..3.238 rows=92 loops=1) Buckets: 1024 Batches: 1 Memory Usage: 4kB -> Seq Scan on pg_index (cost=0.00..3.02 rows=92 width=4) (actual time=0.008..3.187 rows=92 loops=1) Filter: indisunique
F.3.3. Author
Takahiro Itagaki <itagaki.takahiro@oss.ntt.co.jp>