Глава 45. Фоновые рабочие процессы
Postgres Pro поддерживает расширенную возможность запускать пользовательский код в отдельных процессах. Такие процессы запускаются, останавливаются и контролируются главным процессом postgres
, который позволяет тесно связать их жизненный цикл с состоянием сервера. Эти процессы могут получать доступ к области разделяемой памяти Postgres Pro и устанавливать внутренние подключения к базам данных; они также могут последовательно запускать транзакции, как и обычные серверные процессы, обслуживающие клиентов. Кроме того, используя libpq, они могут подключаться к серверу и работать как обычные клиентские приложения.
Предупреждение
С использованием фоновых рабочих процессов сопряжены угрозы стабильности и безопасности, так как они реализуются на языке C
, и значит имеют неограниченный доступ к данным. Администраторы, желающие использовать модули, в которых задействованы фоновые рабочие процессы, должны быть крайне осторожными. Запускать рабочие процессы можно разрешать только модулям, прошедшим всесторонний аудит.
Рабочие процессы могут инициализироваться во время запуска Postgres Pro, если имя соответствующего модуля добавлено в shared_preload_libraries
. Модуль, желающий запустить фоновый процесс, может зарегистрировать его, вызвав RegisterBackgroundWorker(
из своей функции BackgroundWorker *worker
)_PG_init()
. Рабочие процессы также могут быть запущены после запуска системы с помощью функции RegisterDynamicBackgroundWorker(
. В отличие от функции BackgroundWorker *worker, BackgroundWorkerHandle **handle
)RegisterBackgroundWorker
, которую можно вызывать только из управляющего процесса, RegisterDynamicBackgroundWorker
должна вызываться из обычного обслуживающего процесса.
Структура BackgroundWorker
определяется так:
typedef void (*bgworker_main_type)(Datum main_arg); typedef struct BackgroundWorker { char bgw_name[BGW_MAXLEN]; int bgw_flags; BgWorkerStartTime bgw_start_time; int bgw_restart_time; /* время в секундах либо BGW_NEVER_RESTART */ char bgw_library_name[BGW_MAXLEN]; char bgw_function_name[BGW_MAXLEN]; Datum bgw_main_arg; char bgw_extra[BGW_EXTRALEN]; int bgw_notify_pid; } BackgroundWorker;
Поле bgw_name
содержит строку, выводимую в отладочных сообщениях, списках процессов и подобных контекстах.
Поле bgw_flags
представляет битовую маску, обозначающую запрашиваемые модулем возможности. Допустимые в нём флаги:
BGWORKER_SHMEM_ACCESS
Запрашивается доступ к общей памяти. Рабочие процессы без доступа к общей памяти не могут обращаться к общим структурам данных Postgres Pro, в частности, к обычным и лёгким блокировкам, общим буферам, или каким-либо структурам данным, которые рабочий процесс может создавать для собственного пользования.
BGWORKER_BACKEND_DATABASE_CONNECTION
Запрашивается возможность устанавливать подключение к базе данных, через которое можно запускать транзакции и запросы. Рабочий процесс, использующий
BGWORKER_BACKEND_DATABASE_CONNECTION
для подключения к базе данных, должен также запросить доступ к разделяемой памяти, установивBGWORKER_SHMEM_ACCESS
; в противном случае процесс не запустится.
В bgw_start_time
определяется состояние сервера, в котором postgres
должен запустить этот процесс; возможные варианты: BgWorkerStart_PostmasterStart
(выполнить запуск сразу после того, как postgres
завершит инициализацию; процессы, выбирающие такой режим, не могут подключаться к базам данных), BgWorkerStart_ConsistentState
(выполнить запуск, когда будет достигнуто согласованное состояние горячего резерва, и когда процессы могут подключаться к базам данных и выполнять запросы на чтение), и BgWorkerStart_RecoveryFinished
(выполнить запуск, как только система перейдёт в обычный режим чтения-записи). Заметьте, что два последних варианта различаются только для серверов горячего резерва. Заметьте также, что этот параметр указывает только, когда должны запускаться процессы; при переходе в другое состояние они не будут останавливаться.
bgw_restart_time
задаёт паузу (в секундах), которую должен сделать postgres
, прежде чем перезапускать процесс в случае его отказа. Это может быть любое положительное значение, либо BGW_NEVER_RESTART
, указывающее, что процесс не нужно перезапускать в случае сбоя.
bgw_library_name
определяет имя библиотеки, в которой следует искать точку входа для запуска рабочего процесса. Указанная библиотека будет динамически загружена рабочим процессом, а вызываемая функция будет выбрана по имени bgw_function_name
. Для функции, загружаемой из кода ядра, в этом поле должно быть «postgres».
bgw_function_name
определяет имя функции в динамически загружаемой библиотеке, которая будет точкой входа в новый рабочий процесс.
В bgw_main_arg
задаётся аргумент Datum
, передаваемый основной функции фонового процесса. Эта функция должна принимать один аргумент типа Datum
и возвращать void
. В качестве этого аргумента ей и передаётся bgw_main_arg
. Кроме того, глобальная переменная MyBgworkerEntry
указывает на копию структуры BackgroundWorker
, переданной при регистрации; содержимое этой структуры может быть полезно рабочему процессу.
В Windows (и везде, где определяется EXEC_BACKEND
) или в динамических рабочих процессах передавать Datum
по ссылке небезопасно, возможна только передача по значению. Поэтому если функции требуется аргумент, наиболее безопасно будет передать int32 или другое небольшое значение, содержащее индекс в массиве, размещённом в разделяемой памяти. Если же попытаться передать значение cstring
или text
, этот указатель нельзя будет использовать в новом рабочем процессе.
Поле bgw_extra
может содержать дополнительные данные, передаваемые фоновому рабочему процессу. В отличие от bgw_main_arg
, эти данные не передаются в качестве аргумента основной функции рабочего процесса, но могут быть получены через MyBgworkerEntry
, как описывалось выше.
В bgw_notify_pid
задаётся PID обслуживающего процесса Postgres Pro, которому главный процесс должен посылать сигнал SIGUSR1
при запуске и завершении нового рабочего процесса. Это поле должно содержать 0 для рабочих процессов, регистрируемых при запуске главного процесса, либо когда обслуживающий процесс не желает ждать окончания запуска рабочего процесса. Во всех остальных случаях в нём должно быть значение MyProcPid
.
Запущенный процесс может подключиться к базе данных, вызвав BackgroundWorkerInitializeConnection(
или char *dbname
, char *username
)BackgroundWorkerInitializeConnectionByOid(
. Через это подключение процесс сможет выполнять транзакции и запросы, используя функции Oid dboid
, Oid useroid
)SPI
. Если в dbname
передаётся NULL или dboid
равен InvalidOid
, сеанс не подключается ни к какой конкретной базе данных, но может обращаться к общим каталогам. Если в username
передаётся NULL или useroid
равен InvalidOid
, процесс будет действовать от имени суперпользователя, созданного во время initdb
. Рабочий процесс может вызывать только одну из двух этих функций и только один раз. Переключаться между базами данных он не может.
Сигналы изначально блокируются при вызове основной функции рабочего процесса и должны быть разблокированы ей: это позволяет процессу при необходимости настроить собственные обработчики событий. Новый процесс может разблокировать сигналы, вызвав BackgroundWorkerUnblockSignals
, и заблокировать их, вызвав BackgroundWorkerBlockSignals
.
Если bgw_restart_time
для рабочего процесса имеет значение BGW_NEVER_RESTART
, либо он завершается с кодом выхода 0, либо если его работа заканчивается вызовом TerminateBackgroundWorker
, он автоматически перестаёт контролироваться управляющим процессом при выходе. В противном случае он будет перезапущен через время, заданное в bgw_restart_time
, либо немедленно, если управляющему серверу пришлось переинициализировать кластер из-за сбоя обслуживающего процесса. Обслуживающие процессы, которым нужно только приостановить своё выполнение на время, должны переходить в состояние прерываемого ожидания, а не завершаться; для этого используется функция WaitLatch()
. При вызове этой функции обязательно установите флаг WL_POSTMASTER_DEATH
и проверьте код возврата, чтобы корректно выйти в экстренном случае, когда был завершён сам postgres
.
Когда рабочий процесс регистрируется функцией RegisterDynamicBackgroundWorker
, обслуживающий процесс, производящий эту регистрацию, может получить информацию о состоянии порождённого процесса. Обслуживающие процессы, желающие сделать это, должны передать адрес BackgroundWorkerHandle *
во втором аргументе RegisterDynamicBackgroundWorker
. Если рабочий процесс успешно зарегистрирован, по этому адресу будет записан указатель на скрытую структуру, который можно затем передать функции GetBackgroundWorkerPid(
или BackgroundWorkerHandle *
, pid_t *
)TerminateBackgroundWorker(
. Вызывая BackgroundWorkerHandle *
)GetBackgroundWorkerPid
, можно опрашивать состояние рабочего процесса: значение результата BGWH_NOT_YET_STARTED
показывает, что рабочий процесс ещё не запущен управляющим; BGWH_STOPPED
показывает, что он был запущен, но сейчас не работает; и BGWH_STARTED
показывает, что он работает в данный момент. В последнем случае через второй аргумент также возвращается PID этого процесса. Обрабатывая вызов TerminateBackgroundWorker
, управляющий процесс посылает SIGTERM
рабочему процессу, если он работает, и перестаёт его контролировать сразу по его завершении.
В некоторых случаях процессу, регистрирующему рабочий процесс, может потребоваться дождаться завершения запуска этого процесса. Это можно реализовать, записав в bgw_notify_pid
значение MyProcPid
, а затем передав указатель BackgroundWorkerHandle *
, полученный во время регистрации, функции WaitForBackgroundWorkerStartup(
. Эта функция заблокирует выполнение, пока управляющий процесс не попытается запустить рабочий процесс, либо пока сам управляющий процесс не завершится. Если рабочий процесс запущен, возвращается значение BackgroundWorkerHandle *handle
, pid_t *
)BGWH_STARTED
, и по переданному адресу записывается его PID. В противном случае возвращается значение BGWH_STOPPED
или BGWH_POSTMASTER_DIED
.
Если фоновый рабочий процесс передаёт асинхронные уведомления, вызывая команду NOTIFY
через SPI (Server Programming Interface, Интерфейс программирования сервера), он должен явно вызвать ProcessCompletedNotifies
после фиксации окружающей транзакции, чтобы все эти уведомления были доставлены. Если рабочий процесс зарегистрируется для получения асинхронных уведомлений, вызвав LISTEN
через SPI, уведомления будут выводиться, но перехватить и обработать эти уведомления программным образом нет возможности.
Рабочий пример, демонстрирующий некоторые полезные приёмы, можно найти в модуле src/test/modules/worker_spi
.
Максимальное число рабочих процессов, которые можно зарегистрировать, ограничивается значением max_worker_processes.
Chapter 53. Writing A Procedural Language Handler
All calls to functions that are written in a language other than the current “version 1” interface for compiled languages (this includes functions in user-defined procedural languages, functions written in SQL, and functions using the version 0 compiled language interface) go through a call handler function for the specific language. It is the responsibility of the call handler to execute the function in a meaningful way, such as by interpreting the supplied source text. This chapter outlines how a new procedural language's call handler can be written.
The call handler for a procedural language is a “normal” function that must be written in a compiled language such as C, using the version-1 interface, and registered with PostgreSQL as taking no arguments and returning the type language_handler
. This special pseudotype identifies the function as a call handler and prevents it from being called directly in SQL commands. For more details on C language calling conventions and dynamic loading, see Section 35.9.
The call handler is called in the same way as any other function: It receives a pointer to a FunctionCallInfoData
struct
containing argument values and information about the called function, and it is expected to return a Datum
result (and possibly set the isnull
field of the FunctionCallInfoData
structure, if it wishes to return an SQL null result). The difference between a call handler and an ordinary callee function is that the flinfo->fn_oid
field of the FunctionCallInfoData
structure will contain the OID of the actual function to be called, not of the call handler itself. The call handler must use this field to determine which function to execute. Also, the passed argument list has been set up according to the declaration of the target function, not of the call handler.
It's up to the call handler to fetch the entry of the function from the pg_proc
system catalog and to analyze the argument and return types of the called function. The AS
clause from the CREATE FUNCTION
command for the function will be found in the prosrc
column of the pg_proc
row. This is commonly source text in the procedural language, but in theory it could be something else, such as a path name to a file, or anything else that tells the call handler what to do in detail.
Often, the same function is called many times per SQL statement. A call handler can avoid repeated lookups of information about the called function by using the flinfo->fn_extra
field. This will initially be NULL
, but can be set by the call handler to point at information about the called function. On subsequent calls, if flinfo->fn_extra
is already non-NULL
then it can be used and the information lookup step skipped. The call handler must make sure that flinfo->fn_extra
is made to point at memory that will live at least until the end of the current query, since an FmgrInfo
data structure could be kept that long. One way to do this is to allocate the extra data in the memory context specified by flinfo->fn_mcxt
; such data will normally have the same lifespan as the FmgrInfo
itself. But the handler could also choose to use a longer-lived memory context so that it can cache function definition information across queries.
When a procedural-language function is invoked as a trigger, no arguments are passed in the usual way, but the FunctionCallInfoData
's context
field points at a TriggerData
structure, rather than being NULL
as it is in a plain function call. A language handler should provide mechanisms for procedural-language functions to get at the trigger information.
This is a template for a procedural-language handler written in C:
#include "postgres.h" #include "executor/spi.h" #include "commands/trigger.h" #include "fmgr.h" #include "access/heapam.h" #include "utils/syscache.h" #include "catalog/pg_proc.h" #include "catalog/pg_type.h" #ifdef PG_MODULE_MAGIC PG_MODULE_MAGIC; #endif PG_FUNCTION_INFO_V1(plsample_call_handler); Datum plsample_call_handler(PG_FUNCTION_ARGS) { Datum retval; if (CALLED_AS_TRIGGER(fcinfo)) { /* * Called as a trigger procedure */ TriggerData *trigdata = (TriggerData *) fcinfo->context; retval = ... } else { /* * Called as a function */ retval = ... } return retval; }
Only a few thousand lines of code have to be added instead of the dots to complete the call handler.
After having compiled the handler function into a loadable module (see Section 35.9.6), the following commands then register the sample procedural language:
CREATE FUNCTION plsample_call_handler() RETURNS language_handler
AS 'filename
'
LANGUAGE C;
CREATE LANGUAGE plsample
HANDLER plsample_call_handler;
Although providing a call handler is sufficient to create a minimal procedural language, there are two other functions that can optionally be provided to make the language more convenient to use. These are a validator and an inline handler. A validator can be provided to allow language-specific checking to be done during CREATE FUNCTION. An inline handler can be provided to allow the language to support anonymous code blocks executed via the DO command.
If a validator is provided by a procedural language, it must be declared as a function taking a single parameter of type oid
. The validator's result is ignored, so it is customarily declared to return void
. The validator will be called at the end of a CREATE FUNCTION
command that has created or updated a function written in the procedural language. The passed-in OID is the OID of the function's pg_proc
row. The validator must fetch this row in the usual way, and do whatever checking is appropriate. First, call CheckFunctionValidatorAccess()
to diagnose explicit calls to the validator that the user could not achieve through CREATE FUNCTION
. Typical checks then include verifying that the function's argument and result types are supported by the language, and that the function's body is syntactically correct in the language. If the validator finds the function to be okay, it should just return. If it finds an error, it should report that via the normal ereport()
error reporting mechanism. Throwing an error will force a transaction rollback and thus prevent the incorrect function definition from being committed.
Validator functions should typically honor the check_function_bodies parameter: if it is turned off then any expensive or context-sensitive checking should be skipped. If the language provides for code execution at compilation time, the validator must suppress checks that would induce such execution. In particular, this parameter is turned off by pg_dump so that it can load procedural language functions without worrying about side effects or dependencies of the function bodies on other database objects. (Because of this requirement, the call handler should avoid assuming that the validator has fully checked the function. The point of having a validator is not to let the call handler omit checks, but to notify the user immediately if there are obvious errors in a CREATE FUNCTION
command.) While the choice of exactly what to check is mostly left to the discretion of the validator function, note that the core CREATE FUNCTION
code only executes SET
clauses attached to a function when check_function_bodies
is on. Therefore, checks whose results might be affected by GUC parameters definitely should be skipped when check_function_bodies
is off, to avoid false failures when reloading a dump.
If an inline handler is provided by a procedural language, it must be declared as a function taking a single parameter of type internal
. The inline handler's result is ignored, so it is customarily declared to return void
. The inline handler will be called when a DO
statement is executed specifying the procedural language. The parameter actually passed is a pointer to an InlineCodeBlock
struct, which contains information about the DO
statement's parameters, in particular the text of the anonymous code block to be executed. The inline handler should execute this code and return.
It's recommended that you wrap all these function declarations, as well as the CREATE LANGUAGE
command itself, into an extension so that a simple CREATE EXTENSION
command is sufficient to install the language. See Section 35.15 for information about writing extensions.
The procedural languages included in the standard distribution are good references when trying to write your own language handler. Look into the src/pl
subdirectory of the source tree. The CREATE LANGUAGE reference page also has some useful details.