60.4. Планирование запросов с обёртками сторонних данных #
Процедуры в FDW, реализующие функции GetForeignRelSize
, GetForeignPaths
, GetForeignPlan
, PlanForeignModify
, GetForeignJoinPaths
, GetForeignUpperPaths
и PlanDirectModify
, должны вписываться в работу планировщика Postgres Pro. Здесь даётся несколько замечаний о том, как это должно происходить.
Для уменьшения объёма выбираемых из сторонней таблицы данных (и как следствие, сокращения стоимости) может использоваться информация, поступающая в root
и baserel
. Особый интерес представляет поле baserel->baserestrictinfo
, так как оно содержит ограничивающие условия (предложение WHERE
), по которым можно отфильтровать выбираемые строки. (Сама FDW не обязательно должна применять эти ограничения, так как их может проверить и ядро исполнителя.) Список baserel->reltarget->exprs
позволяет определить, какие именно столбцы требуется выбрать; но учтите, что в нём перечисляются только те столбцы, которые выдаются узлом плана ForeignScan
, но не столбцы, которые задействованы в ограничивающих условиях и при этом не выводятся запросом.
Когда функциям планирования FDW требуется сохранять свою информацию, они могут использовать различные частные поля. Вообще, все структуры, которые FDW помещает в закрытые поля, должны выделяться функцией palloc, чтобы они автоматически освобождались при завершении планирования.
Для хранения информации, относящейся к определённой сторонней таблице, функции планирования FDW могут использовать поле baserel->fdw_private
, которое может содержать указатель на void
. Ядро планировщика никак не касается его, кроме того, что записывает в него NULL при создании узла RelOptInfo
. Оно полезно для передачи информации из GetForeignRelSize
в GetForeignPaths
и/или из GetForeignPaths
в GetForeignPlan
и позволяет избежать повторных вычислений.
GetForeignPaths
может обозначить свойства различных путей доступа, сохранив частную информацию в поле fdw_private
узлов ForeignPath
. Это поле fdw_private
объявлено как указатель на список (List
), но в принципе может содержать всё, что угодно, так как ядро планировщика его не касается. Однако лучше поместить в него данные, которые сможет представить функция nodeToString
, для применения средств отладки, имеющихся на сервере.
GetForeignPlan
может изучить поле fdw_private
выбранного узла ForeignPath
и сформировать списки fdw_exprs
и fdw_private
, которые будут помещены в узел ForeignScan
, где они будут находиться во время выполнения запроса. Оба эти списка должны быть представлены в форме, которую способна копировать функция copyObject
. Список fdw_private
не имеет других ограничений и никаким образом не интерпретируется ядром сервера. Список fdw_exprs
, если этот указатель не NULL, предположительно содержит деревья выражений, которые должны быть вычислены при выполнении запроса. Затем планировщик обрабатывает эти деревья, чтобы они были полностью готовы к выполнению.
GetForeignPlan
обычно может скопировать полученный целевой список в узел плана как есть. Передаваемый список scan_clauses
содержит те же предложения, что и baserel->baserestrictinfo
, но, возможно, в другом порядке для более эффективного выполнения. В простых случаях FDW может просто убрать узлы RestrictInfo
из списка scan_clauses
(используя функцию extract_actual_clauses
) и поместить все предложения в список ограничений узла плана, что будет означать, что эти предложения будут проверяться исполнителем во время выполнения. Более сложные FDW могут самостоятельно проверять некоторые предложения, и в этом случае такие предложения можно удалить из списка ограничений узла, чтобы исполнитель не тратил время на их перепроверку.
Например, FDW может распознавать некоторые предложения ограничений вида сторонняя_переменная
=
подвыражение
, которые, по её представлению, могут выполняться на удалённом сервере с локально вычисленным значением подвыражения
. Собственно выявление такого предложения должно происходить в функции GetForeignPaths
, так как это влияет на оценку стоимости пути. Эта функция может включить в поле fdw_private
конкретного пути указатель на узел RestrictInfo
этого предложения. Затем GetForeignPlan
удалит это предложение из scan_clauses
, но добавит подвыражение
в fdw_exprs
, чтобы оно было приведено к исполняемой форме. Она также может поместить управляющую информацию в поле fdw_private
плана узла, которая скажет исполняющим функциям, что делать во время выполнения. Запрос, передаваемый удалённому серверу, будет содержать что-то вроде WHERE
, а значение параметра будет получено во время выполнения в результате вычисления дерева выражения сторонняя_переменная
= $1fdw_exprs
.
Все предложения, удаляемые из списка условий узла плана, должны быть добавлены в fdw_recheck_quals
или перепроверены функцией RecheckForeignScan
для обеспечения корректного поведения на уровне изоляции READ COMMITTED
. Когда имеет место параллельное изменение в некоторой другой таблице, задействованной в запросе, исполнителю может потребоваться убедиться в том, что все исходные условия по-прежнему выполняются для кортежа, возможно, с другим набором значений параметров. Использовать fdw_recheck_quals
обычно проще, чем реализовывать проверки внутри RecheckForeignScan
, но этот метод недостаточен, когда внешние соединения выносятся наружу, так как вследствие перепроверки в соединённых кортежах могут обнуляться некоторые поля, но сами кортежи не будут исключаться.
Ещё одно поле ForeignScan
, которое могут заполнять FDW, это fdw_scan_tlist
, описывающее кортежи, возвращаемые обёрткой для этого узла плана. Для простых сторонних таблиц в него можно записать NIL
, из чего будет следовать, что возвращённые кортежи имеют тип, объявленный для сторонней таблицы. Отличное от NIL
значение должно указывать на список целевых элементов (список структур TargetEntry
), содержащий переменные и/или выражения, представляющие возвращаемые столбцы. Это можно использовать, например, чтобы показать, что FDW опустила некоторые столбцы, которые по её наблюдению не нужны для запроса. Также, если FDW может вычислить выражения, используемые в запросе, более эффективно, чем это можно сделать локально, она должна добавить эти выражения в список fdw_scan_tlist
. Заметьте, что планы соединения (полученные из путей, созданных функцией GetForeignJoinPaths
) должны всегда заполнять fdw_scan_tlist
, описывая набор столбцов, которые они будут возвращать.
FDW должна всегда строить минимум один путь, зависящий только от предложений ограничения таблицы. В запросах с соединением она может также построить пути, зависящие от ограничения соединения, например сторонняя_переменная
=
локальная_переменная
. Такие предложения будут отсутствовать в baserel->baserestrictinfo
; их нужно искать в списках соединений отношений. Путь, построенный с таким предложением, называется «параметризованным». Другие отношения, задействованные в выбранном предложении соединения, должны связываться c этим путём соответствующим значением param_info
; для получения этого значения используется get_baserel_parampathinfo
. В GetForeignPlan
часть локальная_переменная
предложения соединения будет добавлена в fdw_exprs
, и затем, во время выполнения, это будет работать так же, как и обычное предложение ограничения.
Если FDW поддерживает удалённые соединения, GetForeignJoinPaths
должна выдавать пути ForeignPath
для потенциально удалённых соединений почти так же, как это делает GetForeignPaths
для базовых таблиц. Информация о выбранном соединении может быть передана функции GetForeignPlan
так же, как было описано выше. Однако поле baserestrictinfo
неприменимо к отношениям соединения; вместо этого соответствующие предложения соединения для конкретного соединения передаются в GetForeignJoinPaths
в отдельном параметре (extra->restrictlist
).
FDW может дополнительно поддерживать прямое выполнение некоторых действий плана, находящихся выше уровня сканирований и соединений, например, группировки или агрегирования. Для реализации этой возможности FDW должна сформировать пути и вставить их в соответствующее верхнее отношение. Например, путь, представляющий удалённое агрегирование, должен вставляться в отношение UPPERREL_GROUP_AGG
с помощью add_path
. Этот путь будет сравниваться по стоимости с локальным агрегированием, выполненным по результатам пути простого сканирования стороннего отношения (заметьте, что такой путь также должен быть сформирован, иначе во время планирования произойдёт ошибка). Если путь с удалённым агрегированием выигрывает, что, как правило, и происходит, он будет преобразован в план обычным образом, вызовом GetForeignPlan
. Такие пути рекомендуется формировать в обработчике GetForeignUpperPaths
, который вызывается для каждого верхнего отношения (то есть на каждом шаге обработки после сканирования/соединения), если все базовые отношения запроса выдаются одной обёрткой.
PlanForeignModify
и другие обработчики, описанные в Подразделе 60.2.4, рассчитаны на то, что стороннее отношение будет сканироваться обычным способом, а затем отдельные изменения строк будут обрабатываться локальным узлом плана ModifyTable
. Этот подход необходим в общем случае, когда для такого изменения требуется прочитать не только сторонние, но и локальные таблицы. Однако если операция может быть целиком выполнена сторонним сервером, FDW может построить путь, представляющий эту возможность, и вставить его в верхнее отношение UPPERREL_FINAL
, где он будет конкурировать с подходом ModifyTable
. Этот подход также должен применяться для реализации удалённого SELECT FOR UPDATE
, вместо обработчиков блокировки строк, описанных Подразделе 60.2.6. Учтите, что путь, вставляемый в UPPERREL_FINAL
, отвечает за реализацию всех аспектов поведения запроса.
При планировании запросов UPDATE
или DELETE
функции PlanForeignModify
и PlanDirectModify
могут обратиться к структуре RelOptInfo
сторонней таблицы и воспользоваться информацией baserel->fdw_private
, записанной ранее функциями планирования сканирования. Однако при запросе INSERT
целевая таблица не сканируется, так что для неё RelOptInfo
не заполняется. На список (List
), возвращаемый функцией PlanForeignModify
, накладываются те же ограничения, что и на список fdw_private
в узле плана ForeignScan
, то есть он должен содержать только такие структуры, которые способна копировать функция copyObject
.
Команда INSERT
с предложением ON CONFLICT
не поддерживает указание объекта конфликта, так как уникальные ограничения или ограничения-исключения в удалённых таблицах неизвестны локально. Из этого, в свою очередь, вытекает, что предложение ON CONFLICT DO UPDATE
не поддерживается, так как в нём это указание является обязательным.
Chapter 52. Writing A Procedural Language Handler
All calls to functions that are written in a language other than the current “version 1” interface for compiled languages (this includes functions in user-defined procedural languages, functions written in SQL, and functions using the version 0 compiled language interface) go through a call handler function for the specific language. It is the responsibility of the call handler to execute the function in a meaningful way, such as by interpreting the supplied source text. This chapter outlines how a new procedural language's call handler can be written.
The call handler for a procedural language is a “normal” function that must be written in a compiled language such as C, using the version-1 interface, and registered with Postgres Pro as taking no arguments and returning the type language_handler
. This special pseudotype identifies the function as a call handler and prevents it from being called directly in SQL commands. For more details on C language calling conventions and dynamic loading, see Section 36.9.
The call handler is called in the same way as any other function: It receives a pointer to a FunctionCallInfoData
struct
containing argument values and information about the called function, and it is expected to return a Datum
result (and possibly set the isnull
field of the FunctionCallInfoData
structure, if it wishes to return an SQL null result). The difference between a call handler and an ordinary callee function is that the flinfo->fn_oid
field of the FunctionCallInfoData
structure will contain the OID of the actual function to be called, not of the call handler itself. The call handler must use this field to determine which function to execute. Also, the passed argument list has been set up according to the declaration of the target function, not of the call handler.
It's up to the call handler to fetch the entry of the function from the pg_proc
system catalog and to analyze the argument and return types of the called function. The AS
clause from the CREATE FUNCTION
command for the function will be found in the prosrc
column of the pg_proc
row. This is commonly source text in the procedural language, but in theory it could be something else, such as a path name to a file, or anything else that tells the call handler what to do in detail.
Often, the same function is called many times per SQL statement. A call handler can avoid repeated lookups of information about the called function by using the flinfo->fn_extra
field. This will initially be NULL
, but can be set by the call handler to point at information about the called function. On subsequent calls, if flinfo->fn_extra
is already non-NULL
then it can be used and the information lookup step skipped. The call handler must make sure that flinfo->fn_extra
is made to point at memory that will live at least until the end of the current query, since an FmgrInfo
data structure could be kept that long. One way to do this is to allocate the extra data in the memory context specified by flinfo->fn_mcxt
; such data will normally have the same lifespan as the FmgrInfo
itself. But the handler could also choose to use a longer-lived memory context so that it can cache function definition information across queries.
When a procedural-language function is invoked as a trigger, no arguments are passed in the usual way, but the FunctionCallInfoData
's context
field points at a TriggerData
structure, rather than being NULL
as it is in a plain function call. A language handler should provide mechanisms for procedural-language functions to get at the trigger information.
This is a template for a procedural-language handler written in C:
#include "postgres.h" #include "executor/spi.h" #include "commands/trigger.h" #include "fmgr.h" #include "access/heapam.h" #include "utils/syscache.h" #include "catalog/pg_proc.h" #include "catalog/pg_type.h" #ifdef PG_MODULE_MAGIC PG_MODULE_MAGIC; #endif PG_FUNCTION_INFO_V1(plsample_call_handler); Datum plsample_call_handler(PG_FUNCTION_ARGS) { Datum retval; if (CALLED_AS_TRIGGER(fcinfo)) { /* * Called as a trigger procedure */ TriggerData *trigdata = (TriggerData *) fcinfo->context; retval = ... } else { /* * Called as a function */ retval = ... } return retval; }
Only a few thousand lines of code have to be added instead of the dots to complete the call handler.
After having compiled the handler function into a loadable module (see Section 36.9.6), the following commands then register the sample procedural language:
CREATE FUNCTION plsample_call_handler() RETURNS language_handler
AS 'filename
'
LANGUAGE C;
CREATE LANGUAGE plsample
HANDLER plsample_call_handler;
Although providing a call handler is sufficient to create a minimal procedural language, there are two other functions that can optionally be provided to make the language more convenient to use. These are a validator and an inline handler. A validator can be provided to allow language-specific checking to be done during CREATE FUNCTION. An inline handler can be provided to allow the language to support anonymous code blocks executed via the DO command.
If a validator is provided by a procedural language, it must be declared as a function taking a single parameter of type oid
. The validator's result is ignored, so it is customarily declared to return void
. The validator will be called at the end of a CREATE FUNCTION
command that has created or updated a function written in the procedural language. The passed-in OID is the OID of the function's pg_proc
row. The validator must fetch this row in the usual way, and do whatever checking is appropriate. First, call CheckFunctionValidatorAccess()
to diagnose explicit calls to the validator that the user could not achieve through CREATE FUNCTION
. Typical checks then include verifying that the function's argument and result types are supported by the language, and that the function's body is syntactically correct in the language. If the validator finds the function to be okay, it should just return. If it finds an error, it should report that via the normal ereport()
error reporting mechanism. Throwing an error will force a transaction rollback and thus prevent the incorrect function definition from being committed.
Validator functions should typically honor the check_function_bodies parameter: if it is turned off then any expensive or context-sensitive checking should be skipped. If the language provides for code execution at compilation time, the validator must suppress checks that would induce such execution. In particular, this parameter is turned off by pg_dump so that it can load procedural language functions without worrying about side effects or dependencies of the function bodies on other database objects. (Because of this requirement, the call handler should avoid assuming that the validator has fully checked the function. The point of having a validator is not to let the call handler omit checks, but to notify the user immediately if there are obvious errors in a CREATE FUNCTION
command.) While the choice of exactly what to check is mostly left to the discretion of the validator function, note that the core CREATE FUNCTION
code only executes SET
clauses attached to a function when check_function_bodies
is on. Therefore, checks whose results might be affected by GUC parameters definitely should be skipped when check_function_bodies
is off, to avoid false failures when reloading a dump.
If an inline handler is provided by a procedural language, it must be declared as a function taking a single parameter of type internal
. The inline handler's result is ignored, so it is customarily declared to return void
. The inline handler will be called when a DO
statement is executed specifying the procedural language. The parameter actually passed is a pointer to an InlineCodeBlock
struct, which contains information about the DO
statement's parameters, in particular the text of the anonymous code block to be executed. The inline handler should execute this code and return.
It's recommended that you wrap all these function declarations, as well as the CREATE LANGUAGE
command itself, into an extension so that a simple CREATE EXTENSION
command is sufficient to install the language. See Section 36.15 for information about writing extensions.
The procedural languages included in the standard distribution are good references when trying to write your own language handler. Look into the src/pl
subdirectory of the source tree. The CREATE LANGUAGE reference page also has some useful details.