F.81. xml2 — функции для выполнения запросов XPath и преобразований XSLT #
Модуль xml2
предоставляет функции для выполнения запросов XPath и преобразований XSLT.
F.81.1. Уведомление об актуальности #
Начиная с PostgreSQL 8.3, функциональность, связанная с XML, основана на стандарте SQL/XML и включена в ядро сервера. Эта функциональность охватывает проверку синтаксиса XML и запросы XPath, что в частности делает и этот модуль, но он имеет абсолютно несовместимый API. Этот модуль планируется удалить в будущей версии Postgres Pro в пользу нового стандартного API, так что мы рекомендуем вам попробовать перевести свои приложения на новый API. Если вы обнаружите, что какая-то функциональность этого модуля не представлена новым API в подходящей форме, пожалуйста, напишите о вашем затруднении в <pgsql-hackers@lists.postgresql.org>
, чтобы этот недостаток был рассмотрен и, возможно, устранён.
F.81.2. Описание функций #
Функции, предоставляемые этим модулем, перечислены в Таблице F.58. Эти функции позволяют выполнять простой разбор XML и запросы XPath.
Таблица F.58. Функции xml2
Функция Описание |
---|
Разбирает текст переданного документа и возвращает true, если это правильно сформированный XML. (Замечание: это псевдоним стандартной функции Postgres Pro |
Обрабатывает запрос XPath для переданного документа и приводит результат к типу |
Обрабатывает запрос XPath для переданного документа и приводит результат к типу |
Обрабатывает запрос XPath для переданного документа и приводит результат к типу |
Обрабатывает запрос для документа и помещает результат внутрь XML-тегов. Если результат содержит несколько значений, она выдаст: <toptag> <itemtag>Значение 1, которое может быть фрагментом XML</itemtag> <itemtag>Значение 2....</itemtag> </toptag> Если |
Подобна |
Подобна |
Обрабатывает запрос XPath для документа и возвращает несколько значений, вставляя между ними заданный разделитель ( |
Это обёртка предыдущей функции, устанавливающая в качестве разделителя знак |
F.81.3. xpath_table
#
xpath_table(text key, text document, text relation, text xpaths, text criteria) returns setof record
Табличная функция xpath_table
выполняет набор запросов XPath для каждого из набора документов и возвращает результаты в виде таблицы. В первом столбце результата возвращается первичный ключ из таблицы документов, так что результат оказывается готовым к применению в соединениях. Параметры функции описаны в Таблице F.59.
Таблица F.59. Параметры xpath_table
Параметр | Описание |
---|---|
key | имя «ключевого» поля — содержимое этого поля просто окажется в первом столбце выходной таблицы, то есть оно указывает на запись, из которой была получена определённая выходная строка (см. замечание о нескольких значениях ниже) |
document | имя поля, содержащего XML-документ |
relation | имя таблицы (или представления), содержащей документы |
xpaths | одно или несколько выражений XPath, разделённых символом |
criteria | содержимое предложения WHERE. Оно не может быть пустым, так что если вам нужно обработать все строки в отношении, напишите |
Эти параметры (за исключением строк XPath) просто подставляются в обычный оператор SQL SELECT, так что у вас есть определённая гибкость — оператор выглядит так:
SELECT <key>, <document> FROM <relation> WHERE <criteria>
поэтому в этих параметрах можно передать всё, что будет корректно воспринято в этих позициях. Этот SELECT должен возвращать ровно два столбца (что и будет иметь место, если только вы не перечислите несколько полей в параметрах key или document). Будьте осторожны — при таком примитивном подходе обязательно нужно проверять все значения, получаемые от пользователя, во избежание атак с инъекцией SQL.
Эта функция предназначена для использования в выражении FROM
, с предложением AS
, задающим выходные столбцы; например:
SELECT * FROM xpath_table('article_id', 'article_xml', 'articles', '/article/author|/article/pages|/article/title', 'date_entered > ''2003-01-01'' ') AS t(article_id integer, author text, page_count integer, title text);
Предложение AS
определяет имена и типы столбцов в выходной таблице. Первым определяется «ключевое» поле, а за ним поля, соответствующие запросам XPath. Если запросов XPath больше, чем столбцов в результате, лишние запросы будут игнорироваться. Если же результирующих столбцов больше, чем запросов XPath, дополнительные столбцы принимают значение NULL.
Заметьте, что в этом примере столбец результата page_count
определён как целочисленный. Данная функция внутри имеет дело со строковыми значениями, так что, когда вы указываете, что в результате нужно получить целое число, она берёт текстовое представление результата XPath и, применяя функции ввода Postgres Pro, преобразует её в целое число (или в тот тип, который указан в предложении AS
). Если она не сможет сделать это, произойдёт ошибка — например, если результат пустой — так что если вы допускаете возможность таких проблем с данными, возможно, будет лучше просто оставить для столбца тип text
.
Вызывающий оператор SELECT
не обязательно должен быть простым SELECT *
— он может обращаться к выходным столбцам по именам и соединять их с другими таблицами. Эта функция формирует виртуальную таблицу, с которой вы можете выполнять любые операции, какие пожелаете (например, агрегировать, соединять, сортировать данные и т. д.). Поэтому возможен и такой запрос:
SELECT t.title, p.fullname, p.email FROM xpath_table('article_id', 'article_xml', 'articles', '/article/title|/article/author/@id', 'xpath_string(article_xml,''/article/@date'') > ''2003-03-20'' ') AS t(article_id integer, title text, author_id integer), tblPeopleInfo AS p WHERE t.author_id = p.person_id;
в качестве более сложного примера. Разумеется, для удобства вы можете завернуть весь этот запрос в представление.
F.81.3.1. Результаты с набором значений #
Функция xpath_table
рассчитана на то, что результатом каждого запроса XPath может быть набор данных, так что количество возвращённых этой функцией строк может не совпадать с количеством входных документов. В первой строке возвращается первый результат каждого запроса, во второй — второй результат и т. д. Если один из запросов возвращает меньше значений, чем другие, вместо недостающих значений будет возвращаться NULL.
В некоторых случаях пользователь знает, что некоторый запрос XPath будет возвращать только один результат (возможно, уникальный идентификатор документа) — если он используется рядом с запросом XPath, возвращающим несколько результатов, результат с одним значением будет выведен только в первой выходной строке. Чтобы исправить это, можно воспользоваться полем ключа и соединить результат с более простым запросом XPath. Например:
CREATE TABLE test ( id int PRIMARY KEY, xml text ); INSERT INTO test VALUES (1, '<doc num="C1"> <line num="L1"><a>1</a><b>2</b><c>3</c></line> <line num="L2"><a>11</a><b>22</b><c>33</c></line> </doc>'); INSERT INTO test VALUES (2, '<doc num="C2"> <line num="L1"><a>111</a><b>222</b><c>333</c></line> <line num="L2"><a>111</a><b>222</b><c>333</c></line> </doc>'); SELECT * FROM xpath_table('id','xml','test', '/doc/@num|/doc/line/@num|/doc/line/a|/doc/line/b|/doc/line/c', 'true') AS t(id int, doc_num varchar(10), line_num varchar(10), val1 int, val2 int, val3 int) WHERE id = 1 ORDER BY doc_num, line_num id | doc_num | line_num | val1 | val2 | val3 ----+---------+----------+------+------+------ 1 | C1 | L1 | 1 | 2 | 3 1 | | L2 | 11 | 22 | 33
Чтобы получить doc_num
в каждой строке, можно вызывать xpath_table
дважды и соединить результаты:
SELECT t.*,i.doc_num FROM xpath_table('id', 'xml', 'test', '/doc/line/@num|/doc/line/a|/doc/line/b|/doc/line/c', 'true') AS t(id int, line_num varchar(10), val1 int, val2 int, val3 int), xpath_table('id', 'xml', 'test', '/doc/@num', 'true') AS i(id int, doc_num varchar(10)) WHERE i.id=t.id AND i.id=1 ORDER BY doc_num, line_num; id | line_num | val1 | val2 | val3 | doc_num ----+----------+------+------+------+--------- 1 | L1 | 1 | 2 | 3 | C1 1 | L2 | 11 | 22 | 33 | C1 (2 rows)
F.81.4. Функции XSLT #
Если установлена libxslt, доступны следующие функции:
F.81.4.1. xslt_process
#
xslt_process(text document, text stylesheet, text paramlist) returns text
Эта функция применяет стиль XSL к документу и возвращает результат преобразования. В paramlist
передаётся список присваиваний значений параметрам, которые будут использоваться в преобразовании, в форме a=1,b=2
. Учтите, что разбор параметров выполнен очень просто: значения параметров не могут содержать запятые!
Есть также версия xslt_process
с двумя аргументами, которая не передаёт никакие параметры преобразованию.
F.81.5. Автор #
Джон Грей <jgray@azuli.co.uk>
Разработку этого модуля спонсировала компания Torchbox Ltd. (www.torchbox.com). Этот модуль выпускается под той же лицензией BSD, что и Postgres Pro.
46.7. Database Access
The PL/Python language module automatically imports a Python module called plpy
. The functions and constants in this module are available to you in the Python code as plpy.
. foo
46.7.1. Database Access Functions
The plpy
module provides several functions to execute database commands:
plpy.
execute
(query
[,limit
])Calling
plpy.execute
with a query string and an optional row limit argument causes that query to be run and the result to be returned in a result object.If
limit
is specified and is greater than zero, thenplpy.execute
retrieves at mostlimit
rows, much as if the query included aLIMIT
clause. Omittinglimit
or specifying it as zero results in no row limit.The result object emulates a list or dictionary object. The result object can be accessed by row number and column name. For example:
rv = plpy.execute("SELECT * FROM my_table", 5)
returns up to 5 rows from
my_table
. Ifmy_table
has a columnmy_column
, it would be accessed as:foo = rv[i]["my_column"]
The number of rows returned can be obtained using the built-in
len
function.The result object has these additional methods:
nrows
()Returns the number of rows processed by the command. Note that this is not necessarily the same as the number of rows returned. For example, an
UPDATE
command will set this value but won't return any rows (unlessRETURNING
is used).status
()The
SPI_execute()
return value.colnames
()coltypes
()coltypmods
()Return a list of column names, list of column type OIDs, and list of type-specific type modifiers for the columns, respectively.
These methods raise an exception when called on a result object from a command that did not produce a result set, e.g.,
UPDATE
withoutRETURNING
, orDROP TABLE
. But it is OK to use these methods on a result set containing zero rows.__str__
()The standard
__str__
method is defined so that it is possible for example to debug query execution results usingplpy.debug(rv)
.
The result object can be modified.
Note that calling
plpy.execute
will cause the entire result set to be read into memory. Only use that function when you are sure that the result set will be relatively small. If you don't want to risk excessive memory usage when fetching large results, useplpy.cursor
rather thanplpy.execute
.plpy.
prepare
(query
[,argtypes
])plpy.
execute
(plan
[,arguments
[,limit
]])plpy.prepare
prepares the execution plan for a query. It is called with a query string and a list of parameter types, if you have parameter references in the query. For example:plan = plpy.prepare("SELECT last_name FROM my_users WHERE first_name = $1", ["text"])
text
is the type of the variable you will be passing for$1
. The second argument is optional if you don't want to pass any parameters to the query.After preparing a statement, you use a variant of the function
plpy.execute
to run it:rv = plpy.execute(plan, ["name"], 5)
Pass the plan as the first argument (instead of the query string), and a list of values to substitute into the query as the second argument. The second argument is optional if the query does not expect any parameters. The third argument is the optional row limit as before.
Alternatively, you can call the
execute
method on the plan object:rv = plan.execute(["name"], 5)
Query parameters and result row fields are converted between PostgreSQL and Python data types as described in Section 46.3.
When you prepare a plan using the PL/Python module it is automatically saved. Read the SPI documentation (Chapter 47) for a description of what this means. In order to make effective use of this across function calls one needs to use one of the persistent storage dictionaries
SD
orGD
(see Section 46.4). For example:CREATE FUNCTION usesavedplan() RETURNS trigger AS $$ if "plan" in SD: plan = SD["plan"] else: plan = plpy.prepare("SELECT 1") SD["plan"] = plan # rest of function $$ LANGUAGE plpythonu;
plpy.
cursor
(query
)plpy.
cursor
(plan
[,arguments
])The
plpy.cursor
function accepts the same arguments asplpy.execute
(except for the row limit) and returns a cursor object, which allows you to process large result sets in smaller chunks. As withplpy.execute
, either a query string or a plan object along with a list of arguments can be used, or thecursor
function can be called as a method of the plan object.The cursor object provides a
fetch
method that accepts an integer parameter and returns a result object. Each time you callfetch
, the returned object will contain the next batch of rows, never larger than the parameter value. Once all rows are exhausted,fetch
starts returning an empty result object. Cursor objects also provide an iterator interface, yielding one row at a time until all rows are exhausted. Data fetched that way is not returned as result objects, but rather as dictionaries, each dictionary corresponding to a single result row.An example of two ways of processing data from a large table is:
CREATE FUNCTION count_odd_iterator() RETURNS integer AS $$ odd = 0 for row in plpy.cursor("select num from largetable"): if row['num'] % 2: odd += 1 return odd $$ LANGUAGE plpythonu; CREATE FUNCTION count_odd_fetch(batch_size integer) RETURNS integer AS $$ odd = 0 cursor = plpy.cursor("select num from largetable") while True: rows = cursor.fetch(batch_size) if not rows: break for row in rows: if row['num'] % 2: odd += 1 return odd $$ LANGUAGE plpythonu; CREATE FUNCTION count_odd_prepared() RETURNS integer AS $$ odd = 0 plan = plpy.prepare("select num from largetable where num % $1 <> 0", ["integer"]) rows = list(plpy.cursor(plan, [2])) # or: = list(plan.cursor([2])) return len(rows) $$ LANGUAGE plpythonu;
Cursors are automatically disposed of. But if you want to explicitly release all resources held by a cursor, use the
close
method. Once closed, a cursor cannot be fetched from anymore.Tip
Do not confuse objects created by
plpy.cursor
with DB-API cursors as defined by the Python Database API specification. They don't have anything in common except for the name.
46.7.2. Trapping Errors
Functions accessing the database might encounter errors, which will cause them to abort and raise an exception. Both plpy.execute
and plpy.prepare
can raise an instance of a subclass of plpy.SPIError
, which by default will terminate the function. This error can be handled just like any other Python exception, by using the try/except
construct. For example:
CREATE FUNCTION try_adding_joe() RETURNS text AS $$ try: plpy.execute("INSERT INTO users(username) VALUES ('joe')") except plpy.SPIError: return "something went wrong" else: return "Joe added" $$ LANGUAGE plpythonu;
The actual class of the exception being raised corresponds to the specific condition that caused the error. Refer to Table A.1 for a list of possible conditions. The module plpy.spiexceptions
defines an exception class for each PostgreSQL condition, deriving their names from the condition name. For instance, division_by_zero
becomes DivisionByZero
, unique_violation
becomes UniqueViolation
, fdw_error
becomes FdwError
, and so on. Each of these exception classes inherits from SPIError
. This separation makes it easier to handle specific errors, for instance:
CREATE FUNCTION insert_fraction(numerator int, denominator int) RETURNS text AS $$ from plpy import spiexceptions try: plan = plpy.prepare("INSERT INTO fractions (frac) VALUES ($1 / $2)", ["int", "int"]) plpy.execute(plan, [numerator, denominator]) except spiexceptions.DivisionByZero: return "denominator cannot equal zero" except spiexceptions.UniqueViolation: return "already have that fraction" except plpy.SPIError as e: return "other error, SQLSTATE %s" % e.sqlstate else: return "fraction inserted" $$ LANGUAGE plpythonu;
Note that because all exceptions from the plpy.spiexceptions
module inherit from SPIError
, an except
clause handling it will catch any database access error.
As an alternative way of handling different error conditions, you can catch the SPIError
exception and determine the specific error condition inside the except
block by looking at the sqlstate
attribute of the exception object. This attribute is a string value containing the “SQLSTATE” error code. This approach provides approximately the same functionality