9.5. Функции и операторы двоичных строк
В этом разделе описываются функции и операторы для работы с двоичными строками, то есть со значениями типа bytea
. Многие из них идентичны по функциональности и синтаксису описанным в предыдущем разделе функциям, предназначенным для текстовых строк.
В SQL определены несколько строковых функций, в которых аргументы разделяются не запятыми, а ключевыми словами. Подробнее это описано в Таблице 9.11. Postgres Pro также предоставляет варианты этих функций с синтаксисом, обычным для функций (см. Таблицу 9.12).
Таблица 9.11. SQL-функции и операторы для работы с двоичными строками
В PostgreSQL есть и другие функции для работы с двоичными строками, перечисленные в Таблице 9.12. Некоторые из них используются в качестве внутренней реализации стандартных функций SQL, приведённых в Таблице 9.11.
Таблица 9.12. Другие функции для работы с двоичными строками
Функция Описание Пример(ы) |
---|
Удаляет наибольшую строку, содержащую только байты, заданные в параметре
|
Извлекает из двоичной строки бит с номером n.
|
Извлекает из двоичной строки байт с номером n.
|
Выдаёт число байт в двоичной строке.
|
Выдаёт число символов в двоичной строке, в предположении, что она содержит текст в кодировке
|
Вычисляет MD5-хеш двоичной строки и выдаёт результат в шестнадцатеричном виде.
|
Устанавливает в двоичной строке для бита с номером n значение
|
Устанавливает в двоичной строке для байта с номером n значение
|
Вычисляет хеш SHA-224 для двоичной строки.
|
Вычисляет хеш SHA-256 для двоичной строки.
|
Вычисляет хеш SHA-384 для двоичной строки.
|
Вычисляет хеш SHA-512 для двоичной строки.
|
Извлекает из
|
Для функций get_byte
и set_byte
байты нумеруется с 0. Функции get_bit
и set_bit
нумеруют биты справа налево; например, бит 0 будет меньшим значащим битом первого байта, а бит 15 — большим значащим битом второго байта.
По историческим причинам функция md5
возвращает значение в шестнадцатеричном виде в типе text
, тогда как функции SHA-2 возвращают тип bytea
. Для преобразования значения из одного представления в другое используйте функции encode
и decode
. Например, вызвав encode(sha256('abc'), 'hex')
, вы получите значение в шестнадцатеричном виде в текстовой строке, а decode(md5('abc'), 'hex')
выдаст значение bytea
.
В Таблице 9.13 показаны функции для перекодирования текста из одного набора символов (кодировки) в другой и для представления произвольных двоичных данных в текстовом виде. Для всех этих функций аргумент или результат типа text
содержит текст в текущей кодировке базы данных, тогда как аргументы или результаты типа bytea
содержат текст в кодировке, заданной соответствующим аргументом.
Таблица 9.13. Функции для преобразования текстовых/двоичных строк
Функция Описание Пример(ы) |
---|
Преобразует двоичную строку, содержащую текст в кодировке
|
Преобразует двоичную строку, содержащую текст в кодировке
|
Преобразует строку типа
|
Переводит двоичные данные в текстовое представление; поддерживаются следующие значения
|
Переводит двоичные данные из текстового представления; поддерживает те же значения
|
Функции encode
и decode
поддерживают следующие текстовые форматы:
- base64
Формат
base64
описан в RFC 2045, Разделе 6.8. Согласно этому RFC, закодированные строки разбиваются по 76 символов. Однако завершаются строки не символами CRLF (как требуется в соответствии с MIME), а одним символом конца строки. Функцияdecode
, с другой стороны, игнорирует символы перевода каретки, новой строки, пробелы и табуляции. Если на входdecode
поступают некорректные данные base64, возникает ошибка — в том числе, если оказывается некорректным завершающее выравнивание.- escape
В формате
escape
нулевые байты и байты с установленным старшим битом переводятся в восьмеричные спецпоследовательности (\
nnn
), а обратная косая черта дублируется. Другие байтовые значения представляются в буквальном виде. Функцияdecode
выдаст ошибку, встретив обратную косую черту, за которой не следует ещё одна обратная косая или три восьмеричных цифры; другие значения байта она принимает без изменений.- hex
В формате
hex
каждые 4 бита данных представляются одной шестнадцатеричной цифрой, от0
доf
, при этом первой идёт цифра, представляющая старшие биты. Шестнадцатеричные цифрыa
-f
функцияencode
выводит в нижнем регистре. Так как наименьшая единица данных — байт (8 бит), функцияencode
всегда возвращает чётное количество символов. Функцияdecode
, с другой стороны, принимает символыa
-f
в любом регистре. Если на вход функцииdecode
поступают некорректные данные, возникает ошибка — в том числе, если число символов оказывается нечётным.
См. также агрегатную функцию string_agg
в Разделе 9.21 и функции для работы с большими объектами в Разделе 37.4.
36.2. The Postgres Pro Type System
Postgres Pro data types can be divided into base types, container types, domains, and pseudo-types.
36.2.1. Base Types
Base types are those, like integer
, that are implemented below the level of the SQL language (typically in a low-level language such as C). They generally correspond to what are often known as abstract data types. Postgres Pro can only operate on such types through functions provided by the user and only understands the behavior of such types to the extent that the user describes them. The built-in base types are described in Chapter 8.
Enumerated (enum) types can be considered as a subcategory of base types. The main difference is that they can be created using just SQL commands, without any low-level programming. Refer to Section 8.7 for more information.
36.2.2. Container Types
Postgres Pro has three kinds of “container” types, which are types that contain multiple values of other types. These are arrays, composites, and ranges.
Arrays can hold multiple values that are all of the same type. An array type is automatically created for each base type, composite type, range type, and domain type. But there are no arrays of arrays. So far as the type system is concerned, multi-dimensional arrays are the same as one-dimensional arrays. Refer to Section 8.15 for more information.
Composite types, or row types, are created whenever the user creates a table. It is also possible to use CREATE TYPE to define a “stand-alone” composite type with no associated table. A composite type is simply a list of types with associated field names. A value of a composite type is a row or record of field values. Refer to Section 8.16 for more information.
A range type can hold two values of the same type, which are the lower and upper bounds of the range. Range types are user-created, although a few built-in ones exist. Refer to Section 8.17 for more information.
36.2.3. Domains
A domain is based on a particular underlying type and for many purposes is interchangeable with its underlying type. However, a domain can have constraints that restrict its valid values to a subset of what the underlying type would allow. Domains are created using the SQL command CREATE DOMAIN. Refer to Section 8.18 for more information.
36.2.4. Pseudo-Types
There are a few “pseudo-types” for special purposes. Pseudo-types cannot appear as columns of tables or components of container types, but they can be used to declare the argument and result types of functions. This provides a mechanism within the type system to identify special classes of functions. Table 8.25 lists the existing pseudo-types.
36.2.5. Polymorphic Types
Five pseudo-types of special interest are anyelement
, anyarray
, anynonarray
, anyenum
, and anyrange
, which are collectively called polymorphic types. Any function declared using these types is said to be a polymorphic function. A polymorphic function can operate on many different data types, with the specific data type(s) being determined by the data types actually passed to it in a particular call.
Polymorphic arguments and results are tied to each other and are resolved to a specific data type when a query calling a polymorphic function is parsed. Each position (either argument or return value) declared as anyelement
is allowed to have any specific actual data type, but in any given call they must all be the same actual type. Each position declared as anyarray
can have any array data type, but similarly they must all be the same type. And similarly, positions declared as anyrange
must all be the same range type. Furthermore, if there are positions declared anyarray
and others declared anyelement
, the actual array type in the anyarray
positions must be an array whose elements are the same type appearing in the anyelement
positions. Similarly, if there are positions declared anyrange
and others declared anyelement
or anyarray
, the actual range type in the anyrange
positions must be a range whose subtype is the same type appearing in the anyelement
positions and the same as the element type of the anyarray
positions. anynonarray
is treated exactly the same as anyelement
, but adds the additional constraint that the actual type must not be an array type. anyenum
is treated exactly the same as anyelement
, but adds the additional constraint that the actual type must be an enum type.
Thus, when more than one argument position is declared with a polymorphic type, the net effect is that only certain combinations of actual argument types are allowed. For example, a function declared as equal(anyelement, anyelement)
will take any two input values, so long as they are of the same data type.
When the return value of a function is declared as a polymorphic type, there must be at least one argument position that is also polymorphic, and the actual data type supplied as the argument determines the actual result type for that call. For example, if there were not already an array subscripting mechanism, one could define a function that implements subscripting as subscript(anyarray, integer) returns anyelement
. This declaration constrains the actual first argument to be an array type, and allows the parser to infer the correct result type from the actual first argument's type. Another example is that a function declared as f(anyarray) returns anyenum
will only accept arrays of enum types.
In most cases, the parser can infer the actual data type for a polymorphic result type from arguments that are of a different polymorphic type; for example anyarray
can be deduced from anyelement
or vice versa. The exception is that a polymorphic result of type anyrange
requires an argument of type anyrange
; it cannot be deduced from anyarray
or anyelement
arguments. This is because there could be multiple range types with the same subtype.
Note that anynonarray
and anyenum
do not represent separate type variables; they are the same type as anyelement
, just with an additional constraint. For example, declaring a function as f(anyelement, anyenum)
is equivalent to declaring it as f(anyenum, anyenum)
: both actual arguments have to be the same enum type.
A variadic function (one taking a variable number of arguments, as in Section 36.5.5) can be polymorphic: this is accomplished by declaring its last parameter as VARIADIC
anyarray
. For purposes of argument matching and determining the actual result type, such a function behaves the same as if you had written the appropriate number of anynonarray
parameters.