33.2. Оценка результатов тестирования
Некоторые правильно установленные и полностью функциональные PostgreSQL инсталляции могут «давать сбой» при прохождении некоторых регрессионных тестов из-за особенностей, присущих той или иной платформе, таких как различное представление чисел с плавающей точкой и формулировкой сообщений. В настоящее время результаты тестов оцениваются простым diff
сравнением с выводом, сделанным в эталонной системе, поэтому результаты чувствительны к небольшим отличиям между системами. Когда тест завершается со «сбоем», всегда исследуйте разницу между ожидаемым и полученным результатом; возможно, вы обнаружите, что разница не столь уж существенна. Тем не менее мы стремимся поддерживать эталонные файлы на всех поддерживаемых платформах, чтобы можно было ожидать прохождения всех тестов.
Актуальные итоговые результаты регрессионного тестирования хранятся в каталоге src/test/regress/results
. Тестовый скрипт использует команду diff
, чтобы сравнить каждый итоговый файл с ожидаемыми результатами, которые хранятся в каталоге src/test/regress/expected
. Все различия сохраняются в src/test/regress/regression.diffs
для последующей проверки. (Если проводился тест не из основного пакета, то его результаты появятся в соответствующем подкаталоге, а не в src/test/regress
.)
Если вам не нравятся используемые по умолчанию аргументы diff
, установите переменную среды PG_REGRESS_DIFF_OPTS
, например PG_REGRESS_DIFF_OPTS='-c'
. (Или, если хотите, запустите diff
самостоятельно.)
Если по какой-то причине какая-то конкретная платформа генерирует «сбой» для отдельного теста, но изучение его результата убеждает вас, что результат правильный, вы можете добавить новый файл сравнения, чтобы замаскировать отчёт об ошибке для последующего прохождения теста. За подробностями обратитесь к Разделу 33.3.
33.2.1. Различия в сообщениях об ошибке
Некоторые регрессионные тесты подставляют заведомо неверные входные значения. Сообщения об ошибке могут выдаваться как PostgreSQL, так и самой операционной системой. В последнем случае форма сообщений может отличаться в зависимости от платформы, но отражают они одну и ту же информацию. Вот эта разница в сообщениях и приводит к «сбоям» регрессионного теста, которые можно устранить при проверке.
33.2.2. Разница локалей
Если вы проводите тестирование на сервере, который был установлен с локалью, имеющей порядок сопоставления, отличный от С, вы можете столкнуться с различиями в порядке сортировки и, как следствие, с последующими сбоями. Пакет регрессионных тестов решает эту проблему путём наличия альтернативных файлов результата, которые способны справиться с большим количеством локалей.
Если вы используете метод тестирования на временной инсталляции, то чтобы запустить тестирование на другой локали, используйте подходящую переменную среды, относящуюся к локали, в командной строке make
, например:
make check LANG=de_DE.utf8
(Драйвер регрессионного теста обнуляет LC_ALL
, поэтому выбор локали посредством данной переменной не работает.) Чтобы не использовать локаль, либо обнулите все переменные среды, относящиеся к локали, либо установите их в C
) или используйте следующую специальную команду:
make check NO_LOCALE=1
Когда тест проходит на существующей инсталляции, установки локали определяются этой инсталляцией. Чтобы это изменить, инициализируйте кластер базы данных с иной локалью, передав соответствующие параметры initdb
.
В целом, рекомендуется по возможности проводить регрессионные тесты при таких установках локали, которые будут использованы в работе, тогда в результате тестирования будут проверены актуальные участки кода, относящиеся к локали и кодировке. В зависимости от окружения операционной системы, вы можете столкнуться со сбоями, но вы хотя бы будете знать, какого поведения локали можно ожидать при работе с реальными приложениями.
33.2.3. Разница в дате и времени
Большая часть результатов проверки даты и времени зависит от часового пояса окружения. Эталонные файлы созданы для пояса America/Los_Angeles
, поэтому если проводить тесты не с этим часовым поясом, проявятся мнимые ошибки. Драйвер регрессионного теста задаёт переменную среды PGTZ
как America/Los_Angeles
, что позволяет получить корректный результат.
33.2.4. Разница в числах с плавающей точкой
Некоторые тесты применяют 64-битное вычисление чисел с плавающей точкой (double precision
) из столбцов таблицы. Наблюдаются различия в результатах при использовании математических функций для столбцов double precision
. Тесты float8
и geometry
особенно чувствительны к небольшим различиям между платформами и даже режимами оптимизации компилятора. Чтобы понять реальную значимость этих различий, нужно сравнить их глазами, поскольку обычно они располагаются с десятого разряда справа от десятичной точки.
Некоторые системы показывают минус ноль как -0
, тогда как другие показывают просто 0
.
Некоторые системы сигнализируют об ошибках в pow()
и exp()
не так, как ожидает текущий код PostgreSQL.
33.2.5. Разница в сортировке строк
Иногда наблюдаются различия в том, что одни и те же строки выводятся в ином порядке, нежели в контрольном файле. В большинстве случаев это не является, строго говоря, ошибкой. Основная часть скриптов регрессионных тестов не столь педантична, чтобы использовать ORDER BY
для каждого SELECT
, и поэтому в результате порядок строк не гарантирован согласно спецификации SQL. На практике мы видим, как одинаковые запросы, выполняемые для одних и тех же данных на одном и том же программном обеспечении, выдают результаты в одинаковом порядке для всех платформ, в связи с чем отсутствие ORDER BY
не является проблемой. Однако некоторые запросы выявляют межплатформенные различия в сортировке. Когда тестирование идет на уже установленном сервере, различия в сортировке могут быть следствием того, что локаль установлена в отличное от С значение, или некоторые параметры заданы не по умолчанию, такие как work_mem
или стоимостные параметры планировщика.
Поэтому, если вы видите различия в сортировке строк, не стоит волноваться, если только запрос не использует ORDER BY
. Тем не менее сообщайте нам о таких случаях, чтобы мы могли добавить ORDER BY
в конкретный запрос, чтобы исключить возможность ошибки в будущих релизах.
Вы можете задать вопрос, почему мы явно не добавили ORDER BY
во все запросы регрессионных тестов, чтобы избавиться от таких ошибок раз и навсегда. Причина в том, что это снизит полезность регрессионных тестов, поскольку они будут иметь тенденцию к проверке планов запросов использующих сортировку, за счёт исключения запросов без сортировки.
33.2.6. Недостаточная глубина стека
Если ошибки
теста приводят к поломке сервера при выполнении команды select infinite_recurse()
, это означает, что предел платформы для размера стека меньше, чем показывает параметр max_stack_depth. Проблема может быть решена запуском сервера с большим размером стека (рекомендованное значение max_stack_depth
по умолчанию - 4 Мб). Если вы не можете этого сделать, в качестве альтернативы уменьшите значение max_stack_depth
.
На платформах, поддерживающих функцию getrlimit()
, сервер должен автоматически выбирать значение переменной max_stack_depth
; поэтому, если вы не переписывали это значение вручную, сбой такого типа — просто дефект, который нужно зарегистрировать.
33.2.7. Тест «случайных значений»
Тестовый скрипт random
подразумевает получение случайных значений. В очень редких случаях это приводит к сбоям в регрессионном тестировании. Выполнение
diff results/random.out expected/random.out
должно выводить одну или несколько строк различий. Нет причин для беспокойства, до тех пор пока сбои в этом тесте не повторяются постоянно.
33.2.8. Параметры конфигурации
Когда тестирование проходит на существующей инсталляции, некоторые нестандартные значения параметров могут привести к сбоям в тесте. Например, изменение таких параметров конфигурации, как enable_seqscan
или enable_indexscan
могут привести к такому изменению системы, которое сможет воздействовать на результаты тестов, использующих EXPLAIN
.
pg_standby
pg_standby — supports the creation of a PostgreSQL warm standby server
Synopsis
pg_standby
[option
...] archivelocation
nextwalfile
walfilepath
[restartwalfile
]
Description
pg_standby supports creation of a “warm standby” database server. It is designed to be a production-ready program, as well as a customizable template should you require specific modifications.
pg_standby is designed to be a waiting restore_command
, which is needed to turn a standard archive recovery into a warm standby operation. Other configuration is required as well, all of which is described in the main server manual (see Section 26.2).
To configure a standby server to use pg_standby, put this into its postgresql.conf
configuration file:
restore_command = 'pg_standby archiveDir
%f %p %r'
where archiveDir
is the directory from which WAL segment files should be restored.
If restartwalfile
is specified, normally by using the %r
macro, then all WAL files logically preceding this file will be removed from archivelocation
. This minimizes the number of files that need to be retained, while preserving crash-restart capability. Use of this parameter is appropriate if the archivelocation
is a transient staging area for this particular standby server, but not when the archivelocation
is intended as a long-term WAL archive area.
pg_standby assumes that archivelocation
is a directory readable by the server-owning user. If restartwalfile
(or -k
) is specified, the archivelocation
directory must be writable too.
There are two ways to fail over to a “warm standby” database server when the master server fails:
- Smart Failover
In smart failover, the server is brought up after applying all WAL files available in the archive. This results in zero data loss, even if the standby server has fallen behind, but if there is a lot of unapplied WAL it can be a long time before the standby server becomes ready. To trigger a smart failover, create a trigger file containing the word
smart
, or just create it and leave it empty.- Fast Failover
In fast failover, the server is brought up immediately. Any WAL files in the archive that have not yet been applied will be ignored, and all transactions in those files are lost. To trigger a fast failover, create a trigger file and write the word
fast
into it. pg_standby can also be configured to execute a fast failover automatically if no new WAL file appears within a defined interval.
Options
pg_standby accepts the following command-line arguments:
-c
Use
cp
orcopy
command to restore WAL files from archive. This is the only supported behavior so this option is useless.-d
Print lots of debug logging output on
stderr
.-k
Remove files from
archivelocation
so that no more than this many WAL files before the current one are kept in the archive. Zero (the default) means not to remove any files fromarchivelocation
. This parameter will be silently ignored ifrestartwalfile
is specified, since that specification method is more accurate in determining the correct archive cut-off point. Use of this parameter is deprecated as of PostgreSQL 8.3; it is safer and more efficient to specify arestartwalfile
parameter. A too small setting could result in removal of files that are still needed for a restart of the standby server, while a too large setting wastes archive space.-r
maxretries
Set the maximum number of times to retry the copy command if it fails (default 3). After each failure, we wait for
sleeptime
*num_retries
so that the wait time increases progressively. So by default, we will wait 5 secs, 10 secs, then 15 secs before reporting the failure back to the standby server. This will be interpreted as end of recovery and the standby will come up fully as a result.-s
sleeptime
Set the number of seconds (up to 60, default 5) to sleep between tests to see if the WAL file to be restored is available in the archive yet. The default setting is not necessarily recommended; consult Section 26.2 for discussion.
-t
triggerfile
Specify a trigger file whose presence should cause failover. It is recommended that you use a structured file name to avoid confusion as to which server is being triggered when multiple servers exist on the same system; for example
/tmp/pgsql.trigger.5432
.-V
--version
Print the pg_standby version and exit.
-w
maxwaittime
Set the maximum number of seconds to wait for the next WAL file, after which a fast failover will be performed. A setting of zero (the default) means wait forever. The default setting is not necessarily recommended; consult Section 26.2 for discussion.
-?
--help
Show help about pg_standby command line arguments, and exit.
Notes
pg_standby is designed to work with PostgreSQL 8.2 and later.
PostgreSQL 8.3 provides the %r
macro, which is designed to let pg_standby know the last file it needs to keep. With PostgreSQL 8.2, the -k
option must be used if archive cleanup is required. This option remains available in 8.3, but its use is deprecated.
PostgreSQL 8.4 provides the recovery_end_command
option. Without this option a leftover trigger file can be hazardous.
pg_standby is written in C and has an easy-to-modify source code, with specifically designated sections to modify for your own needs
Examples
On Linux or Unix systems, you might use:
archive_command = 'cp %p .../archive/%f' restore_command = 'pg_standby -d -s 2 -t /tmp/pgsql.trigger.5442 .../archive %f %p %r 2>>standby.log' recovery_end_command = 'rm -f /tmp/pgsql.trigger.5442'
where the archive directory is physically located on the standby server, so that the archive_command
is accessing it across NFS, but the files are local to the standby (enabling use of ln
). This will:
produce debugging output in
standby.log
sleep for 2 seconds between checks for next WAL file availability
stop waiting only when a trigger file called
/tmp/pgsql.trigger.5442
appears, and perform failover according to its contentremove the trigger file when recovery ends
remove no-longer-needed files from the archive directory
On Windows, you might use:
archive_command = 'copy %p ...\\archive\\%f' restore_command = 'pg_standby -d -s 5 -t C:\pgsql.trigger.5442 ...\archive %f %p %r 2>>standby.log' recovery_end_command = 'del C:\pgsql.trigger.5442'
Note that backslashes need to be doubled in the archive_command
, but not in the restore_command
or recovery_end_command
. This will:
use the
copy
command to restore WAL files from archiveproduce debugging output in
standby.log
sleep for 5 seconds between checks for next WAL file availability
stop waiting only when a trigger file called
C:\pgsql.trigger.5442
appears, and perform failover according to its contentremove the trigger file when recovery ends
remove no-longer-needed files from the archive directory
The copy
command on Windows sets the final file size before the file is completely copied, which would ordinarily confuse pg_standby. Therefore pg_standby waits sleeptime
seconds once it sees the proper file size. GNUWin32's cp
sets the file size only after the file copy is complete.
Since the Windows example uses copy
at both ends, either or both servers might be accessing the archive directory across the network.
Author
Simon Riggs <simon@2ndquadrant.com>