29.5. Внутреннее устройство WAL
WAL включается автоматически; от администратора не требуется никаких действий за исключением того, чтобы убедиться, что выполнены требования WAL к месту на диске, и что выполнены все необходимые действия по тонкой настройке (см. Раздел 29.4).
Журналы WAL хранятся в каталоге pg_xlog
, находящемся в каталоге данных, в виде списка файлов сегментов, обычно по 16 Мбайт каждый (этот размер может быть изменён с помощью указания configure --with-wal-segsize
во время компиляции сервера). Каждый файл сегмента разделяется на страницы, обычно по 8 Кбайт (данный размер может быть изменён с помощью указания configure --with-wal-blocksize
). Заголовки записей журнала описываются в access/xlogrecord.h
; содержимое самих записей зависит от типа события, которое сохраняется в журнале. Файлы сегментов имеют имена-номера, которые начинаются с 000000010000000000000001
и последовательно увеличиваются. Зацикливание этих номеров не предусмотрено, но для использования доступных номеров потребуется очень, очень много времени.
Имеет смысл размещать журналы WAL на другом диске, отличном от того, где находятся основные файлы базы данных. Для этого можно переместить каталог pg_xlog
в другое место (разумеется, когда сервер остановлен) и создать символическую ссылку из исходного места на перемещённый каталог.
Для WAL важно, чтобы запись в журнал выполнялась до изменений данных в базе. Но этот порядок могут нарушить дисковые устройства, которые ложно сообщают ядру об успешном завершении записи, хотя фактически они только выполнили кеширование данных и пока не сохранили их на диск. Сбой питания в такой ситуации может привести к неисправимому повреждению данных. Администраторы должны убедиться, что диски, где хранятся файлы журналов WAL PostgreSQL, не выдают таких ложных сообщений ядру. (См. Раздел 29.1.)
После выполнения контрольной точки и сброса журнала позиция контрольной точки сохраняется в файл pg_control
. Таким образом, при старте восстановления сервер сперва читает файл pg_control
и затем запись контрольной точки; затем он выполняет операцию REDO, сканируя вперёд от точки журнала, обозначенной в записи контрольной точки. Поскольку полное содержимое страниц данных сохраняется в журнале в первой странице после контрольной точки (предполагается, что включён режим full_page_writes), все страницы, изменённые с момента контрольной точки, будут восстановлены в целостном состоянии.
В случае, если файл pg_control
повреждён, мы должны поддерживать возможность сканирования существующих сегментов журнала в обратном порядке — от новых к старым — чтобы найти последнюю контрольную точку. Это пока не реализовано. pg_control
является достаточно маленьким файлом (меньше, чем одна дисковая страница), который не должен попадать под проблему частичной записи и на момент написания данной документации, не было ни одного сообщения о сбоях СУБД исключительно из-за невозможности чтения самого файла pg_control
. Таким образом, хотя теоретически это является слабым местом, на практике проблем с pg_control
не обнаружено.