29.4. Настройка WAL

Существует несколько конфигурационных параметров относящихся к WAL, которые влияют на производительность СУБД. Далее рассказывается об их использовании. Общую информацию об установке параметров конфигурации сервера смотрите в Главе 18.

Контрольные точки— это точки в последовательности транзакций, в которых гарантируется, что файлы с данными и индексами были обновлены всей информацией записанной перед контрольной точкой. Во время контрольной точки, все страницы данных, находящиеся в памяти, сохраняются на диск, а в файл журнала записывается специальная запись контрольной точки. (Сделанные изменения были перед этим записаны в файлы WAL.) В случае краха процедура восстановления ищет последнюю запись контрольной точки, чтобы определить эту точку в журнале (называемую записью REDO), от которой процедура должна начать операцию воспроизведения изменений. Любые изменения файлов данных перед этой точкой гарантированно находятся уже на диске. Таким образом, после контрольной точки, сегменты журнала, которые предшествуют записи воспроизведения, больше не нужны и могут быть удалены или пущены в циклическую перезапись. (Когда архивирование WAL будет завершено, сегменты журнала должны быть архивированы перед их удалением или циклической перезаписи.)

Запись всех страниц данных из памяти на диск, которая требуется для контрольной точки, может вызвать значительную нагрузку на дисковый ввод/вывод. По этой причине, активность записи по контрольной точке регулируется так, что ввод/вывод начинается при старте контрольной точки и завершается перед стартом следующей контрольной точки; это минимизирует потерю производительности во время прохождения контрольных точек.

Специальный фоновый процесс checkpointer автоматически выполняет контрольную точку с заданной частотой. Контрольная точка выполняется через каждые checkpoint_segments сегментов журнала или каждые checkpoint_timeout секунд, в зависимости от того, какое событие наступит первым. Значения по умолчанию — 3 сегмента и 300 секунд (5 минут). Если с предыдущей контрольной точки ни один файл WAL так и не был записан, то новые контрольные точки будут пропущены, даже если наступил checkpoint_timeout. (Если используется архивирование WAL и вы хотите управлять частотой смены файлов журнала для ограничения потенциальной потери данных, то нужно корректировать параметр archive_timeout, а не параметры контрольной точки). Также возможен принудительный запуск контрольной точки с помощью SQL-команды CHECKPOINT.

Снижение количества checkpoint_segments и/или checkpoint_timeout приводит к более частому созданию контрольных точек. Это позволяет ускорить восстановление после краха (поскольку для воспроизведения нужно меньше данных). Однако, должен соблюдаться баланс между этим и затратами на более частое сохранение страниц данных из памяти на диск. Если full_page_writes установлено (как по умолчанию), существует другой фактор, который необходимо учитывать. Для гарантирования целостности страниц данных, при первом изменении любой страницы после каждой контрольной точки, эта страница записывается в журнал целиком. Это приводит к тому, что маленький интервал между контрольными точками увеличивает объём, выводимый в журнал WAL, что частично негативно сказывается на цели использования более маленького интервала и в любом случае, приводит к большему числу дисковых операций ввода/вывода.

Контрольные точки довольно дороги с точки зрения ресурсов, во-первых, потому что они требуют записи всех буферов из памяти на диск, и во-вторых потому что они создают дополнительный трафик WAL, о чём говорилось выше. Таким образом, будет благоразумным установить параметры контрольных точек так, чтобы контрольные точки не выполнялись слишком часто. Для простой проверки параметров контрольной точки можно установить параметр checkpoint_warning. Если промежуток времени между контрольными точками будет меньшее чем количество секунд, заданное параметром checkpoint_warning, то в журнал сервера будет выдано сообщение с рекомендацией увеличить checkpoint_segments. Периодическое появление такого сообщения не является поводом для беспокойства. Но если оно появляется часто, необходимо увеличить значения параметров управления контрольными точками. Массовые операции, такие как COPY с большим объёмом данных, могут привести к появлению нескольких таких предупреждений, если вы не установили checkpoint_segments достаточно большим.

Чтобы избежать "завала" большим количеством системных операций дискового ввода/вывода из-за взрывного количества операций записи страниц, запись заполненных буферов во время контрольной точки "размазывается" на определённый период времени. Этот период управляется параметром checkpoint_completion_target, который задаётся как часть интервала контрольной точки. Количество данных ввода/вывода согласуется так, чтобы контрольная точка завершалась, когда данная часть checkpoint_segments WAL будет израсходована с момента старта контрольной точки или когда заданная часть checkpoint_timeout секунд истечёт, смотря какое событие из вышеуказанных наступит быстрее. С значением 0.5, заданным по умолчанию, PostgreSQL может ожидать завершения каждой контрольной точки примерно половину времени перед стартом следующей контрольной точки. На системах, которые очень близки к максимальному потоку данных ввода/вывода во время обычного функционирования, вы возможно захотите увеличить checkpoint_completion_target, чтобы снизить загрузку по вводу/выводу, возникающую из-за контрольных точек. Недостаток такого подхода состоит в том, что пролонгированные контрольные точки влияют на время восстановления, потому что при восстановлении нужно будет использовать большее количество сегментов WAL. Хотя значение checkpoint_completion_target может быть установлено столь высоким как 1.0, лучше оставить его поменьше (по крайней мере, не больше 0.9), так как контрольные точки включают некоторые другие операции, помимо записи заполненных буферов. Установка значения 1.0 вполне вероятно приведёт к тому, что контрольные точки не будут завершаться вовремя, что приведёт к потере производительности из-за неожиданного изменения количества необходимых сегментов WAL.

Всегда будет по крайней мере один файл сегмента WAL и обычно также будет не более чем (2 + checkpoint_completion_target) * checkpoint_segments + 1 или checkpoint_segments + wal_keep_segments + 1 файлов. Каждый файл сегмента обычно имеет размер в 16 MB (этот размер можно изменить при сборке сервера). Вы можете использовать этот размер для оценки требуемого дискового пространства для хранения WAL. Обычно, когда старые файлы сегментов больше не нужны, они циклически перезаписываются (переименовываются в порядке нумерации, для того, чтобы принять следующие сегменты). Если из-за кратковременного возрастания количества данных при выводе в журнал, образовалось более, чем 3 * checkpoint_segments + 1 файлов сегментов, ненужные файлы сегментов вместо циклической перезаписи будут удаляться до тех пор, пока система не вернётся в обычный режим работы.

В режиме архивного восстановления или горячего резервирования, сервер периодически выполняет точки перезапуска, которые похожи на контрольные точки в обычном режиме работы: сервер принудительно сбрасывает своё состояние на диск, обновляет файл pg_control, чтобы показать, что уже обработанные данные WAL не нужно сканировать снова и затем циклически перезаписывает все старые файлы сегментов в каталоге pg_xlog. Точки перезапуска не могут выполняться чаще, чем контрольные точки на главном сервере, так как они могут срабатывать только по достижении записи о контрольной точке в WAL. Точка перезапуска срабатывает по достижении записи о контрольной точке, если прошло не меньше checkpoint_timeout секунд с момента предыдущей точки перезапуска. В режиме горячего резервирования, точка перезапуска также срабатывает, если с момента последней точки перезапуска было применено checkpoint_segments сегментов журнала.

Есть две наиболее часто используемые внутренние функции WAL: XLogInsert и XLogFlush. XLogInsert используется для помещения новой записи внутрь буферов WAL в разделяемой памяти. Если для новой записи нет места, XLogInsert запишет (переместит в кеш ядра) несколько полных буферов WAL. Это нежелательно, потому что XLogInsert используется при каждом изменении базы данных на низком уровне (например, вставке строки) в то время, когда эксклюзивная блокировка удерживается на соответствующие страницы данных, а эта операция должна быть выполнена так быстро, как только возможно. Что ещё хуже, запись буферов WAL может также привести к созданию нового сегмента журнала, что занимает ещё больше времени. Обычно буферы WAL должны быть записаны и сохранены запросом XLogFlush, который выполняется, по больше части, за время подтверждения транзакции, чтобы иметь уверенность, что записи транзакций сохранены на устройство постоянного хранения. В системах, где вывод журнала генерирует много данных, запросы XLogFlush могут не происходить достаточно часто, чтобы предотвратить операции записи, выполняемые XLogInsert. На таких системах, нужно увеличить количество буферов WAL, изменив конфигурационный параметр wal_buffers. По умолчанию, количество буферов WAL равно 8. Увеличение этого значения будет соответственно увеличивать использование разделяемой памяти. Когда задан параметр full_page_writes и система очень загружена, увеличение параметра wal_buffers поможет сгладить время отклика во время периода, следующего непосредственно за каждой контрольной точкой.

Параметр commit_delay определяет, на сколько микросекунд будет засыпать ведущий процесс группы, записывающий в журнал, после получения блокировки в XLogFlush, пока подчинённые формируют очередь на запись. Во время этой задержки другие серверные процессы смогут добавлять записи в WAL буферы журнала, чтобы все эти записи сохранились на диск в результате одной операции синхронизации, которую выполнит ведущий. Ведущий процесс не засыпает, если отключён режим fsync, либо число сеансов с активными транзакциями меньше commit_siblings, так как маловероятно, что какой-либо другой сеанс зафиксирует транзакцию в ближайшее время. Заметьте, что на некоторых платформах, разрешение этого таймера сна составляет 10 миллисекунд, так что любое значение параметра commit_delay от 1 до 10000 микросекунд будет действовать одинаково. Кроме того, в некоторых системах состояние сна может продлиться несколько дольше, чем требует параметр.

Так как цель commit_delay состоит в том, чтобы позволить стоимости каждой операции синхронизации амортизироваться через параллельную фиксацию транзакций (потенциально за счёт задержки транзакции), необходимо определить количество той стоимости, прежде чем урегулирование сможет быть выбрано разумно. Чем выше стоимость, тем более эффективный будет commit_delay в увеличении пропускной способности транзакций в какой-то степени. Программа pg_test_fsync может использоваться, чтобы измерить среднее время в микросекундах, которое занимает одиночная работа сброса WAL на диск. Значение половины среднего времени сообщаемого программой рекомендуется в качестве отправной точки для использования значения в параметре commit_delay при оптимизации для конкретного объёма работы, и говорит о том, сколько нужно времени для синхронизации сброса единственной операции записи 8 КБ. Настройка параметра commit_delay особенно полезна в случае хранения WAL в хранилище с высокоскоростными дисками, такими как твердотельные накопители (SSD) или RAID-массивы с кешем записи и аварийным питанием на батарее; но это определённо должно тестироваться на репрезентативной рабочей нагрузке. Более высокие значения commit_siblings должны использоваться в таких случаях, тогда как меньшие значения commit_siblings часто полезны на носителях с большими задержками. Обратите внимание на то, что увеличение значения параметра commit_delay может увеличить задержку транзакции настолько, что пострадает общая производительность транзакций.

Даже если commit_delay равен нулю (значение по умолчанию), групповая фиксация все равно может произойти, но группа будет состоять только из тех сеансов, которым понадобилось сбросить записи о фиксации на диск за то время, пока происходил предыдущий сброс. Чем больше сеансов, тем чаще это происходит даже при нулевом commit_delay, поэтому увеличение этого параметра может и не оказать заметного действия. Установка commit_delay имеет смысл в двух случаях: (1) когда несколько транзакций одновременно фиксируют изменения, (2) либо когда частота фиксаций ограничена пропускной способностью дисковой подсистемы. Однако при задержке из-за низкой скорости вращения диска, эта настройка может оказаться полезной даже всего при двух сеансах.

Параметр wal_sync_method определяет, как PostgreSQL будет обращаться к ядру, чтобы принудительно сохранить WAL на диск. Все методы должны быть одинаковыми в плане надёжности, за исключением fsync_writethrough, который может иногда принудительно сбрасывать кеш диска, даже если другие методы не делают этого. Однако, какой из них самый быстрый, во многом определяется платформой; вы можете протестировать скорость, используя модуль pg_test_fsync . Обратите внимание, что данный параметр не имеет значения, если fsync выключен.

Включение параметра конфигурации wal_debug (предоставляется, если PostgreSQL был скомпилирован с его поддержкой) будет приводить к тому, что каждый вызов функций XLogInsert и XLogFlush будет протоколироваться в журнал сервера. Данный параметр может быть замещён в будущем более правильным механизмом.