pgbench
Описание
pgbench — это простая программа для запуска тестов производительности PostgreSQL. Она многократно выполняет одну последовательность команд, возможно в параллельных сеансах базы данных, а затем вычисляет среднюю скорость транзакций (число транзакций в секунду). По умолчанию pgbench тестирует сценарий, примерно соответствующий TPC-B, который состоит из пяти команд SELECT, UPDATE и INSERT в одной транзакции. Однако вы можете легко протестировать и другие сценарии, написав собственные скрипты транзакций.
Типичный вывод pgbench выглядит так:
transaction type: TPC-B (sort of) scaling factor: 10 query mode: simple number of clients: 10 number of threads: 1 number of transactions per client: 1000 number of transactions actually processed: 10000/10000 tps = 85.184871 (including connections establishing) tps = 85.296346 (excluding connections establishing)
В первых шести строках выводятся значения некоторых самых важных параметров. В следующей строке показывается количество выполненных и запланированных транзакций (это будет произведение числа клиентов и числа транзакций для одного клиента); эти количества будут равны, если только выполнение не завершится досрочно. (В режиме -T выводится только число фактически выполненных транзакций.) В двух последних строках выводится число транзакций в секунду, вычисленное с учётом и без учёта времени запуска сеансов базы данных.
Для запускаемого по умолчанию теста типа TPC-B требуется предварительно подготовить определённые таблицы. Чтобы создать и наполнить эти таблицы, следует запустить pgbench с ключом -i (инициализировать). (Если вы применяете нестандартный скрипт, это не требуется, но тем не менее нужно подготовить конфигурацию, нужную вашему тесту.) Запуск инициализации выглядит так:
pgbench -i [ другие-параметры ] имя_базы
где имя_базы — имя уже существующей базы, в которой будет проводиться тест. (Чтобы указать, как подключиться к серверу баз данных, вы также можете добавить параметры -h, -p и/или -U.)
Предостережение |
pgbench -i создаёт четыре таблицы pgbench_accounts, pgbench_branches, pgbench_history и pgbench_tellers, предварительно уничтожая существующие таблицы с этими именами. Если вы вдруг используете эти имена в своей базе данных, обязательно переключитесь на другую базу! |
С "коэффициентом масштаба", по умолчанию равным 1, эти таблицы изначально содержат такое количество строк:
table # of rows --------------------------------- pgbench_branches 1 pgbench_tellers 10 pgbench_accounts 100000 pgbench_history 0
Эти числа можно (и в большинства случаев, даже нужно) увеличить, воспользовавшись параметром -s (коэффициент масштаба). При этом также может быть полезен ключ -F (фактор заполнения).
Подготовив требуемую конфигурацию, можно запустить тест производительности командой без -i, то есть:
pgbench [ параметры ] имя_базы
Практически во всех случаях, чтобы получить полезные результаты, необходимо передать какие-либо дополнительные параметры. Наиболее важные параметры: -c (число клиентов), -t (число транзакций), -T (длительность) и -f (файл со скриптом). Полный список параметров приведён ниже.
Параметры
Следующий список разделён на три подраздела: одни параметры используются при инициализации базы данных, другие при проведении тестирования, а третьи в обоих случаях.
Параметры инициализации
pgbench принимает следующие аргументы командной строки для инициализации:
- -i
--initialize Требуется для вызова режима инициализации.
- -F фактор_заполнения
--fillfactor=фактор_заполнения Создать таблицы pgbench_accounts, pgbench_tellers и pgbench_branches с заданным фактором заполнения. Значение по умолчанию — 100.
- -n
--no-vacuum Не выполнять очистку после инициализации.
- -q
--quiet Переключить вывод в немногословный режим, когда выводится только одно сообщение о прогрессе в 5 секунд. В режиме по умолчанию одно сообщение выводится на каждые 100000 строк, при этом за секунду обычно выводится довольно много строк (особенно на хорошем оборудовании).
- -s коэффициент_масштаба
--scale=коэффициент_масштаба Умножить число генерируемых строк на заданный коэффициент. Например, с ключом -s 100 в таблицу pgbench_accounts будут записаны 10 000 000 строк. Значение по умолчанию — 1. При коэффициенте, равном 20 000 или больше, колонки, содержащие идентификаторы счетов (колонки aid), перейдут к большим целым числам (типу bigint), чтобы в них могли уместиться все возможные значения идентификаторов.
- --foreign-keys
Создать ограничения внешних ключей между стандартными таблицами.
- --index-tablespace=табл_пространство_индексов
Создать индексы в указанном табличном пространстве, а не в пространстве по умолчанию.
- --tablespace=табличное пространство
Создать таблицы в указанном табличном пространстве, а не в пространстве по умолчанию.
- --unlogged-tables
Создать все таблицы как нежурналируемые, а не как постоянные таблицы.
Параметры тестирования производительности
pgbench принимает следующие аргументы командной строки для тестирования производительности:
- -c клиенты
--client=клиенты Число имитируемых клиентов, то есть число одновременных сеансов базы данных. Значение по умолчанию — 1.
- -C
--connect Устанавливать новое подключение для каждой транзакции вместо одного для каждого клиента. Это полезно для оценивания издержек подключений.
- -d
--debug Выводить отладочные сообщения.
- -D имя_переменной=значение
--define=имя_переменной=значение Определить переменную для пользовательского скрипта (см. ниже). Параметр -D может добавляться неоднократно.
- -f имя_файла
--file=имя_файла Прочитать скрипт транзакции из файла имя_файла. Подробности описаны ниже. Параметры -N, -S и -f являются взаимоисключающими.
- -j потоки
--jobs=потоки Число рабочих потоков в pgbench. Использовать нескольких потоков может быть полезно в многоядерных системах. Число клиентов должно быть кратно числу потоков, так как каждый поток должен управлять одинаковым числом клиентских сеансов. Значение по умолчанию — 1.
- -l
--log Записать время выполнения каждой транзакции в файл протокола. Подробности описаны ниже.
- -M режим_запросов
--protocol=режим_запросов Протокол, выбираемый для передачи запросов на сервер:
simple: использовать протокол простых запросов.
extended: использовать протокол расширенных запросов.
prepared: использовать протокол расширенных запросов с подготовленными операторами.
По умолчанию выбирается протокол простых запросов. (За подробностями обратитесь к Главе 49.)
- -n
--no-vacuum Не производить очистку таблиц перед запуском теста. Этот параметр необходим, если вы применяете собственный сценарий, не затрагивающий стандартные таблицы pgbench_accounts, pgbench_branches, pgbench_history и pgbench_tellers.
- -N
--skip-some-updates Не производить изменений в pgbench_tellers и pgbench_branches. При этом не будет соревновательного доступа на запись к этим таблицам, но тестовый сценарий будет ещё дальше от TPC-B.
- -P сек
--progress=сек Выводить отчёт о прогрессе через заданное число секунд (сек). Выдаваемый отчёт включает время, прошедшее с момента запуска, скорость (в tps) с момента предыдущего отчёта, а также средннее время ожидания транзакций и стандартное отклонение. В режиме ограничения скорости (-R) время ожидания вычисляется относительно назначенного времени запуска транзакции, а не фактического времени её начала, так что оно включает и среднее время отставания от графика.
- -r
--report-latencies Выводить по завершении тестировании средняя время ожидания операторов (время выполнения с точки зрения клиента) для каждой команды. Подробности описаны ниже.
- -R скорость передачи
--rate=скорость передачи Выполнять транзакции, ориентируясь на заданную скорость, а не максимально быстро (по умолчанию). Скорость задаётся в транзакциях в секунду. Если заданная скорость превышает максимально возможную, это ограничение скорости не повлияет на результаты.
Для получения нужной скорости транзакции запускаются со случайными задержками, имеющими распределение Пуассона. При этом запланированное время запуска отсчитывается от начального времени, а не от завершения предыдущей транзакции. Это означает, что если какие-то транзакции отстанут от изначально рассчитанного времени завершения, всё же возможно, что последующие нагонят график.
В режиме ограничения скорости время ожидания транзакций, выводимое по итогам тестирования, вычисляется, исходя из запланированного времени запуска, так что в него входит время, которое очередная транзакция должна была ждать завершения предыдущей транзакции. Это время называется временем отклонения от графика, и его среднее и максимальное значение выводятся отдельно. Время ожидания транзакций с момента их фактического запуска, то есть время, потраченное на выполнение транзакций в базе данных, можно получить, если вычесть время отклонения от графика из времени ожидания транзакций.
Большое значение отклонения от графика свидетельствует о том, что система не успевает выполнять транзакции с заданной скоростью и выбранным числом клиентов и потоков. Когда среднее время ожидания транзакции превышает запланированный интервал между транзакциями, каждая последующая транзакция будет отставать от графика и чем дольше будет выполняться тестирование, тем больше будет отставание. Когда это наблюдается, нужно уменьшить скорость транзакций.
- -s коэффициент_масштаба
--scale=коэффициент_масштаба Показать заданный коэффициент масштаба в выводе pgbench. Для встроенных тестов это не требуется; корректный коэффициент масштаба будет получен в результате подсчёта строк в таблице pgbench_branches. Однако для нестандартных тестов (запускаемых с ключом -f) без этого параметра в качестве коэффициента масштаба будет выводиться 1.
- -S
--select-only Выполнять транзакции, осуществляющие только выборку, вместо теста типа TPC-B.
- -t транзакции
--transactions=транзакции Число транзакций, которые будут выполняться каждым клиентом (по умолчанию 10).
- -T секунды
--time=секунды Выполнять тест с ограничением по времени (в секундах), а не по числу транзакций для каждого клиента. Параметры -t и -T являются взаимоисключающими.
- -v
--vacuum-all Очищать все четыре стандартные таблицы перед запуском теста. Без параметра -n и -v pgbench будет очищать от старых записей таблицы pgbench_tellers и pgbench_branches, а также опустошать pgbench_history.
- --aggregate-interval=секунды
Интервал агрегации (в секундах). Может использоваться совместно с -l — с данным параметром в протокол будет выводиться итог по интервалу (число транзакций, мин./макс. время ожидания и два дополнительных поля, полезных для оценки отклонений).
В настоящее время этот параметр не поддерживается в Windows.
- --sampling-rate=скорость передачи
Частота выборки для записи данных в протокол, изменяя которую можно уменьшить объём протокола. При указании этого параметра в протокол выводится информация только о заданном проценте транзакций. Со значением 1.0 в нём будут отмечаться все транзакции, а с 0.05 только 5%.
Обрабатывая протокол, не забудьте учесть частоту выборки. Например, вычисляя скорость (tps), вам нужно будет соответственно умножить содержащиеся в нём числа (то есть, с частотой выборки 0.01 вы получите только 1/100 фактической скорости).
Общие параметры
pgbench принимает следующие общие аргументы командной строки:
- -h компьютер
--host=компьютер Адрес сервера баз данных
- -p порт
--port=порт Номер порта сервера баз данных
- -U имя_пользователя
--username=имя_пользователя Имя пользователя для подключения
- -V
--version Вывести версию pgbench и завершиться.
- -?
--help Вывести справку об аргументах командной строки pgbench и завершиться.
Замечания
Каково содержание "транзакции", которую выполняет pgbench?
Стандартный скрипт теста выполняет в транзакции семь команд:
BEGIN;
UPDATE pgbench_accounts SET abalance = abalance + :delta WHERE aid = :aid;
SELECT abalance FROM pgbench_accounts WHERE aid = :aid;
UPDATE pgbench_tellers SET tbalance = tbalance + :delta WHERE tid = :tid;
UPDATE pgbench_branches SET bbalance = bbalance + :delta WHERE bid = :bid;
INSERT INTO pgbench_history (tid, bid, aid, delta, mtime) VALUES (:tid, :bid, :aid, :delta, CURRENT_TIMESTAMP);
END;
С параметром -N шаги 4 и 5 исключаются из транзакции, а с параметром -S будет выполняться только SELECT.
Пользовательские скрипты
Программа pgbench поддерживает запуск пользовательских сценариев оценки производительности, позволяя заменять стандартный скрипт транзакции (описанный выше) скриптом, считываемым из файла (с параметром -f). В этом случае "транзакцией" считается одно выполнение данного скрипта. Вы можете задействовать даже несколько скриптов (добавив несколько параметров -f); в этом случае каждый раз, когда клиентский сеанс начинает новую транзакцию, выбирается случайный скрипт.
Файл скрипта должен содержать по одной команде SQL в строке; многострочные команды SQL не поддерживаются. Пустые строки и строки, начинающиеся с --, игнорируются. В строках скрипта также могут содержаться "метакоманды", которые обрабатывает сама программа pgbench, как описано ниже.
Для файлов скриптов реализован простой механизм подстановки переменных. Переменные можно задать в командной строке параметрами -D, описанными выше, или метакомандами, рассматриваемыми ниже. Помимо переменных, которые можно установить параметрами командной строки -D, есть несколько автоматически устанавливаемых переменных; они перечислены в Таблице F-1. Если значение этих переменных задаётся в параметре -D, оно переопределяет автоматическое значение. Когда значение переменной определено, его можно вставить в команду SQL, написав :имя_переменной. Каждый клиентский сеанс, если их несколько, получает собственный набор переменных.
Таблица F-1. Автоматические переменные
Переменная | Описание |
---|---|
scale | текущий коэффициент масштаба |
client_id | уникальное число, идентифицирующее клиентский сеанс (начиная с нуля) |
Метакоманды в скрипте начинаются с обратной косой черты (\). Аргументы метакоманд разделяются пробелами. Поддерживаемые метакоманды представлены ниже:
- \set имя_переменной операнд1 [ оператор операнд2 ]
Устанавливает для переменной имя_переменной вычисленное целочисленное значение. Каждый операнд может представлять либо целочисленную константу, либо :имя_переменной (ссылку на переменную с целочисленным значением). А оператор может быть следующим: +, -, * или /.
Пример:
\set ntellers 10 * :scale
- \setrandom имя_переменной мин макс
Устанавливает для переменной имя_переменной случайное целочисленное значение от мин до макс включительно. Оба граничных значения могут задаваться целым числом или ссылкой :имя_переменной на переменную с целочисленным значением.
Пример:
\setrandom aid 1 :naccounts
- \sleep номер [ us | ms | s ]
Приостанавливает выполнение скрипта на заданное число микросекунд (us), миллисекунд (ms) или секунд (s). Когда единицы не указываются, подразумеваются секунды. Здесь число может быть целочисленной константой или ссылкой :имя_переменной на переменную с целочисленным значением.
Пример:
\sleep 10 ms
- \setshell имя_переменной команда [ аргумент ... ]
Присваивает переменной имя_переменной результат команды оболочки команда. Эта команда должна просто выдать целочисленное значение в стандартный вывод.
Здесь аргумент может быть либо текстовой константой, либо ссылкой :имя_переменной на значение любого типа. Если вы хотите записать аргумент, начинающийся с двоеточия, добавьте дополнительное двоеточие перед указанием аргумент.
Пример:
\setshell назначаемая_переменная команда строковый_аргумент :переменная ::строка_начинающаяся_двоеточием
- \shell команда [ аргумент ... ]
Действует так же, как и \setshell, но игнорирует результат.
Пример:
\shell команда строковый_аргумент :переменная ::строка_начинающаяся_двоеточием
В качестве примера взгляните на встроенное определение транзакции типа TPC-B:
\set nbranches :scale \set ntellers 10 * :scale \set naccounts 100000 * :scale \setrandom aid 1 :naccounts \setrandom bid 1 :nbranches \setrandom tid 1 :ntellers \setrandom delta -5000 5000 BEGIN; UPDATE pgbench_accounts SET abalance = abalance + :delta WHERE aid = :aid; SELECT abalance FROM pgbench_accounts WHERE aid = :aid; UPDATE pgbench_tellers SET tbalance = tbalance + :delta WHERE tid = :tid; UPDATE pgbench_branches SET bbalance = bbalance + :delta WHERE bid = :bid; INSERT INTO pgbench_history (tid, bid, aid, delta, mtime) VALUES (:tid, :bid, :aid, :delta, CURRENT_TIMESTAMP); END;
С таким скриптом транзакция на каждой итерации будет обращаться к разным, случайно выбираемым строкам. (Этот пример показывает, почему важно, чтобы в каждом клиентском сеансе были собственные переменные — в противном случае они не будут независимо обращаться к разным строкам.)
Протоколирование транзакций
С параметром -l, но без --aggregate-interval, pgbench записывает в протокол время, которое ушло на выполнение каждой транзакции. Этот файл протокола будет называться pgbench_log.nnn, где nnn — PID процесса pgbench. Если используется параметр -j со значением 2 или больше, будет создано несколько рабочих потоков, и каждый будет записывать отдельный протокол. Первый рабочий процесс будет использовать файл с тем же именем, что и в стандартном случае с одним потоком, а имена остальных потоков будут называться pgbench_log.nnn.mmm, где mmm — последовательный номер потока, начиная с 1.
Протокол имеет следующий формат:
код_клиента номер_транзакции длительность номер_файла отметка_времени время_мкс [отставание_от_графика]
, где длительность — общее время, потраченное на транзакцию (в микросекундах), номер_файла указывает, какой файл скрипта использовался (это полезно при указании нескольких скриптов ключами -f), а отметка_времени/время_мкс — отметка времени в формате UNIX и смещение в микросекундах (из этих чисел можно получить время стандарта ISO 8601 с дробными секундами), показывающее, когда транзакция была завершена. Последнее поле, отставание_от_графика, представляет разницу между запланированным временем запуска транзакции и фактическим временем запуска, в микросекундах. Оно выводится, только когда используется параметр --rate.
Пример вывода выглядит так:
0 199 2241 0 1175850568 995598 0 200 2465 0 1175850568 998079 0 201 2513 0 1175850569 608 0 202 2038 0 1175850569 2663
Когда проводится длительное тестирование с большим количеством транзакций, файлы протоколов могут быть очень объёмными. Чтобы в них записывалась только случайная выборка транзакций, можно запустить команду с параметром --sampling-rate.
Протоколирование с агрегированием
С параметром --aggregate-interval протоколы имеют несколько иной формат:
начало_интервала число_транзакций сумма_длительности сумма_длительности_2 мин_длительность макс_длительность [сумма_задержки сумма_задержки_2 мин_задержка макс_задержка]
Здесь начало_интервала — начальное время интервала (в формате времени UNIX), число_транзакций — количество транзакций в данном интервале, сумма_длительности — суммарная длительность транзакций (что позволяет легко вычислить среднюю длительность). Следующее поле, сумма_длительности_2 содержит сумму квадратов длительностей. Последние два поля, мин_длительность и макс_длительность, представляют минимальную и максимальную длительность транзакций в данном интервале. Интервал, в котором засчитывается транзакция, определяется временем её фиксации. Последние четыре поля, сумма_задержки, сумма_задержки_2, мин_задержка и макс_задержка, присутствуют, только если применяется параметр --rate. Они отражают время, на которое задерживается очередная транзакция, ожидая завершения предыдущей, то есть разницу между временем фактического запуска и запланированным временем.
Пример вывода:
1345828501 5601 1542744 483552416 61 2573 1345828503 7884 1979812 565806736 60 1479 1345828505 7208 1979422 567277552 59 1391 1345828507 7685 1980268 569784714 60 1398 1345828509 7073 1979779 573489941 236 1411
Заметьте, что простой протокол (без агрегирования) содержит номера подключаемых файлов скриптов, в отличие от протокола с агрегированием. Таким образом, если вам нужны подобные сведения, но в разрезе скриптов, вам придётся агрегировать данные самостоятельно.
Время ожидания по операторам
С параметром -r программа pgbench учитывает время выполнения каждого оператора каждым клиентом. Затем по завершении тестирования она выводит среднее по всем значениям как время ожидания каждого оператора.
Со стандартным скриптом вывод будет примерно таким:
starting vacuum...end. transaction type: TPC-B (sort of) scaling factor: 1 query mode: simple number of clients: 10 number of threads: 1 number of transactions per client: 1000 number of transactions actually processed: 10000/10000 tps = 618.764555 (including connections establishing) tps = 622.977698 (excluding connections establishing) statement latencies in milliseconds: 0.004386 \set nbranches 1 * :scale 0.001343 \set ntellers 10 * :scale 0.001212 \set naccounts 100000 * :scale 0.001310 \setrandom aid 1 :naccounts 0.001073 \setrandom bid 1 :nbranches 0.001005 \setrandom tid 1 :ntellers 0.001078 \setrandom delta -5000 5000 0.326152 BEGIN; 0.603376 UPDATE pgbench_accounts SET abalance = abalance + :delta WHERE aid = :aid; 0.454643 SELECT abalance FROM pgbench_accounts WHERE aid = :aid; 5.528491 UPDATE pgbench_tellers SET tbalance = tbalance + :delta WHERE tid = :tid; 7.335435 UPDATE pgbench_branches SET bbalance = bbalance + :delta WHERE bid = :bid; 0.371851 INSERT INTO pgbench_history (tid, bid, aid, delta, mtime) VALUES (:tid, :bid, :aid, :delta, CURRENT_TIMESTAMP); 1.212976 END;
Если задействуется несколько файлов скриптов, средние значения выводятся отдельно для каждого файла.
Учтите, что сбор дополнительных временных показателей влечёт некоторые издержки и приводит к снижению средней скорости и, как результат, падению TPS. На сколько именно снизится скорость, во многом зависит от платформы и оборудования. Хороший способ оценить, каковы эти издержки — сравнить средние значения TPS, получаемые с подсчётом времени операторов и без такого подсчёта.
Полезные советы
Используя pgbench, можно без особого труда получить абсолютно бессмысленные числа. Последуйте приведённым советам, чтобы получить полезные результаты.
Во-первых, никогда не доверяйте тестам, которые выполняются всего несколько секунд. Воспользуйтесь параметром -t и -T и установите время выполнения не меньше нескольких минут, чтобы избавиться от шума в средних значениях. В некоторых случаях для получения воспроизводимых результатов тестирование должно продолжаться несколько часов. Чтобы понять, были ли получены воспроизводимые значения, имеет смысл запустить тестирование несколько раз.
Для стандартного сценария по типу TPC-B начальный коэффициент масштаба (-s) должен быть не меньше числа клиентов, с каким вы намерены проводить тестирование (-c); в противном случае вы, по большому счёту, будете замерять время конкурентных изменений. Таблица pgbench_branches содержит всего -s строк, а каждая транзакция хочет изменить одну из них, так что если значение -c превышает -s, это несомненно приведёт к тому, что многие транзакции будут блокироваться другими.
Стандартный сценарий тестирования также довольно сильно зависит от того, сколько времени прошло с момента инициализации таблиц: накопление неактуальных строк и «мёртвого» пространства в таблицах влияет на результаты. Чтобы правильно оценить результаты, необходимо учитывать, сколько всего изменений было произведено и когда выполнялась очистка. Если же включена автоочистка, это может быть чревато непредсказуемыми изменениями оценок производительности.
Полезность результатов pgbench также может ограничиваться тем, что тестирование с большим числом клиентских сеансов само по себе нагружает систему. Этого можно избежать, запуская pgbench на другом компьютере, не на сервере баз данных, хотя при этом большое значение имеет скорость сети. Иногда, оценивая производительность одного сервера, полезно запускать даже несколько экземпляров pgbench параллельно, на отдельных клиентских компьютерах.
Пред. | Начало | След. |
oid2name | Уровень выше | vacuumlo |