Целью данной заметки является демонстрация того, как с помощью встроенных средств Postgresql 8.0 можно совершать online backup.
В нашем примере у нас будут два узла - master и slave. Задача заключается в том, чтобы при отказе узла master (крах файловой системы, отказ оборудования и т.п.) максимально быстро и с минимальными потерями данных восстановить БД на узле slave.
Для демонстрации мы будем использовать тестовую базу ok, содержащую таблицу okp с кодами классификатора ОКП. Структура таблицы okp такова
create table okp ( code text not null, kch text, name text, txtdata tsvector, primary key (code) ); CREATE INDEX okp_tidx ON okp using gist (txtdata);
После внесения первой порции данных (~ 25000 записей) будет произведен базовый (опорный) бэкап. Затем будет внесена вторая порция данных (еще ~ 25000 записей) и сервер БД на узде master будет остановлен. После чего на узле slave будет запущена восстановленная копия сервера БД. Восстановление будет произведено с помощью опорного бэкапа и журнала транзакций.
mkdir -p /u/postgres/wal-backup mkdir -p /db2/pgdata-backup chown postgres:postgres /u/postgres/wal-backup /db2/pgdata-backup chmod 0700 /u/postgres/wal-backup /db2/pgdata-backup
archive_command = '/usr/bin/scp %p slave:/u/postgres/wal-backup/%f </dev/null'
поскольку в нашем примере мы точно уверены, что на узел slave данные поступают только с узла master, то проверку на совпадение имен файлов журнала транзакций мы не производим.
pg_ctl -D /db2/pgdata start
tar xzf ok.tar.gz cd ok
createdb ok
psql -f /usr/local/pgsql/share/contrib/tsearch2.sql ok psql -f ok.schema ok
psql -f ok1.dump ok
При этом на узле slave в wal-backup появляется нечто похожее:
pg@slave:~/wal-backup$ ll total 65624 drwx------ 2 postgres postgres 4096 Mar 21 23:02 ./ drwxr-xr-x 11 postgres postgres 4096 Mar 21 22:48 ../ -rw------- 1 postgres postgres 16777216 Mar 21 22:35 00000001000000000000000F -rw------- 1 postgres postgres 16777216 Mar 21 22:38 000000010000000000000010 -rw------- 1 postgres postgres 16777216 Mar 21 22:44 000000010000000000000011 -rw------- 1 postgres postgres 16777216 Mar 21 23:04 000000010000000000000012
psql -c "select pg_start_backup('backup-2005-03-21')" ok pg_start_backup ----------------- 0/134DAD8C (1 row)
scp -rp /db2/pgdata/* slave:/db2/pgdata-backup/
psql -c "select pg_stop_backup()" ok pg_stop_backup ---------------- 0/134DCEC0 (1 row)
pg@slave:~/wal-backup$ ll total 65628 drwx------ 2 postgres postgres 4096 Mar 21 23:35 ./ drwxr-xr-x 11 postgres postgres 4096 Mar 21 22:48 ../ -rw------- 1 postgres postgres 16777216 Mar 21 22:35 00000001000000000000000F -rw------- 1 postgres postgres 16777216 Mar 21 22:38 000000010000000000000010 -rw------- 1 postgres postgres 16777216 Mar 21 22:44 000000010000000000000011 -rw------- 1 postgres postgres 16777216 Mar 21 23:04 000000010000000000000012 -rw------- 1 postgres postgres 255 Mar 21 23:35 000000010000000000000013.004DAD8C.backup
psql -f ok2.dump ok
pg@slave:~/wal-backup$ ll total 82032 drwx------ 2 postgres postgres 4096 Mar 21 23:40 ./ drwxr-xr-x 11 postgres postgres 4096 Mar 21 22:48 ../ -rw------- 1 postgres postgres 16777216 Mar 21 22:35 00000001000000000000000F -rw------- 1 postgres postgres 16777216 Mar 21 22:38 000000010000000000000010 -rw------- 1 postgres postgres 16777216 Mar 21 22:44 000000010000000000000011 -rw------- 1 postgres postgres 16777216 Mar 21 23:04 000000010000000000000012 -rw------- 1 postgres postgres 16777216 Mar 21 23:41 000000010000000000000013 -rw------- 1 postgres postgres 255 Mar 21 23:35 000000010000000000000013.004DAD8C.backup
psql -c "select count(*) from okp" ok count ------- 52938 (1 row)
pg_ctl -D /db2/pgdata stop
rm -rf /db2/pgdata-backup/pg_xlog/*
restore_command = 'cp /u/postgres/wal-backup/%f %p'
cd /u/postgres/wal-backup rm -f 00000001000000000000000F 000000010000000000000010 000000010000000000000011 000000010000000000000012
после чего содержимое wal-backup на slave будет выглядеть так:
pg@slave:~/wal-backup$ ll total 16416 drwx------ 2 postgres postgres 4096 Mar 21 23:50 ./ drwxr-xr-x 11 postgres postgres 4096 Mar 21 22:48 ../ -rw------- 1 postgres postgres 16777216 Mar 21 23:41 000000010000000000000013 -rw------- 1 postgres postgres 255 Mar 21 23:35 000000010000000000000013.004DAD8C.backup
pg_ctl -D /db2/pgdata-backup start
при этом в логах postgresql мы увидим следующее
::LOG: database system was shut down at 2005-03-21 23:57:57 MSK ::LOG: starting archive recovery ::LOG: restore_command = "cp /u/postgres/wal-backup/%f %p" cp: /u/postgres/wal-backup/00000001.history: No such file or directory cp: /u/postgres/wal-backup/000000010000000000000014: No such file or directory ::LOG: checkpoint record is at 0/1456CCF8 ::LOG: redo record is at 0/1456CCF8; undo record is at 0/0; shutdown TRUE ::LOG: next transaction ID: 238261; next OID: 17490 ::LOG: automatic recovery in progress ::LOG: record with zero length at 0/1456CD34 ::LOG: redo is not required cp: /u/postgres/wal-backup/000000010000000000000014: No such file or directory ::LOG: archive recovery complete ::LOG: database system is ready ::LOG: transaction ID wrap limit is 2147484130, limited by database "ok"
psql -c "select count(*) from okp" ok count ------- 52938 (1 row)
psql -c "reindex table okp" ok
Примечание. В данном примере восстановленная база ничем не отличается от эталонной. В реальной жизни может быть потеряна часть данных из последнего сегмента транзакций, которые из-за краха узла master не были переданы в хранилище журнала транзакций.