Sauvegardes extensives
Par effraie le samedi 08 décembre 2007, 16:35 - Lien permanent
Effraie.org héberge pas mal de sites, et la question des sauvegardes est devenue cruciale.
Bien sur, je pourrais renvoyer les utilisateur-ices à leur responsabilités, et leur demander de faire leurs propres sauvegardes. Cela dit, rien ne dit qu'elles/ils les fassent régulièrement, ni qu'ils sachent comment sauvegarder une base de données.
Je me suis donc penché sur la question, et j'ai amélioré mon rsync quotidien pour obtenir un système qui me convient mieux,
Pour assurer que les données seront à l'abri en cas de crash des disques durs internes, mon répertoire backups/ est situé sur un disque usb externe. Prochainement, je cherche également à automatiser une sauvegarde de ce répertoire sur un serveur distant
Sauvegardes des bases de données
J'utilise, suivant les conseils avisé d'un copain, le script autoMYSQLBackup.sh qu'on trouve ici. Après configuration de quelques variables, le script est opérationnel, et il ne vous reste qu'a le lier dans /etc/cron.daily/ pour obtenir une sauvegarde automatisée de chacune de vos bases. Le script conserve les backups des derniers 7 jours, une par semaine pendant un mois, et une par mois indéfiniment.
Au final, cela me permet de conserver une trace des données sur le long terme, sans pour autant user une espace disque démesuré, dans backups/sql.
Sauvegardes des données:
Pendant longtemps, je me suis contenté d'utiliser rsync pour sauvegarder les données du serveur. Cependant, je souhaitais bénéficier, comme pour les bases de données, de la possibilité de restaurer une sauvegarde plus ancienne.
Pour cela, j'ai utilisé des outils standards, rsync, cp, rm, date, find et crontab.
Le fonctionnement est simple:
sauvegarde principale:
Chaque nuit, à 2h30, je sauvegarde l'ensemble des données que je veux pouvoir restaurer dans un répertoire backups/main, avec le "mini script" suivant, qui synchronise la racine du serveur avec ma sauvegarde:
#!/bin/sh rsync -azh --exclude=/pattern/à/ne/pas/sauver --exclude=/dev --exclude=/proc --exclude=/tmp --exclude=/sys --delete-after --delete-excluded --stats / /chemin/vers/backups/main
et cette ligne dans la crontab de root:
30 02 * * * /chemin/vers/le/script/main_backup 2>&1 | mail votre@email.tld -s "[Rsync] rapport du `date +%A\ %d\ %B\ %Y`"
Je reçois ainsi chaque jour un rapport statistique sur la synchronisation, de cette forme:
Number of files: 208552 Number of files transferred: 1038 Total file size: 8.23G bytes Total transferred file size: 354.84M bytes Literal data: 354.86M bytes Matched data: 0 bytes File list size: 6230145 File list generation time: 98.647 seconds File list transfer time: 0.000 seconds Total bytes sent: 70.71M Total bytes received: 24.00K sent 70.71M bytes received 24.00K bytes 344.18K bytes/sec total size is 8.23G speedup is 116.42
En cas de problème, le mail contient la sortie d'erreur de la commande.
Journalisation des sauvegardes
Pour pouvoir restaurer des sauvegardes plus anciennes, ou des fichiers effacés il y a plusieurs jours sur le serveur (et donc absent de backups/main), j'utilise trois petits scripts simplistes, qui, associés à une ligne adéquate dans la crontab de root, me permettent de conserver l'ensemble des sauvegardes des 7 derniers jours, une sauvegarde par semaine pendant un mois, et une sauvegarde par mois pendant 6 mois.
Note ajoutée à la suite de quiproquo dans les commentaires
Le systéme de journalisation/rotation des backups utilise l'option -l de cp, pour créer des hardlinks au lieu de recopier les fichiers, dans tt les cas ou le fichier n'a pas été modifié. C'est le moyen de n'utiliser que l'espace disque minimum requis. Compresser les données dans une archive ferait perdre cet avantage, et utiliserait, finalement, plus d'espace disque.
Voici les scripts et les entrées dans la crontab qui vont avec:
daily_backup
le script:
#!/bin/sh
find /chemin/vers/backups/timed/daily/* -ctime +7 -exec rm -rf {} \;
cp -al /chemin/vers/backups/main /chemin/vers/backups/timed/daily/`date +%F` 2> /dev/null;
L'entrée dans la crontab:
30 03 * * * /home/effraie/scripts/daily_backup
weekly_backup
le script:
#!/bin/sh
find /chemin/vers/backups/timed/weekly/* -ctime +33 -exec rm -rf {} \;
cp -al /chemin/vers/backups/main /chemin/vers/backups/timed/weekly/`date +%U_%F` 2> /dev/null;
L'entrée dans la crontab:
40 03 * * 0 /home/effraie/scripts/weekly_backup
monthly_backup
Le script:
#!/bin/sh
find /chemin/vers/backups/timed/monthly/* -ctime +183 -exec rm -rf {} \;
cp -al /chemin/vers/backups/main /mnt/usb-data/backups/timed/monthly/`date +%m-%Y` 2> /dev/null;
L'entrée dans la crontab:
50 03 1 * * /home/effraie/scripts/monthly_backup
Avec ça, je pense être habillé pour l'hiver! Cela dit, toute suggestion d'amélioration est la bienvenue.






Commentaires
Pour mon petit serveur web, j'ai codé un script python qui se base sur rsync, et utilise les liens durs unix pour faire des sauvegardes régulières sans gaspiller de l'espace disque. J'en parle ici : http://filyb.info/post/2007/11/11/P...
Intégrer la date dans le sujet du mail ?
(Merci)
Sympa ce petit post!
Merci!
:o)
@skateinmars: corrigé! ^^'
J'ai recemment découvert rdiff-backup 0, un programme de backup incremental. Exemple :
% rdiff-backup /home/foo ssh://bar.org:/home/backup
% rdiff-backup -r (10D | 2007-04-7) ssh://bar.org:/home/backup /tmp
Je l'utilise depuis quelque temps pour faire mes backup sur mon disque externe et franchement, j'adore. Simple et puissant.
0 http://www.nongnu.org/rdiff-backup/
C'est certes intéressant mais je recommande vivement backuppc : un logiciel libre qui, répondant aux mêmes besoins, fournit en plus : une interface de gestion, un historique complet des versions, la possibilité de naviguer via un navigateur à travers l'historique des fichiers, une compression des fichiers, un partage de tous les fichiers identiques qui n'occupent qu'une seule fois l'espace, etc.
http://backuppc.sourceforge.net/inf...
Rsync est utilisé et cela est donc très économique en bande passante.
@+
Perso, j'utilise rdiff-backup qui permet de gagner plusieurs versions d'un répertoire. Ainsi, on peut le paramétrer facilement pour ne garder que les 5 dernières sauvegardes: je trouve cela assez pratique. De plus, derrière je compresse un coup pour gagner de la place (mais à chaque sauvegarde, je suis obligé de décompresser).
Je crois également que rdiff-backup permet de ressortir semblable aux tiennes..
Pour ceux que ca intéresse, http://be.st.free.fr/wiki/doku.php/...
@Bligneri && @BeSt: précisément, les fonctionnalités que vous décrivez, je les ai, là, et sans installer quoique ce soit.
--> mes cp se font avec l'option -l, pour utiliser les hardlinks, et donc éviter de copier deux fois le même fichier. Seul les fichiers modifiés sont copié, les autre sont des hardlinks. C'est pour cela que je ne compresse pas, ça userait PLUS d'espace disque. (mon backup "main" fait une dizaine de giga, et chaque copie supplémentaire (backups/timed/*) occupe simplement la place correspondant aux fichiers modifiés.
--> je monte en NFS ce rep dans mon réseau local, je peux donc naviguer dans l'arborescence avec le navigateur de mon chois, nautilus en général.
--> je préfére utiliser quelques scripts minuscules, fait main, avec des outils standard, que des logiciels complets/complexes, dont je ne lirais pas le code, et que je connaitrais moins bien
sudo apt-get install sbackup
{available only in Gutsy}
Mais stop, quoi... merci de ne plus me proposer des softs plus complexes et lourd que mes 3 micros-scripts... surtout s'il ne font rien de plus que mes 10 lignes de code...
Par contres, des vrais améliorations (sans interface graphique, et sans installer de paquets exotiques...), je suis preneur.
A bon entendeur
Moi j'utilise Bacula chez moi et au travail.
C'est plus complexe à mettre en oeuvre, il n'y a pas de jolie interface, mais ça sauvegarde des centaines de go à l'aise sur de nombreuses machines.
C'est très flexible, et les reprises (restaurations) fonctionnent très bien!
Que les gens qui pronent BackupPC m'expliquent comment faire une reprise fonctionnelle pour des gros volumes (ie pas par l'interface web) et on en reparle
En voilà une amélioration:
En cas de modification d'un fichier, je crois que rdiff-backup ne sauvegarde que les différences. Je veux dire que ton script, en cas de modification d'un bit sur sur un fichier de 700 Mo, va utiliser au moins 2 fois 700 Mo (-> bande passante du réseau occupée, -> espace disque encore plus rempli), alors qu'rdiff-backup n'utilisera qu'une fois 700 Mo et plus les incréments.
Je préfère, pour ma part, toujours remplacer une part de mon script par un logiciel éprouvé.
@BeSt: c'est vrai. Cela dit, pour avoir utilisé rdiff-backup, je n'ai pas apprécié du tout le manque de lisibilité/simplicité du système d'incrément. Vu la relative faible probabilité d'avoir sur ce serveur des gros fichiers qui changeraient "un peu", le bénéfice en terme de place me semble trop faible pour perdre le bénéfice de la grande lisibilité, et de n'utiliser que des outils standard (parceque oui, cp, rm, rsync, crondate et find sont plus éprouvé que rdiff-backup, malgré tt ses qualités)
Bonjour,
Merci pour cet article très bien fait.
Pour ce qui est de Rsync, pourquoi ne pas utiliser l'otion --exclude-from= suivi du nom du fichier contenant la liste des fichiers, répertoires et sous répertoires à exclure. Cela rendrait la commande plus digeste en se débarrassant des options d'exlusion à répétition et permettrait une plus grande souplesse dans les fichiers a exclure (en les ajoutant dans le fichier ).
Salut,
j'ajouterai juste un detail:
Sous ubuntu (en tout cas, les dernières versions), la commande mail ne fonctionnait plus pour envoyer les mails dans mes scripts....
Il faut utiliser la commande mailx (paquet mailx) qui fait exactement la même chose.
Cdt,
Typhoe
super sympas, merci bien