On le constate actuellement, les volumes de données explosent au sein des SI suite à l’émergence des SAN, NAS et autres réseaux de stockage qui permettent d’offrir de plus en plus de téras de données pour le plus grand bonheur des utilisateurs.
Cette évolution introduit des problématiques notamment dans la mise en place des plans de sauvegardes : les données sont de plus en plus nombreuses à sauvegarder et les fenêtres de sauvegardes souvent réduites par des contraintes de production.
La déduplication de données est l’une des technologies mise en oeuvre pour répondre à ces problématiques.
Comment ? Il faut pour cela revenir à la définition même de la déduplication.
Prenons un exemple trivial pour illustrer cette définition : le boulanger.
Ce dernier propose différentes variétés de pains. Pour les confectionner, le boulanger a dû utiliser des ingrédients communs à tous ces produits (farine, eau,sel…) et s’est appuyé sur des recettes différentes pour proposer une telle variété de produits.
la déduplication de données reprend ce principe de façon inverse: on décompose une donnée principale en plusieurs éléments uniques (les ingrédients). Une metadonnée (la recette) créée à partir de cette donnée principale servira pour sa recomposition à partir des éléments uniques. Sans aller aussi loin, la déduplication permet d’éliminer toutes données redondantes en ne gardant que les données uniques.
Un mécanisme d’identification des données uniques et de comparaison est donc intrinsèque à la déduplication de données. L’identification s’appuie principalement sur des algorithmes de hachage (type MD5 ou SHA-1, plus performant) ou similaires (algorithmes propriétaires).
Cette technologie est employée principalement dans le cadre de la sauvegarde pour minimiser l’espace occupé par les données. Seules les données uniques sont en effet stockées sur l’élément de sauvegarde (Serveurs, baies de disque, VTL…).
Elle se décline sous de multiples facettes au niveau de l’infrastructure IT :
- déduplication logicielle ou matérielle.
- déduplication sur les données sources ou cibles.
- déduplication au niveau fichiers, blocs de données de taille fixe ou variable, bit.
Les principaux avantages sont les suivants :
- Réduction de la volumétrie sur le support de stockage. Plus longue sera la période de rétention de données sur le support et meilleure sera cette réduction.
- Réduction des temps de sauvegarde et diminution du trafic réseau dans le cadre d’une déduplication globale de données à la source
En contrepartie, les algorithmes utilisés lors de ce processus sont gourmands en ressources (utilisation intensive des CPU, mémoire et supports de stockage).
Ainsi la déduplication de données est UNE solution très intéressante lors de la mise en place des sauvegardes mais n’est pas LA solution ultime. Le monde du conseil dans lequel nous appartenons permet justement d’offrir cette valeur ajoutée à nos différents clients pour leur offrir le meilleur compromis entre sauvegardes classiques et sauvegardes dédupliquées.
Quoiqu’il arrive, cette technologie a de beaux jours devant elle : les acteurs sont nombreux pour contribuer au développement et à l’essor de cette technologie et son extension au monde du stockage de façon générale, indique clairement les bénéfices qu’elle peut apporter à l’infrastructure IT.
Les NAS comme les solutions de Netapp intègre directement une solution de déduplication, Microsoft utilise également depuis longtemps une version simplifiée de la déduplication avec son mécanisme SIS (Single instance Storage) au sein de ces plateformes Exchange et Windows 2003 Storage Edition. L’archivage est également présent avec les EMC Centera et leur CAS (Content Address Storage).
La déduplication rend ainsi bel et bien service à l’infrastructure IT…
Pour plus de précisions sur la déduplication de données, je vous invite grandement à venir visiter la communauté storage de Devoteam (https://extranet.devoteam.com/forumsCT/storage_forum.nsf et https://extranet.devoteam.com/basesDocCT/storage_baseDoc.nsf ) où de nombreux articles et documents ont été publiés sur le sujet.



