webleads-tracker

Archivage électronique et sauvegarde - Quelle différence ? | Spark Archives

Archivage électronique et sauvegarde - Quelle différence ?

De l'utilité de la sauvegarde.

Depuis plusieurs années, les directions et services informatiques sécurisent les données électroniques en utilisant des outils de sauvegarde. L'objectif de ces outils consiste à disposer les fichiers des entreprises sur des supports amovibles afin de les préserver et pour les externaliser et les sécuriser. Les sauvegardes contribuent à permettre aux entreprises la poursuite de l'activité en cas de panne ou de perte de données durant l'activité. 

L'objectif des sauvegardes est donc multiple :

  • Sauvegarder d'importantes quantités de données en un espace-temps très court.
  • Gérer la sécurité physique des fichiers se trouvant sur un site géographique en réalisant des copies sur des supports amovibles. Ces supports peuvent être ensuite externalisés dans un espace hautement sécurisé situé sur le même site ou sur un autre site géographique. 
  • Permettre de créer des jeux de données non synchronisés avec l'activité quotidienne pour permettre en cas de besoin de restaurer tout ou partie des fichiers ayant été perdus ou endommagés par erreur ou pour tout autre raison. 
  • Gérer les limites de place sur les espaces de stockage à accès rapide en déplaçant les fichiers anciens ou rarement utilisés sur des supports plus lents et moins couteux. 

Les jeux de sauvegarde

Bien souvent, les outils de sauvegarde ne peuvent parvenir à dupliquer chaque jour toutes les données électroniques d'une entreprise ou d'un organisme. La sauvegarde complète est coûteuse en temps et en espace. Pourtant, l'outil de sauvegarde doit être en mesure de sécuriser toutes les données estimées stratégiques pour le bon fonctionnement de l'entreprise. Plusieurs approches peuvent être mises en œuvre pour gérer les sauvegardes quotidiennes. Un exemple consiste à mettre en place une sauvegarde complète sur la semaine. Le dimanche, une sauvegarde complète est déclenchée. Le lundi et les autres jours de la semaine, seuls les fichiers modifiés ou les nouveaux fichiers sont sauvegardés. De ce fait, le volume de sauvegarde quotidien est beaucoup plus léger que le volume de sauvegarde du premier jour. La sauvegarde sur une semaine est donc le fruit d'un jeu de sauvegardes formant un ensemble d'opérations réparties sur plusieurs supports de sauvegarde. Afin de conserver les sauvegardes plusieurs semaines, plusieurs jeux de supports sont mis en place. Certains jeux sont parfois conservés sans limite de temps.

Les difficultés apportées par les sauvegardes

La mise en œuvre d'une politique de sauvegarde apporte un avantage important pour sécuriser une activité. Mais elle apporte aussi son lot de difficultés :

  • Mise en place d’une stratégie plus ou moins complexe pour arriver à sauvegarder tous les contenus avec des fenêtres temps limitées.
  • Cataloguer rapidement les fichiers sauvegardés avec une taille de catalogue restant raisonnable et un temps de parcours convenable des arborescences de fichiers à sauver.
  • Gestion du vieillissement des supports de sauvegarde et de l’obsolescence des outils et systèmes associés rendant souvent difficile et parfois impossible la récupération des données trop anciennes lorsque les jeux de sauvegarde sont conservés durant plusieurs années.
  • Difficulté à supprimer partiellement des données dans des jeux de sauvegarde constitués de plusieurs supports.

Autant de challenges qui nécessitent une réflexion et une anticipation pour gérer le cycle de vie des sauvegardes sur la durée. Bien souvent, les solutions mises en œuvre répondent à certaines de ces difficultés mais rarement à toutes.  

La duplication par la réplication

Il existe une autre manière de prendre en charge le risque lié à la perte de données électroniques. Il suffit de mettre en place une architecture redondée qui permet de dupliquer les données d'une manière synchrone ou légèrement asynchrone sur deux sites géographiques différents. Dans ce cas, chaque fichier existe sur chaque site en un ou plusieurs exemplaires. Si un site tombe en panne, il est possible de poursuivre l'activité en utilisant directement le second site. Si le second site est passif, il suffit de le rendre actif pour poursuivre l'activité même si cette continuité est faite de manière limitée.

Avec ce principe de duplication, il est possible de se demander s’il faut en plus mettre en place une stratégie de sauvegarde. La duplication des données sur deux sites a un coût mais n’apporte-t-elle pas le graal tant recherché ? La réponse est négative. Lorsque vous effacez une donnée sur le site 1, elle sera effacée sur le site 2 très rapidement. Si vous avez effacé une donnée par erreur, comment revenir en arrière et récupérer la donnée sans sauvegarde puisque l’erreur a été dupliquée. Des espaces de rétention sur le second site permettent de répondre partiellement à cette nouvelle difficulté. C’est un peu le principe de votre corbeille qui n’est finalement vidée que lorsqu’elle est pleine.  Le système est rapidement coûteux et limité en place et donc en temps de survie.

Mais Alors comment récupérer un fichier effacé par erreur. La sauvegarde reste toujours utile.

La clusterisation - recette 

Prenez un fichier, découpez-le en petit morceaux (appelés blocs), envoyez chaque bloc vers une ou plusieurs machines référencées dans un cluster (ensemble de machines). Chaque machine recevant un bloc a aussi la responsabilité de dupliquer le bloc par envoi vers une ou plusieurs autres machines (nœuds) du cluster. Si une machine du réseau de stockage possède déjà un bloc identique à celui que vous lui envoyez, pourquoi le stocker de nouveau. Il suffit de le référencer comme déjà existant et déjà stocké. Si une machine est détruite, une nouvelle machine est facilement ajoutée et les blocs de la machine en panne qui se trouvent déjà sur d'autres machines sont alors de nouveau répartis sur la nouvelle machine pour garder une quantité suffisante de copie des blocs. Tant qu’il y a de l’électricité et de nouvelles machines, le contrat de conservation des blocs est assuré. Cette solution semble assez séduisante.

Vous venez de mettre en œuvre un réseau de stockage distribué. Votre fichier n'existe plus en tant que tel. Il existe sous la forme de petits blocs répartis sur plusieurs machines. Ce type de stockage est celui qui est proposé par exemple via les clusters hadoop. Ces technologies apportent des solutions intéressantes pour résoudre plusieurs challenges dont celui de la performance. Si vous supprimez par erreur un fichier, les blocs situés sur les différents nœuds du cluster sont déréférencés puis supprimés s'ils ne sont plus référencés pour d'autres fichiers.

Mais Alors comment récupérer un fichier effacé par erreur. La sauvegarde reste toujours utile.

L'archivage électronique et le SAE

Il ne s'agit pas ici de sauvegarde mais de gestion intelligente et maîtrisée du stockage dans l’espace et dans le temps. Le système d'archivage électronique (SAE) permet de gérer le cycle de vie complet des documents archivés de leur versement à leur élimination et apporte de nombreux avantages :

  • Il permet de gérer des durées de conservation prévues et paramétrées selon l'utilité et à la finalité des informations conservées ainsi que selon la réglementation associée. Chaque document conservé est associé à une politique d'archivage permettant de maitriser l'organisation du système d'archivage : durée de conservation, espaces de stockage, métadonnées associées, définition du sort final, référencement en plan de classement, maîtrise de l'intégrité par la journalisation chaînée et archivée. 
  • Il permet de conserver que ce qui doit l'être pendant un temps utile et pas au-delà. Il peut cependant être décidé de conserver les documents archivés à la fin de la durée de conservation utile pour des raisons patrimoniales et historiques.
  • Le SAE permet également de restituer à son propriétaire les archives qu’il convient de remettre à disposition avant la fin de la durée de conservation.
  • Il permet aussi de prendre en charge des mécanismes de gel pour empêcher l'élimination d'une donnée arrivée en fin de vie mais dont l'élimination doit être retardée plus ou moins longtemps pour de multiples raisons.
  • Il permet de gérer les suppressions d'une manière sélective et maitrisée lorsque la durée de rétention initialement prévue est arrivée à échéance.
  • Il permet d'attacher aux documents des métadonnées descriptives "riches". Les possibilités de recherche sont importantes et performantes comme dans un système de GED.
  • Il génère et archive également des éléments de preuve de bonne gestion dont la durée de vie est associée aux contenus archivés. Les journaux chaînés sont infalsifiables et assurent la traçabilité des actions et l'intégrité des contenus archivés.
  • L'archivage est indépendant du type de support de stockage. L'archivage peut être réalisé sur des supports fixes, des réseaux de stockage comme des SAN, des NAS ou des CAS. L'archivage peut également utiliser des clusters de stockage distribués.
  • Le SAE peut stocker une partie des archives rarement consultées sur des supports lents et peu coûteux et utiliser des supports plus performants pour stocker les documents les plus récents si ces derniers doivent être fréquemment consultés.

Le SAE est un allié juridique pour la mise en œuvre des contraintes du RGPD afin de démontrer le respecter le droit des personnes et l'accountability. Il permet aussi de conserver les informations documentées relatives aux mouvements réalisés sur les documents comportant des données à caractère personnel.

Alors l'archivage nécessite-il un mécanisme de sauvegarde ou est-il auto-suffisant dès lors qu'un mécanisme de réplication synchrone ou quasi synchrone est en place ? Certains de nos clients ont décidé de ne pas mettre en œuvre de sauvegarde du fait d’un archivage en Y synchrone sur deux sites car les éliminations (suppressions) sont maîtrisées par le système d'archivage électronique et ne peuvent pas être réalisées par erreur.  D'autres utilisent des clusters de stockage qui permettent d'apporter d'autres solutions même si la sauvegarde reste nécessaire pour préserver le droit à l'erreur. 

Dans tous les cas, si un système d'archivage est mis en œuvre avec un système de sauvegarde des contenus archivés, il est important de maîtriser les suppressions des documents qui comportent des données à caractère personnel et qui se trouvent dans les jeux de sauvegardes. Ce point est essentiel pour permettre le respect des contraintes liées au RGPD comme celui lié au droit à l'oubli.

Publication du 26 avril 2018.

Christian Dubourg
Directeur marketing produit Spark Archives

 

 

 

 

 

Ajouter un commentaire

Filtered HTML

  • Les adresses de pages web et de courriels sont transformées en liens automatiquement.
  • Mark language-dependent sections with == marker == where marker is either a valid language code or a special code such as all or other.
  • Tags HTML autorisés : <a> <em> <strong> <cite> <blockquote> <code> <ul> <ol> <li> <dl> <dt> <dd> <pre>
  • Les lignes et les paragraphes vont à la ligne automatiquement.

Plain text

  • Aucune balise HTML autorisée.
  • Les adresses de pages web et de courriels sont transformées en liens automatiquement.
  • Les lignes et les paragraphes vont à la ligne automatiquement.

Nous contacter

Adresse :
La Boursidière
BP 159
92357 Le Plessis-Robinson Cedex
 
Téléphone :
+33 (0)1 46 29 25 25
e-mail icon
Twitter icon
Facebook icon
Google icon
LinkedIn icon

Spark Archives, une solution éditée par KLEE GROUP

Contact

Spark Archives
La Boursidière
92357 Le Plessis-Robinson Cedex

+33 (0)1 46 29 25 25

sparkarchives@kleegroup.com

Nous rejoindre

Découvrez nos offres de stages et nos offres d'emploi et postulez en ligne !

Nous suivre