Big Data : comment gérer les données inactives ?

Ingénieur polytechnicien et Télécom Paris, Guy Chesnot anime des séminaires et des formations sur le Big Data et, est l’auteur de plusieurs ouvrages sur le sujet. Après son article intitulé « Big Data, orgueil et préjugés » ici même en avril, il a accepté de nous éclairer de nouveau sur un autre aspect de ce vaste sujet !

Le coût des données inactives dans les Big Data

Le principe de base du Big Data veut que les données constituent une matière première qui peut et pourra être utilisée. Malheureusement, ce principe se heurte à deux écueils : d’une part, les données ne sont pas toutes de bonne qualité et, d’autre part, toutes les données ne sont pas actives pour les applications courantes. C’est ce second problème qui est ici abordé : comment gérer ces données inactives ?

Croissance des volumes et utilisation

D’après toutes les études et analyses, le volume de données des entreprises croît à un rythme effréné. Cette croissance se traduit essentiellement par la création de données non structurées, stockées sous forme de fichiers. Cependant, l’utilisation de ces fichiers n’augmente pas forcément au même rythme. Autrement dit, les usagers créent de plus en plus de fichiers, mais ils continuent de n’en utiliser que quelques-uns. A l’échelle d’une entreprise, le problème devient dramatique. En effet, on passe d’un souhait personnel (je veux que mes fichiers soient disponibles tout le temps) à une nécessité commerciale (mon entreprise doit accéder à ses données à tout moment).

Une récente étude de la NSF (National Science Foundation) a montré que les fichiers sont rarement rouverts : 95% des fichiers sont ouverts moins de cinq fois. Plus de 60% des réouvertures ont lieu dans la minute suivant la première ouverture. Plus de 76% des fichiers ne sont jamais ouverts par plus d’une personne et parmi les fichiers ouverts par des tiers, 90% des données partagées ne sont que lues.

Les infrastructures des disques des centres de données ne cessent donc de croître à une vitesse vertigineuse. À ce coût lié à l’achat de nouvelles unités multidisques, s’ajoute celui de la sauvegarde de ces unités, de la surface supplémentaire dans le centre de données, de l’électricité et du refroidissement pour des disques qui tournent continuellement mais ne sont presque jamais utilisés.

Conservation des données inactives

La sauvegarde est nécessaire afin de protéger les disques primaires et la croissance du volume de données induit directement l’accroissement des fenêtres de sauvegarde. Les périodes de sauvegarde et de restauration deviennent impossibles à gérer du fait de la prise en charge des données actives et inactives.

Les responsables informatiques n’ont alors souvent pas d’autre choix que de prendre les données excédentaires et de les placer dans une armoire en tant qu’« archives ». Malheureusement ces « archives » n’en sont pas vraiment et souvent, ne sont pas gérées. Les données à forte valeur sont mélangées à des données à faible valeur.

Comment résoudre ce problème ?

La solution consiste à créer une distinction claire entre la sauvegarde et l’archive et à séparer les besoins de protection des données de ceux de conservation des données. Les stratégies de sauvegarde doivent concerner les données de production à court terme, afin de les prémunir contre des défaillances catastrophiques. A l’opposé, les stratégies d’archive ou de conservation des données concernent le plus long terme. Une archive active est une archive dans laquelle toutes les données sont toujours disponibles « en ligne » et visibles pour l’utilisateur, dans un environnement où les données sont protégées, pour une conservation très longue.

Les données inactives ayant de la valeur sont déplacées dans un niveau de stockage d’archives qui, même s’il est « en ligne », est typiquement dans un état de veille utilisant soit une technologie MAID qui met en sommeil les disques et supprime ainsi totalement la consommation énergétique de la baie, soit une technologie plus classique de bandes magnétiques.

Pour déterminer si les données sont actives ou non, l’un des points clés réside dans la stratégie de classement mise en œuvre. Les solutions de gestion des données numériques permettent une indexation automatique des contenus de multiples façons au fil des créations et des modifications. Les administrateurs peuvent aisément établir des politiques visant à déterminer quelles sont les données qui doivent rester sur le disque de production et celles qui peuvent migrer vers un stockage de second ou troisième niveau (Tier). Une gestion hiérarchique du stockage permet alors de virtualiser l’ensemble des niveaux de stockage.

Bénéfices

Une stratégie d’archive active peut entraîner une réduction significative des coûts globaux liés à un volume croissant de données. En outre, en séparant le disque de production des autres niveaux de stockage, les points uniques de défaillance sont pratiquement éliminés. Les composants individuels peuvent être mis à jour ou modifiés sans affecter l’utilisation globale pour les utilisateurs. L’extensibilité devient alors un atout et non plus un cauchemar !

Formations associées :

BGA BIG DATA, synthèse

MBD La DSI et l’entreprise face aux défis du Cloud, Byod et BIG DATA, La nouvelle révolution des SI

DMI DATA Mining, synthèse

VIR VIRTUALISATION, enjeux et solutions

DAW Construire un DATA Warehouse

AEB Nouvelles architectures des SI


Cette entrée a été publiée dans Informatique. Vous pouvez la mettre en favoris avec ce permalien.

Commentaires

5 réponses à Big Data : comment gérer les données inactives ?

  1. Ping : Big Data : comment gérer les donn&eacute...

  2. Merci beaucoup pour cet article. Savez-vous où l’on peut trouver d’autres études de la NSF sur le Big Data ?

  3. La rédaction d'ORSYS dit :

    @Carrière Informatique :
    Bonjour et merci !
    En ce qui concerne la NSF, vous trouverez tous leurs articles en anglais sur le Big Data ici : http://goo.gl/ilVxW
    Quant aux articles en français, des sites prometteurs sont en préparation, nous ne manquerons pas de vous informer sur notre blog de leur sortie.
    Bonne journée à vous

  4. Bonjour @Carrière Informatique ,
    Vous trouverez aussi des éléments intéressants sur le Big Data dans ce groupe de discussion LinkedIn :
    http://goo.gl/kbXwD
    Bonne journée

  5. @La Rédaction d’ORSYS, @community manager,

    Merci beaucoup pour ces informations complémentaires, et je suis impatient de découvrir ces sites français.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

*