Lexiques, tutos & outils

Comment s’organiser face à l’afflux de données dans l’entreprise ?

S’il est partout question de Big data, beaucoup d’entreprises n’en sont pas encore là. Plus prosaïquement, elles s’interrogent avant tout sur la manière de faire face à l’afflux des données au sein de leur structure : comment optimiser les flux entre celles à stocker et celles à archiver, les mettre à disposition ou encore protéger celles qui ont le plus de valeur…

La croissance des volumes de données dans le monde peut donner le vertige. On estime qu’au cours de l’année 2016, près de 200 000 milliards d’emails seront échangés sur la planète, alors que certaines grandes entreprises ont déjà dépassé le seuil du péta-octets – c’est à dire 1000 tera-octets (To)  ou un million de giga-octets (Go). Et nombre de PME commencent à acquérir des systèmes de stockage et d’archivage alignant jusqu’à 36 disques pour une capacité supérieure à 50 000 gigas, des systèmes intégrant directement une librairie de bandes magnétiques (standard LTO) pour l’archivage à long terme.

Les données inondent les entreprises

Il est vrai que l’activité de certaines entreprises (banque, assurance, production multimédias, chaînes TV…) conduit très vite à de gros volumes. Mais pour les autres entreprises aussi, le paysage peut aussi rapidement changer, notamment via la généralisation de l’image et la vidéo au sein des activités, ou encore le boom de certaines innovations comme la réalité virtuelle, dont les applications s’avèrent très gourmandes en espace disque, ou des objets connectés à Internet, susceptibles d’émettre certains volumes de données qu’il faudra gérer.

De même, l’accès aux données publiques (Open Data) peut également donner lieu à de gros volumes de données, pour qui commence à s’intéresser à un rapprochement entre business intelligence et Big data, à partir de données extérieures. Or les volumes s’accroissent d’autant plus vite que les données ne sont pas structurées (documents provenant de sites web, ou des réseaux sociaux, par exemple).

Données en entreprise : charte et guide de bonnes pratiques indispensables

En clair, les entreprises ont fort intérêt à s’organiser et à mettre en place des chartes et guides de bonnes pratiques afin d’éviter une inflation coûteuse des données à stocker puis à archiver. Car même si le prix du giga-octet sauvegardé sur disque tend à baisser, la volumétrie peut augmenter de façon quasi exponentielle. Deux étapes préalables sont indispensables :

  • identifier le cycle de vie des données, depuis leur acquisition jusqu’à leur archivage ou leur effacement. Pour cela, les données doivent être classifiées selon leur importance (plusieurs niveaux à définir entre « stratégiques, critiques » et « faible impact » en cas de cyber-attaque, de perte ou vol).
  • établir une cartographie des données (par service) en distinguant données référentielles (annuaires, nomenclatures) et données décisionnelles (ventes par client, profils…).

Les données personnelles, donc confidentielles, sont également traitées selon une attention particulière, en respectant la réglementation (sécurisation, recoupement, etc.).

Enrichir et gérer les métadonnées

Lorsque la volumétrie augmente, il convient d’être toujours plus vigilant et rigoureux sur la gestion des métadonnées, qui permettent précisément d’ordonnancer, classifier par service, thème, date, auteur, etc. Ce travail devient crucial pour gagner du temps lors de la recherche d’archives ou lors d’un incident serveur.

okok

Les acteurs d’un projet « stockage / archivage des données ». (Source : Intellique, 2015).

Au sein de l’entreprise, il est opportun de nommer des managers relais qui sensibiliseront les utilisateurs aux gaspillages de volumes de données, aux copies de sauvegarde à opérer régulièrement, sans recopier une énième fois les mêmes documents. Des quotas de stockage par utilisateur peuvent être fixés, de même que des dates limites avant archivage automatique, puis purge…

Le recours à des solutions externes du type Dropbox ou iCloud (Apple) ou Flickr (Yahoo) doit être encadré, compte tenu du mélange entre utilisation personnelle et professionnelle.

Pour l’archivage, les métadonnées seront suffisamment riches et bien structurées afin de faciliter la recherche. Les dates de fin d’archivage (purge) doivent y figurer. Pour les données importantes, on fera plutôt 2 voire 3 copies sur des supports différents (disques et bandes) en des lieux distants. Tous les 5 à 7 ans, une vérification et un transfert ou migration sur un nouveau support doit être effectués.

Choisir les bons supports de stockage de données

Reste à déterminer quels sont les supports les plus adéquats. Le responsable informatique ou le prestataire pourra déterminer s’il y a lieu d’investir dans des disques SSD (ou disques “flash”) ou des disques durs classiques moins coûteux, pour une partie des applications. Entre en jeu la question du ratio prix/performance, en fonction des temps d’accès voulus pour telle ou telle application ou service web (e-commerce, par exemple).

Pour l’archivage, les disques durs à bas prix sont prisés mais n’ont pas supprimé la bande magnétique. Car celle-ci garde ses avantages (stockage physique, déplaçable) et inconvénients (recherche séquentielle longue, mais la technologie LTFS  permet d’accéder directement à certains éléments, comme sur un disque).

L’archivage sur disque optique a toujours ses adeptes (dans le secteur médical, par exemple) mais coûte cher (20 000 euros voire plus, pour une configuration « standard »).  Les disques Blu-Ray sont parfois utilisés mais en semi-professionnel, car leur fiabilité est souvent mise en cause.

Données en entreprise : la tentation du Cloud

La grande tendance est celle du Cloud, à l’instar des solutions Amazon, Google ou Microsoft Azure. Leurs prix sont très concurrentiels pour qui accepte de leur confier ses données. Des technologies comme Ceph (acquise par RedHat) permettent de construire des architectures équivalentes (dites grid‘ ou « grille de stockage ») sur des Clouds privés. Le dispositif écrit sur 3 nœuds de serveurs différents, simultanément, donc, idéalement, sur des sites distants. Point intéressant : le logiciel hiérarchise lui-même les données en fonction des fréquences d’accès. Mais un certain niveau d’expertise est encore nécessaire pour exploiter un tel système.

Or, ici, sur Cloud privé, le but du jeu c’est d’être moins cher ou pas beaucoup plus cher que les Clouds publics, afin que l’organisation (banque, santé, administration…) puisse conserver toutes ses données chez elle. A défaut, les empilements de disques dans les baies de stockage traditionnelles ont encore une longue vie devant eux !  

Ils l’ont dit

Andreas Olas, analyste, IDC Europe (janvier 2016) :

« Le principal défi n’est pas la data et la volumétrie mais la capacité d’en produire de la valeur » .

Emmanuel Florac, Intellique :

« La numérisation permet une approche renouvelée, en ce qu’elle permet d’enrichir les archives avec des informations nouvelles (fréquence des requêtes, taux d’utilisations, etc.) »

Eric Antibi, NetApp (source : Zdnet) :

« Si on a 100 tera-octets à stocker pour les applications, avec de la virtualisation des postes de travail, de la messagerie, des bases de données, de la gestion documentaire, de l’archivage légal… avec toutes les copies,  ça multiplie par 10 et on parvient ainsi au péta-octet. ».

En chiffres

  • 7,9 zetta-octets de données (ou 7,9 milliards de tera-octets) ont été créées en 2015. C’est 4 fois plus qu’en 2011 (source IDC)
  • 80 % de ces données sont non structurées (illustrations, photos, vidéos…)
  • 293 milliards de courriers électroniques ont été envoyés chaque jour en 2014. En 3 ans, leur nombre a augmenté de 21%.
  • 90% des données stockées dans les entreprises ont été créées dans les deux années écoulées (Source : IDC)

Pour aller plus loin