Comment optimiser son Datalake grâce au stockage objet ?

7 mars 2017/Emilie Ravet
Un Data Lake stocke d’importantes quantités d’informations brutes et hétérogènes. Cette « mémoire universelle » permet de mieux comprendre son environnement en croisant un nombre considérable de données. À la clé, des actions

qui vont gagner en pertinence. 

Distinguer Data Lake de Data Warehouse

Un « Lac de données » représente un maillon essentiel de la connaissance du client et de son secteur d’activité. En ce sens, il apporte des fonctions complémentaires à celles d’un Data Warehouse qui est un simple entrepôt de données organisées par thèmes, horodatées et structurées. Il est donc parfaitement adapté aux analyses répétitives.

À l’inverse, un Data Lake analyse les données en fonction de besoins exprimés par un service de l’entreprise. Il est en effet possible de charger des informations brutes, et de leur conférer une forme et une structure uniquement lorsque le moment est venu de les exploiter.

datalakevsdatawarehoue.jpegCette image résume parfaitement la différence :

  • Data lake (lac de données) présente une architecture à plat.
  • Data Warehouse (entrepôt de données) hiéarchise les données.

Objectif : Anticiper les évolutions du marché

Le volume d’informations stockées est très important et les sources sont multiples : logs d’un site web, logs des systèmes de production, tickets de caisse, commandes, commentaires d’internautes, emails, télémétrie (Internet des objets)… Elles sont conservées dans leur état au sein d’une structure non figée.

Mais stocker énormément de données n’est pas efficace ; il faut en extraire de la valeur ! En s’appuyant sur des applications de Business intelligence et de Big data, des Data Scientists peuvent prévoir plus précisément les évolutions du marché sur lequel se trouve leur entreprise.

Le binôme Data Lake/Big Data permet de répondre à quatre objectifs majeurs :

  • optimiser la relance marketing en personnalisant le contenu ;
  • anticiper les ventes en magasin ou en ligne et affiner ainsi sa stratégie crosscanal ;
  • mesurer la contribution du web sur l'activité en magasin ;
  • réduire les coûts, et notamment ceux liés aux stocks, en améliorant les processus.

En conservant des données non structurées, cet entrepôt peut révéler des résultats étonnants. Grâce au Data Lake, il est possible de coupler la donnée interne de l’entreprise avec des informations externes telles que la météo, la pollution, le trafic, le nombre de vélos circulant à Paris, etc. Ce puissant outil de prédiction des comportements permet à l’entreprise d’adapter ses lignes de production et ses stocks.

Il permet aussi d’analyser les données qui ont le plus d’impact sur la productivité et la rentabilité, comme les défauts de fabrication. Pour un industriel, cette méthode réduit les rebuts tout en améliorant sa production.

Le stockage objet optimise le Datalake

Une architecture de stockage est souvent rendue complexe par la coexistence de plusieurs systèmes de fichiers, de plusieurs technologies propriétaires ou de plusieurs générations de matériel. L’Object Storage simplifie la création d'un Datalake en apportant des systèmes de stockage facilement scalables.

Le coût est un paramètre important à prendre en compte, notamment dans les systèmes de Datalake où l'objectif est de stocker un maximun de données. Les systèmes de stockage objet permettent de démultiplier facilement des serveurs à moindre coût pour gérer des pétabytes.

Les technologies d'Erasure Coding ou de réplication  incluses dans les systèmes de stockage objet permettent d'apporter une meilleure protection par rapport aux systèmes basés sur des disques RAID et donc une meilleure tolérance aux pannes.

Enfin, la possibiltié d'interagir avec le système de stockage par API permet aux administrateurs systèmes d'automatiser la gestion des données.

La flexibilité du Cloud

Quasiment vingt ans après l’apparition de ce terme, de plus en plus d’entreprises disposent d’un Data Lake. Cette intégration dans la stratégie numérique est favorisée principalement par la baisse des coûts de stockage et la maturité des outils Big data.

Il peut être déployé soit sur une infrastructure on-premise, c’est-à-dire dans le datacenter de la société, soit dans le Cloud (mode hybride). Ce dernier permet notamment d’adapter l'infrastructure et les capacités analytiques en fonction de ses besoins, sans entamer de lourds investissements.

Avantage majeur du Cloud : l’entreprise ne paie que ce qu’elle consomme, sans limites de taille ou de durée. 

Et vous, il est comment, votre datalake ?

Testez la système d'Object Storage de Scalair

Emilie Ravet
À propos de Emilie Ravet : Emilie est responsable Marketing en charge de la publication des articles du blog.

À lire ensuite

cdm

Cloud data management : pour une gestion optimisée de toutes ses données

Les environnements de cloud hybride offrent de nombreux avantages aux entreprises. Mais la migration vers le...

accountant-accounting-adviser-advisor-159804

Dépenses Multicloud : 3 conseils pour réduire les coûts

Les entreprises dépensent beaucoup d'argent dans le cloud. Mais ce poste est-il bien géré ? Différentes études...

blur-coffee-connection-2041383

API : entre opportunités et insécurité

De plus en plus d’entreprises s’appuient sur des API publiques, partenaires ou privées. Objectif : gagner en...