Data lake, Data Warehouse : quelle différence ?
À la différence du Data Lake, le but premier du Data Warehouse est d’obtenir une donnée raffinée pour un besoin précis, récurrent, demandant de solides performances d’agrégation et permettant de servir des applications de reporting, d’analyse et parfois de nouvelles applications métier.
Mais, avec un coût du téraoctet stocké plus de 10 fois supérieur, le Data Warehouse a atteint ses limites comme pierre angulaire de la data au sein de l’entreprise.
Comment tirer parti du meilleur des deux mondes ?
Quelles solutions data lake envisager ?
De nombreuses grandes entreprises, ayant investi des sommes importantes dans leur data warehouse, ont pris le parti de faire une transition douce vers le data lake, avec une solution on premise et la composition sur mesure d’un panel d’outils pour le gérer.
Une solution on premise comme le data lake Hadoop
La fondation Apache a fourni le framework open-source Hadoop, cœur des capacités du data lake à ingérer en masse par la parallélisation et la distribution du process de stockage.
Ce framework est enrichi de très nombreux outils open source qui ont rendu la mise en place du data lake abordable (financièrement) :
- Kafka pour l’ingestion,
- Yarn pour la répartition des ressources,
- Spark pour le traitement haute performance,
- MongoDB comme base NoSQL,
- ElasticSearch et Kibana pour l’indexation des contenus et la restitution,
- et pléthore d’autres outils (bases graph, audit, sécurité) qui émergent et parfois disparaissent alors que ce marché se concentre.
Mais au final, la multiplicité des outils et la possibilité de se créer un environnement ultra personnalisé peuvent engendrer des coûts de possessions très importants, en particulier si l’on a misé sur une technologie au futur incertain.
On peut donc logiquement préférer des solutions packagées comme Cloudera qui a avalé Hortonworks, et a conservé une distribution open source, mais propose bien sûr un modèle payant mieux supporté.
Un partenariat fort avec IBM vise d’ailleurs à fournir des solutions on-premise fortes.
MapR ayant été repris en 2019 par Hewlett Packard Enterprise, va être intégrée au HPE GreenLake, solution cloud visant à rivaliser avec les géants Amazon, Microsoft, Google ou encore Oracle qui multiplient les partenariats, rachats et nouveaux développements pour bâtir des plateformes cloud rivalisant avec les meilleurs outils d’analyse de données on premise.
[35% lus] Pour en savoir plus sur ce sujet, découvrez la suite de cet article sur la plateforme d’Appvizer