Table des matières[Cacher][Montrer]
Les data lakehouses combinent les concepts d'entrepôt de données et de lac de données pour les entreprises.
Ces outils vous permettent de créer des solutions de stockage de données rentables en combinant les capacités de gestion des lacs de données avec l'architecture de données trouvée dans les entrepôts de données.
De plus, il y a une réduction de la migration et de la redondance des données, moins de temps est consacré à l'administration et des procédures de schéma et de gouvernance des données plus courtes deviennent une réalité.
Un data lakehouse présente de nombreux avantages par rapport à un système de stockage avec plusieurs solutions.
Ces outils sont encore utilisés par les data scientists pour améliorer leur compréhension des procédures de business intelligence et de machine learning.
Cet article examinera rapidement Data Lakehouse, ses capacités et les outils disponibles.
Présentation de Data Lakehouse
Un nouveau type d'architecture de données appelée "lac de données” combine un lac de données et un entrepôt de données pour répondre aux faiblesses de chacun indépendamment.
Le système Lakehouse, comme les lacs de données, utilise un stockage à faible coût pour conserver d'énormes quantités de données dans leur forme d'origine.
L'ajout d'une couche de métadonnées au-dessus du magasin fournit également une structure de données et habilite des outils de gestion de données similaires à ceux que l'on trouve dans les entrepôts de données.
Il contient des quantités massives de données structurées, semi-structurées et non structurées obtenues à partir des diverses applications, systèmes et appareils commerciaux utilisés dans l'entreprise.
Par conséquent, contrairement aux lacs de données, le système Lakehouse peut gérer et optimiser ces données pour les performances SQL.
Il a également la capacité de stocker et de traiter de grandes quantités de données diverses à un coût moins élevé que les entrepôts de données.
Un data lakehouse est pratique lorsque vous devez exécuter un accès aux données ou une analyse sur n'importe quelle donnée, mais que vous n'êtes pas sûr des données ou des analyses recommandées.
Une architecture Lakehouse fonctionnera très bien si la performance n'est pas une préoccupation majeure.
Cela ne signifie pas que vous devez baser toute votre structure sur une maison du lac.
Vous trouverez plus d'informations sur la sélection d'un lac de données, d'un lac, d'un entrepôt de données ou d'une base de données d'analyse spécialisée pour chaque cas d'utilisation. ici.
Caractéristiques de Data Lakehouse
- Lecture et écriture de données simultanées
- Adaptabilité et évolutivité
- Assistance schématique avec les outils de gouvernance des données
- Lecture et écriture de données simultanées
- Un stockage abordable
- Tous les types de données et formats de fichiers sont pris en charge.
- Accès à des outils de science des données et d'apprentissage automatique optimisés
- Vos équipes de données bénéficieront de l'accès à un seul système pour transférer les charges de travail à travers celui-ci plus rapidement et avec plus de précision.
- Capacités en temps réel pour les initiatives en science des données, en apprentissage automatique et en analyse
Top 5 des outils Data Lakehouse
Databricks
Databricks, qui a été fondé par la personne qui a développé Apache Spark et l'a créé open source, fournit un service Apache Spark géré et se positionne comme une plate-forme pour les lacs de données.
Les composants de lac de données, de lac delta et de moteur delta de l'architecture Databricks Lakehouse permettent des cas d'utilisation d'intelligence d'affaires, de science des données et d'apprentissage automatique.
Le lac de données est un référentiel de stockage cloud public.
Avec prise en charge de la gestion des métadonnées, du traitement des données par lots et en continu pour les ensembles de données multistructurés, de la découverte des données, des contrôles d'accès sécurisés et de l'analyse SQL.
Databricks offre la plupart des fonctions d'entreposage de données que l'on pourrait s'attendre à voir dans une plateforme de data lakehouse.
Databricks a récemment dévoilé son Auto Loader, qui automatise l'ETL et la saisie de données et exploite l'échantillonnage des données pour déduire le schéma pour une variété de types de données, afin de fournir les composants essentiels de la stratégie de stockage du lac de données.
Alternativement, les utilisateurs peuvent créer des pipelines ETL entre leur lac de données cloud public et Delta Lake à l'aide de Delta Live Tables.
Sur le papier, Databricks semble avoir tous les avantages, mais la mise en place de la solution et la création de ses pipelines de données nécessitent beaucoup de travail humain de la part de développeurs qualifiés.
À grande échelle, la réponse devient également plus complexe. C'est plus compliqué qu'il n'y paraît.
Ahana
Un lac de données est un emplacement central unique où vous pouvez stocker tout type de données que vous choisissez à grande échelle, y compris des données non structurées et structurées. AWS S3, Microsoft Azure et Google Cloud Storage sont trois lacs de données courants.
Les lacs de données sont incroyablement appréciés car ils sont très abordables et simples à utiliser. vous pouvez essentiellement stocker autant de n'importe quel type de données que vous le souhaitez pour très peu d'argent.
Mais le lac de données n'offre pas d'outils intégrés tels que l'analyse, la requête, etc.
Vous avez besoin d'un moteur de requête et d'un catalogue de données au-dessus du lac de données (où Ahana Cloud entre en jeu) pour interroger vos données et les utiliser.
Avec le meilleur du Data Warehouse et du Data Lake, une nouvelle conception de Data Lakehouse a été développée.
Cela indique qu'il est transparent, adaptable, qu'il a un bon rapport prix/performances, qu'il évolue comme un lac de données prend en charge les transactions et qu'il a un niveau de sécurité élevé comparable à un entrepôt de données.
Votre moteur de requête SQL hautes performances est le cerveau derrière Data Lakehouse. De ce fait, vous pouvez exécuter des analyses hautes performances sur les données de votre lac de données.
Ahana Cloud for Presto est un SaaS pour Presto sur AWS, ce qui rend incroyablement simple l'utilisation de Presto dans le cloud.
Pour votre lac de données basé sur S3, Ahana dispose déjà d'un catalogue de données et d'une mise en cache intégrés. Ahana vous offre les fonctionnalités de Presto sans vous obliger à gérer les frais généraux, car il le fait en interne.
AWS Lake Formation, Apache Hudi et Delta Lake ne sont que quelques-uns des gestionnaires de transactions qui font partie de la pile et s'y intègrent.
Drémio
Les organisations cherchent à évaluer rapidement, simplement et efficacement des quantités massives de données en croissance rapide.
Dremio pense qu'un lac de données ouvert combinant les avantages des lacs de données et des entrepôts de données sur une base ouverte est la meilleure approche pour y parvenir.
La plate-forme Lakehouse de Dremio offre une expérience qui fonctionne pour tout le monde, avec une interface utilisateur simple qui permet aux utilisateurs d'effectuer des analyses en une fraction du temps.
Dremio Cloud, une plateforme de data lakehouse entièrement gérée, et le lancement de deux nouveaux services : Dremio Sonar, un moteur de requête de lakehouse, et Dremio Arctic, un mégastore intelligent pour Apache Iceberg qui offre une expérience unique de type Git pour la lakehouse.
Toutes les charges de travail SQL d'une organisation peuvent être exécutées sur la plate-forme Dremio Cloud sans friction et évolutive à l'infini, qui automatise également les tâches de gestion des données.
Il est conçu pour SQL, offre une expérience de type Git, est open source et toujours gratuit.
Ils l'ont créée pour être la plateforme Lakehouse que les équipes de données adorent.
En utilisant des formats de table et de fichier open source comme Apache Iceberg et Apache Parquet, vos données sont persistantes dans votre propre stockage de lac de données lorsque vous utilisez Dremio Cloud.
Les innovations futures peuvent être facilement adoptées et le moteur approprié peut être choisi en fonction de votre charge de travail.
Flocon
Snowflake est une plateforme de données et d'analyse cloud qui peut répondre aux besoins des lacs de données et des entrepôts.
Il a commencé comme un système d'entrepôt de données basé sur une infrastructure cloud.
La plate-forme comprend un référentiel de stockage centralisé qui se trouve au-dessus du stockage en nuage public d'AWS, Microsoft Azure ou Google Cloud Platform (GCP).
Vient ensuite une couche de calcul multi-cluster, où les utilisateurs peuvent lancer un entrepôt de données virtuel et effectuer des requêtes SQL sur leur stockage de données.
L'architecture permet de découpler les ressources de stockage et de calcul, permettant aux organisations de faire évoluer les deux indépendamment selon les besoins.
Enfin, Snowflake fournit une couche de service avec la catégorisation des métadonnées, la gestion des ressources, la gouvernance des données, les transactions et d'autres fonctionnalités.
Les connecteurs d'outils de BI, la gestion des métadonnées, les contrôles d'accès et les requêtes SQL ne sont que quelques-unes des fonctionnalités d'entrepôt de données que la plate-forme excelle à offrir.
Snowflake, cependant, est limité à un seul moteur de requête relationnel basé sur SQL.
En conséquence, il devient plus simple à administrer mais moins adaptable, et la vision du lac de données multimodèle n'est pas réalisée.
De plus, avant que les données du stockage dans le cloud puissent être recherchées ou analysées, Snowflake demande aux entreprises de les charger dans une couche de stockage centralisée.
La procédure de canalisation manuelle des données nécessite un ETL, un provisionnement et un formatage des données préalables avant de pouvoir être examinées. La mise à l'échelle de ces processus manuels les rend frustrants.
Une autre option qui semble convenir sur le papier, mais qui s'écarte en fait du principe du lac de données de simple saisie de données est le Data Lakehouse de Snowflake.
Oracle
L'architecture moderne et ouverte connue sous le nom de "data lakehouse" permet de stocker, de comprendre et d'analyser toutes vos données.
L'étendue et la flexibilité des solutions de lac de données open source les plus appréciées sont combinées à la force et à la profondeur des entrepôts de données.
Les cadres d'IA les plus récents et les services d'IA prédéfinis peuvent être utilisés avec un lac de données sur Oracle Cloud Infrastructure (OCI).
Il est possible de travailler avec des types de données supplémentaires tout en utilisant un lac de données open source. Mais le temps et les efforts nécessaires pour le gérer pourraient être un inconvénient persistant.
OCI propose des services Lakehouse open source entièrement gérés à des tarifs inférieurs et avec moins de gestion, vous permettant d'anticiper des dépenses opérationnelles réduites, une meilleure évolutivité et sécurité, et la capacité de consolider toutes vos données existantes en un seul endroit.
Un lac de données augmentera la valeur des entrepôts et des marchés de données, qui sont essentiels aux entreprises prospères.
Les données peuvent être récupérées à l'aide d'un Lakehouse à partir de plusieurs emplacements avec une seule requête SQL.
Les programmes et outils existants reçoivent un accès transparent à toutes les données sans nécessiter d'ajustements ni acquérir de nouvelles compétences.
Conclusion
L'introduction des solutions Data Lakehouse reflète une tendance plus large dans le Big Data, qui est l'intégration de l'analyse et du stockage de données dans des plates-formes de données unifiées pour maximiser la valeur commerciale des données tout en réduisant le temps, le coût et la complexité de l'extraction de valeur.
Des plates-formes telles que Databricks, Snowflake, Ahana, Dremio et Oracle ont toutes été liées à l'idée d'un "data lakehouse", mais elles ont chacune un ensemble unique de fonctionnalités et une tendance à fonctionner davantage comme un entrepôt de données que comme un véritable lac de données. dans son ensemble.
Lorsqu'une solution est commercialisée en tant que « data lakehouse », les entreprises doivent se méfier de ce que cela signifie réellement.
Les entreprises doivent regarder au-delà du jargon marketing comme "data lakehouse" et plutôt examiner les fonctionnalités de chaque plate-forme pour sélectionner la meilleure plate-forme de données qui se développera avec leurs activités à l'avenir.
Soyez sympa! Laissez un commentaire