Πίνακας περιεχομένων[Κρύβω][Προβολή]
Τα data lakehouses συνδυάζουν τις έννοιες της αποθήκης δεδομένων και της λίμνης δεδομένων για τις επιχειρήσεις.
Αυτά τα εργαλεία σάς επιτρέπουν να δημιουργήσετε οικονομικά αποδοτικές λύσεις αποθήκευσης δεδομένων συνδυάζοντας τις δυνατότητες διαχείρισης των λιμνών δεδομένων με την αρχιτεκτονική δεδομένων που βρίσκεται στις αποθήκες δεδομένων.
Επιπλέον, υπάρχει μείωση στη μετανάστευση και τον πλεονασμό δεδομένων, λιγότερος χρόνος δαπανάται για τη διαχείριση και οι συντομότερες διαδικασίες σχημάτων και διακυβέρνησης δεδομένων γίνονται στην πραγματικότητα πραγματικότητα.
Ένα data lakehouse έχει πολλά πλεονεκτήματα σε σύγκριση με ένα σύστημα αποθήκευσης με πολλές λύσεις.
Αυτά τα εργαλεία εξακολουθούν να χρησιμοποιούνται από τους επιστήμονες δεδομένων για να βελτιώσουν την κατανόησή τους σχετικά με τις διαδικασίες επιχειρηματικής ευφυΐας και μηχανικής μάθησης.
Αυτό το άρθρο θα ρίξει μια γρήγορη ματιά στο data lakehouse, τις δυνατότητές του και τα διαθέσιμα εργαλεία.
Εισαγωγή στο Data Lakehouse
Ένα νέο είδος αρχιτεκτονικής δεδομένων που ονομάζεται "δεδομένα LakehouseΣυνδυάζει μια λίμνη δεδομένων και μια αποθήκη δεδομένων για να αντιμετωπίσει τις αδυναμίες του καθενός ανεξάρτητα.
Το σύστημα lakehouse, όπως και οι λίμνες δεδομένων, χρησιμοποιεί αποθήκευση χαμηλού κόστους για να διατηρεί τεράστιες ποσότητες δεδομένων στην αρχική τους μορφή.
Η προσθήκη ενός επιπέδου μεταδεδομένων στην κορυφή του καταστήματος παρέχει επίσης δομή δεδομένων και ενισχύει εργαλεία διαχείρισης δεδομένων παρόμοια με αυτά που βρίσκονται στις αποθήκες δεδομένων.
Περιέχει τεράστιες ποσότητες δομημένων, ημιδομημένων και μη δομημένων δεδομένων που λαμβάνονται από τις διάφορες επιχειρηματικές εφαρμογές, συστήματα και συσκευές που χρησιμοποιούνται σε όλη την επιχείρηση.
Ως αποτέλεσμα, σε αντίθεση με τις λίμνες δεδομένων, το σύστημα lakehouse μπορεί να διαχειριστεί και να βελτιστοποιήσει αυτά τα δεδομένα για την απόδοση SQL.
Έχει επίσης τη δυνατότητα αποθήκευσης και επεξεργασίας μεγάλων ποσοτήτων διαφορετικών δεδομένων με φθηνότερο κόστος από τις αποθήκες δεδομένων.
Ένα data lakehouse είναι χρήσιμο όταν χρειάζεται να εκτελέσετε οποιαδήποτε πρόσβαση δεδομένων ή αναλυτικά στοιχεία έναντι οποιωνδήποτε δεδομένων, αλλά δεν είστε σίγουροι για τα δεδομένα ή τα προτεινόμενα αναλυτικά στοιχεία.
Μια αρχιτεκτονική lakehouse θα λειτουργήσει αρκετά καλά εάν η απόδοση δεν είναι πρωταρχικό μέλημα.
Αυτό δεν σημαίνει ότι θα πρέπει να βασίσετε ολόκληρη τη δομή σας σε ένα σπίτι στη λίμνη.
Μπορείτε να βρείτε περισσότερες πληροφορίες σχετικά με τον τρόπο επιλογής μιας λίμνης δεδομένων, μιας λίμνης, μιας αποθήκης δεδομένων ή μιας εξειδικευμένης βάσης δεδομένων αναλυτικών στοιχείων για κάθε περίπτωση χρήσης εδώ.
Χαρακτηριστικά του Data Lakehouse
- Ταυτόχρονη ανάγνωση και γραφή δεδομένων
- Προσαρμοστικότητα και επεκτασιμότητα
- Βοήθεια σχήματος με εργαλεία διαχείρισης δεδομένων
- Ταυτόχρονη ανάγνωση και γραφή δεδομένων
- Αποθηκευτικός χώρος που είναι προσιτός
- Υποστηρίζονται όλοι οι τύποι δεδομένων και οι μορφές αρχείων.
- Πρόσβαση σε εργαλεία επιστήμης δεδομένων και μηχανικής μάθησης που είναι βελτιστοποιημένη
- Οι ομάδες δεδομένων σας θα επωφεληθούν από την πρόσβαση σε ένα μόνο σύστημα για τη μεταφορά φόρτου εργασίας μέσω αυτού πιο γρήγορα και με ακρίβεια.
- Δυνατότητες σε πραγματικό χρόνο για πρωτοβουλίες στην επιστήμη δεδομένων, τη μηχανική μάθηση και την ανάλυση
Κορυφαία 5 εργαλεία Data Lakehouse
Βάσεις δεδομένων
Databricks, το οποίο ιδρύθηκε από το άτομο που ανέπτυξε πρώτο το Apache Spark και το έφτιαξε ανοικτού κώδικα, παρέχει μια διαχειριζόμενη υπηρεσία Apache Spark και τοποθετείται ως πλατφόρμα για λίμνες δεδομένων.
Τα στοιχεία της λίμνης δεδομένων, της λίμνης δέλτα και του κινητήρα δέλτα της αρχιτεκτονικής του Databricks lakehouse επιτρέπουν περιπτώσεις χρήσης επιχειρηματικής ευφυΐας, επιστήμης δεδομένων και μηχανικής μάθησης.
Η λίμνη δεδομένων είναι μια δημόσια αποθήκη αποθήκευσης cloud.
Με υποστήριξη για διαχείριση μεταδεδομένων, επεξεργασία δεδομένων ομαδικής και ροής για πολυδομημένα σύνολα δεδομένων, ανακάλυψη δεδομένων, ελέγχους ασφαλούς πρόσβασης και SQL analytics.
Το Databricks προσφέρει τις περισσότερες από τις λειτουργίες αποθήκευσης δεδομένων που θα περίμενε κανείς να δει σε μια πλατφόρμα δεδομένων lakehouse.
Η Databricks αποκάλυψε πρόσφατα το Auto Loader, το οποίο αυτοματοποιεί το ETL και την εισαγωγή δεδομένων και αξιοποιεί τη δειγματοληψία δεδομένων για να συμπεράνει το σχήμα για μια ποικιλία τύπων δεδομένων, προκειμένου να προσφέρει τα βασικά στοιχεία της στρατηγικής αποθήκευσης λιμνών δεδομένων.
Εναλλακτικά, οι χρήστες μπορούν να δημιουργήσουν αγωγούς ETL μεταξύ της δημόσιας λίμνης δεδομένων σύννεφων και της λίμνης Delta χρησιμοποιώντας τους πίνακες Delta Live.
Στα χαρτιά, το Databricks φαίνεται να έχει όλα τα πλεονεκτήματα, αλλά η δημιουργία της λύσης και η δημιουργία αγωγών δεδομένων απαιτεί πολλή ανθρώπινη εργασία από εξειδικευμένους προγραμματιστές.
Σε κλίμακα, η απάντηση γίνεται επίσης πιο σύνθετη. Είναι πιο περίπλοκο από όσο φαίνεται.
Αχανα
Μια λίμνη δεδομένων είναι μια ενιαία, κεντρική τοποθεσία όπου μπορείτε να αποθηκεύσετε οποιονδήποτε τύπο δεδομένων επιλέξετε σε κλίμακα, συμπεριλαμβανομένων μη δομημένων και δομημένων δεδομένων. Το AWS S3, το Microsoft Azure και το Google Cloud Storage είναι τρεις κοινές λίμνες δεδομένων.
Οι λίμνες δεδομένων είναι απίστευτα αγαπητές επειδή είναι πολύ προσιτές και απλές στη χρήση. μπορείτε ουσιαστικά να αποθηκεύσετε όσα δεδομένα θέλετε με πολύ λίγα χρήματα.
Αλλά η λίμνη δεδομένων δεν προσφέρει ενσωματωμένα εργαλεία όπως αναλυτικά στοιχεία, ερωτήματα κ.λπ.
Χρειάζεστε μια μηχανή ερωτημάτων και έναν κατάλογο δεδομένων στην κορυφή της λίμνης δεδομένων (όπου μπαίνει το Ahana Cloud) για να ρωτήσετε τα δεδομένα σας και να τα χρησιμοποιήσετε.
Με τα καλύτερα τόσο του Data Warehouse όσο και του Data Lake, έχει αναπτυχθεί ένας νέος σχεδιασμός data lakehouse.
Αυτό δείχνει ότι είναι διαφανές, προσαρμόσιμο, έχει καλή τιμή/απόδοση, κλιμακώνεται όπως μια λίμνη δεδομένων υποστηρίζει συναλλαγές και έχει υψηλό επίπεδο ασφάλειας συγκρίσιμο με μια αποθήκη δεδομένων.
Η μηχανή αναζήτησης SQL υψηλής απόδοσης είναι ο εγκέφαλος πίσω από το Data Lakehouse. Εξαιτίας αυτού, μπορείτε να εκτελέσετε αναλύσεις υψηλής απόδοσης στα δεδομένα λίμνης δεδομένων σας.
Το Ahana Cloud for Presto είναι SaaS για Presto στο AWS, καθιστώντας απίστευτα απλό την έναρξη χρήσης του Presto στο cloud.
Για τη λίμνη δεδομένων σας που βασίζεται στο S3, το Ahana διαθέτει ήδη έναν ενσωματωμένο κατάλογο δεδομένων και προσωρινή αποθήκευση. Το Ahana σας δίνει τις δυνατότητες του Presto χωρίς να σας απαιτεί να χειριστείτε τα γενικά έξοδα, επειδή το κάνει εσωτερικά.
Το AWS Lake Formation, το Apache Hudi και το Delta Lake είναι μόνο μερικοί από τους διαχειριστές συναλλαγών που αποτελούν μέρος της στοίβας και ενσωματώνονται σε αυτό.
Δρέμιο
Οι οργανισμοί επιδιώκουν να αξιολογήσουν γρήγορα, απλά και αποτελεσματικά τεράστιες ποσότητες δεδομένων που αυξάνονται γρήγορα.
Η Dremio πιστεύει ότι ένα open data lakehouse συνδυάζει τα οφέλη των λιμνών δεδομένων και οι αποθήκες δεδομένων σε ανοιχτή βάση είναι η καλύτερη προσέγγιση για να επιτευχθεί αυτό.
Η πλατφόρμα lakehouse του Dremio παρέχει μια εμπειρία που λειτουργεί για όλους, με μια εύκολη διεπαφή χρήστη που επιτρέπει στους χρήστες να ολοκληρώνουν αναλύσεις σε ένα κλάσμα του χρόνου.
Το Dremio Cloud, μια πλήρως διαχειριζόμενη πλατφόρμα δεδομένων lakehouse και η κυκλοφορία δύο νέων υπηρεσιών: το Dremio Sonar, μια μηχανή αναζήτησης lakehouse και το Dremio Arctic, ένα έξυπνο megastore για το Apache Iceberg που προσφέρει μια μοναδική εμπειρία Git-όπως για το lakehouse.
Όλοι οι φόρτοι εργασίας SQL ενός οργανισμού μπορούν να εκτελεστούν στην ατελείωτα κλιμακούμενη πλατφόρμα Dremio Cloud, χωρίς τριβές, η οποία αυτοματοποιεί επίσης εργασίες διαχείρισης δεδομένων.
Είναι κατασκευασμένο για SQL, προσφέρει μια εμπειρία που μοιάζει με Git, είναι ανοιχτού κώδικα και είναι πάντα δωρεάν.
Το δημιούργησαν για να είναι η πλατφόρμα lakehouse που λατρεύουν οι ομάδες δεδομένων.
Χρησιμοποιώντας πίνακες ανοιχτού κώδικα και μορφές αρχείων όπως το Apache Iceberg και το Apache Parquet, τα δεδομένα σας παραμένουν μόνιμα στη δική σας αποθήκευση δεδομένων στη λίμνη όταν χρησιμοποιείτε το Dremio Cloud.
Οι μελλοντικές καινοτομίες μπορούν εύκολα να υιοθετηθούν και ο κατάλληλος κινητήρας μπορεί να επιλεγεί με βάση τον φόρτο εργασίας σας.
Νιφάδα χιονιού
Το Snowflake είναι μια πλατφόρμα δεδομένων και ανάλυσης cloud που μπορεί να καλύψει τις ανάγκες των λιμνών δεδομένων και των αποθηκών.
Ξεκίνησε ως ένα σύστημα αποθήκης δεδομένων χτισμένο σε υποδομή cloud.
Η πλατφόρμα αποτελείται από ένα κεντρικό αποθετήριο αποθήκευσης που βρίσκεται πάνω από το δημόσιο χώρο αποθήκευσης cloud από το AWS, το Microsoft Azure ή το Google Cloud Platform (GCP).
Ακολουθεί ένα επίπεδο υπολογισμού πολλαπλών συστάδων, όπου οι χρήστες μπορούν να ξεκινήσουν μια εικονική αποθήκη δεδομένων και να διεξάγουν ερωτήματα SQL έναντι της αποθήκευσης δεδομένων τους.
Η αρχιτεκτονική επιτρέπει την αποσύνδεση των πόρων αποθήκευσης και υπολογισμού, επιτρέποντας στους οργανισμούς να κλιμακώσουν τα δύο ανεξάρτητα ανάλογα με τις ανάγκες.
Τέλος, το Snowflake παρέχει ένα επίπεδο υπηρεσιών με κατηγοριοποίηση μεταδεδομένων, διαχείριση πόρων, διακυβέρνηση δεδομένων, συναλλαγές και άλλα χαρακτηριστικά.
Οι συνδέσεις εργαλείων BI, η διαχείριση μεταδεδομένων, τα στοιχεία ελέγχου πρόσβασης και τα ερωτήματα SQL είναι μερικές μόνο από τις λειτουργίες αποθήκης δεδομένων που η πλατφόρμα υπερέχει στην προσφορά.
Το Snowflake, ωστόσο, περιορίζεται σε μία μόνο σχεσιακή μηχανή αναζήτησης που βασίζεται σε SQL.
Ως αποτέλεσμα, γίνεται απλούστερη η διαχείριση αλλά λιγότερο προσαρμόσιμη, και το όραμα λίμνης δεδομένων πολλαπλών μοντέλων δεν υλοποιείται.
Επιπλέον, προτού γίνει αναζήτηση ή ανάλυση δεδομένων από την αποθήκευση cloud, το Snowflake απαιτεί από τις επιχειρήσεις να τα φορτώσουν σε ένα κεντρικό επίπεδο αποθήκευσης.
Η διαδικασία μη αυτόματης διοχέτευσης δεδομένων απαιτεί προηγούμενη ETL, παροχή και μορφοποίηση δεδομένων για να μπορέσει να εξεταστεί. Η κλιμάκωση αυτών των χειροκίνητων διαδικασιών τις κάνει απογοητευτικές.
Μια άλλη επιλογή που φαίνεται να ταιριάζει καλά στο χαρτί, αλλά στην πραγματικότητα, αποκλίνει από την αρχή της λίμνης δεδομένων της απλής εισαγωγής δεδομένων είναι το data lakehouse του Snowflake.
μαντείο
Η μοντέρνα, ανοιχτή αρχιτεκτονική γνωστή ως "data lakehouse" καθιστά δυνατή την αποθήκευση, κατανόηση και ανάλυση όλων των δεδομένων σας.
Το εύρος και η ευελιξία των πιο δημοφιλών λύσεων ανοιχτού κώδικα δεδομένων λιμνών συνδυάζονται με τη δύναμη και το βάθος των αποθηκών δεδομένων.
Τα νεότερα πλαίσια AI και οι προκατασκευασμένες υπηρεσίες τεχνητής νοημοσύνης μπορούν να χρησιμοποιηθούν με ένα data lakehouse στο Oracle Cloud Infrastructure (OCI).
Είναι εφικτό να εργαστείτε με πρόσθετους τύπους δεδομένων ενώ χρησιμοποιείτε μια λίμνη δεδομένων ανοιχτού κώδικα. Αλλά ο χρόνος και η προσπάθεια που απαιτείται για τη διαχείρισή του μπορεί να είναι ένα επίμονο μειονέκτημα.
Η OCI προσφέρει πλήρως διαχειριζόμενες υπηρεσίες lakehouse ανοιχτού κώδικα σε χαμηλότερες τιμές και με λιγότερη διαχείριση, επιτρέποντάς σας να προβλέψετε χαμηλότερα λειτουργικά έξοδα, καλύτερη επεκτασιμότητα και ασφάλεια και τη δυνατότητα να ενοποιήσετε όλα τα υπάρχοντα δεδομένα σας σε μία τοποθεσία.
Ένα data lakehouse θα αυξήσει την αξία των αποθηκών δεδομένων και των αγορών, που είναι απαραίτητα για επιτυχημένες επιχειρήσεις.
Τα δεδομένα μπορούν να ανακτηθούν χρησιμοποιώντας ένα lakehouse από πολλές τοποθεσίες με ένα μόνο ερώτημα SQL.
Τα υπάρχοντα προγράμματα και εργαλεία λαμβάνουν διαφανή πρόσβαση σε όλα τα δεδομένα χωρίς να απαιτούνται προσαρμογές ή απόκτηση νέων δεξιοτήτων.
Συμπέρασμα
Η εισαγωγή των λύσεων data lakehouse αντικατοπτρίζει μια μεγαλύτερη τάση στα μεγάλα δεδομένα, η οποία είναι η ενσωμάτωση αναλυτικών στοιχείων και αποθήκευσης δεδομένων σε ενοποιημένες πλατφόρμες δεδομένων για τη μεγιστοποίηση της επιχειρηματικής αξίας από τα δεδομένα, μειώνοντας παράλληλα τον χρόνο, το κόστος και την πολυπλοκότητα της εξαγωγής αξίας.
Πλατφόρμες όπως Databricks, Snowflake, Ahana, Dremio και Oracle έχουν όλες συνδεθεί με την ιδέα ενός "data lakehouse", αλλά η καθεμία έχει ένα μοναδικό σύνολο χαρακτηριστικών και μια τάση να λειτουργεί περισσότερο σαν αποθήκη δεδομένων παρά με αληθινή λίμνη δεδομένων. ως σύνολο.
Όταν μια λύση διατίθεται στην αγορά ως "data lakehouse", οι επιχειρήσεις θα πρέπει να είναι προσεκτικές σχετικά με το τι σημαίνει στην πραγματικότητα.
Οι επιχειρήσεις πρέπει να κοιτάξουν πέρα από την ορολογία του μάρκετινγκ, όπως το "data lakehouse" και αντί να εξετάσουν τα χαρακτηριστικά κάθε πλατφόρμας για να επιλέξουν την καλύτερη πλατφόρμα δεδομένων που θα επεκταθεί με τις επιχειρήσεις τους στο μέλλον.
Αφήστε μια απάντηση