Table of Contents[Ferstopje][Toanje]
Data lakehouses kombinearje de data warehouse en data lake konsepten foar bedriuwen.
Dizze ark litte jo kosten-effektive oplossings foar gegevensopslach bouwe troch de behearmooglikheden fan gegevensmarren te kombinearjen mei de gegevensarsjitektuer fûn yn gegevenspakhuzen.
Dêrnjonken is d'r in fermindering fan gegevensmigraasje en oerstalligens, minder tiid wurdt bestege oan administraasje, en koartere skema- en gegevensbestjoersprosedueres wurde eins in realiteit.
Ien gegevens lakehouse hat in protte foardielen yn ferliking mei in opslach systeem mei ferskate oplossings.
Dizze ark wurde noch brûkt troch gegevenswittenskippers om har begryp fan saaklike yntelliginsje en masine-learenprosedueres te ferbetterjen.
Dit artikel sil in flugge blik nimme op data lakehouse, har mooglikheden, en de beskikbere ark.
Ynlieding ta Data Lakehouse
In nij soarte fan gegevensarsjitektuer neamd in "gegevens lakehouse” kombinearret in gegevensmar en in gegevenspakhús om de swakkens fan elk selsstannich oan te pakken.
It lakehouse-systeem, lykas gegevensmarren, brûkt opslach mei lege kosten om enoarme hoemannichten gegevens yn syn oarspronklike foarm te hâlden.
De tafoeging fan in metadatalaach boppe op 'e winkel leveret ek gegevensstruktuer en machtigje ark foar gegevensbehear fergelykber mei dy fûn yn datapakhuzen.
It befettet massive hoemannichten strukturearre, semy-strukturearre en net-strukturearre gegevens krigen fan 'e ferskate saaklike applikaasjes, systemen en apparaten brûkt troch de hiele ûndernimming.
As gefolch, yn tsjinstelling ta gegevensmarren, kin it lakehouse-systeem dizze gegevens beheare en optimalisearje foar SQL-prestaasjes.
It hat ek de mooglikheid om grutte hoemannichten ferskate gegevens op te slaan en te ferwurkjen tsjin in goedkeapere kosten dan gegevenspakhuzen.
In data lakehouse komt goed fan pas as jo elke gegevenstagong of analytyk moatte útfiere tsjin alle gegevens, mar net wis binne fan 'e gegevens as de oanbefellende analytiken.
In lakehouse-arsjitektuer sil goed funksjonearje as prestaasjes net in primêre soarch binne.
Dat betsjut net dat jo jo hiele struktuer moatte basearje op in marrenhûs.
Mear ynformaasje oer hoe't jo in gegevensmar, marehûs, gegevenspakhús, as spesjalisearre analytyske databank kinne selektearje foar elk gebrûk is te finen hjir.
Skaaimerken fan Data Lakehouse
- Tagelyk gegevens lêzen en skriuwen
- Oanpassingsfermogen en skalberens
- Skema-assistint mei ark foar gegevensbestjoer
- Tagelyk gegevens lêzen en skriuwen
- Opslach dat is betelber
- Alle gegevenstypen en bestânsformaten wurde stipe.
- Tagong ta datawittenskip en ark foar masine learen dy't optimalisearre is
- Jo gegevensteams sille profitearje fan tagong ta mar ien systeem om workloads rapper en krekter troch it oer te dragen.
- Real-time mooglikheden foar inisjativen yn gegevenswittenskip, masine learen, en analytyk
Top 5 Data Lakehouse ark
Databriken
Databricks, dat waard oprjochte troch de persoan dy't earst ûntwikkele Apache Spark en makke it iepen Boarne, biedt in beheare Apache Spark-tsjinst en is gepositioneerd as platfoarm foar gegevensmarren.
De gegevensmar, deltamar en deltamotorkomponinten fan 'e Databricks lakehouse-arsjitektuer meitsje saaklike yntelliginsje, gegevenswittenskip en gebrûk fan masine learen mooglik.
De gegevensmar is in iepenbiere wolkopslachbewarring.
Mei stipe foar metadatabehear, batch- en streamgegevensferwurking foar multystrukturearre datasets, gegevensûntdekking, feilige tagongskontrôles en SQL-analytyk.
Databricks biedt de measte fan 'e funksjes foar gegevensopslach dy't jo kinne ferwachtsje te sjen yn in data-lakehouse-platfoarm.
Databricks ûntbleate koartlyn syn Auto Loader, dy't ETL en gegevensynfier automatisearret en gegevenssampling brûkt om it skema foar in ferskaat oan gegevenstypen ôf te lieden, om de essensjele komponinten fan 'e strategy foar opslach fan gegevensmar te leverjen.
As alternatyf kinne brûkers ETL-pipelines bouwe tusken har iepenbiere wolkgegevensmar en Delta Lake mei Delta Live Tables.
Op papier liket Databricks alle foardielen te hawwen, mar it opsetten fan de oplossing en it meitsjen fan syn gegevenspipelines fereasket in protte minsklike arbeid fan betûfte ûntwikkelders.
Op skaal wurdt it antwurd ek komplekser. It is yngewikkelder dan it liket.
Ahana
In gegevensmar is in inkele, sintrale lokaasje wêr't jo elk type gegevens kinne opslaan dat jo kieze op skaal, ynklusyf net-strukturearre en struktureare gegevens. AWS S3, Microsoft Azure, en Google Cloud Storage binne trije mienskiplike gegevensmarren.
Data marren binne ongelooflijk goed-liked omdat se binne hiel betelber en ienfâldich te brûken; jo kinne yn essinsje safolle fan alle soarten gegevens opslaan as jo wolle foar heul lyts jild.
Mar de gegevensmar biedt gjin ynboude ark lykas analytics, query, ensfh.
Jo hawwe in querymotor en gegevenskatalogus nedich boppe op 'e gegevensmar (wêr't Ahana Cloud ynkomt) om jo gegevens te freegjen en te brûken.
Mei it bêste fan sawol it Data Warehouse as it Data Lake, is in nij datamarehouse-ûntwerp ûntwikkele.
Dit jout oan dat it is transparant, oanpasber, hat goede priis / prestaasjes, skalen as in gegevens mar stipet transaksjes, en hat in heech nivo fan feiligens te fergelykjen mei in data warehouse.
Jo hege prestaasjes SQL-query-motor is de harsens efter it Data Lakehouse. Hjirtroch kinne jo analytiken mei hege prestaasjes útfiere op jo gegevens mar.
Ahana Cloud foar Presto is SaaS foar Presto op AWS, wêrtroch it ongelooflijk ienfâldich is om Presto yn 'e wolk te brûken.
Foar jo S3-basearre gegevensmar hat Ahana al in ynboude gegevenskatalogus en caching. Ahana jout jo Presto's funksjes sûnder dat jo de overhead hoege te behanneljen, om't it it yntern docht.
AWS Lake Formation, Apache Hudi, en Delta Lake binne mar in pear fan 'e transaksjebehearders dy't diel útmeitsje fan' e stapel en dêrmei yntegrearje.
Dremio
Organisaasjes besykje om rap, ienfâldich en effisjint massale hoemannichten rap tanimmende gegevens te evaluearjen.
Dremio is fan betinken dat in iepen gegevensmarehouse de foardielen fan gegevensmarren en gegevenspakhuzen kombineart op in iepen basis de bêste oanpak is om dit te berikken.
Dremio's lakehouse-platfoarm biedt in ûnderfining dy't foar elkenien wurket, mei in maklike UI wêrmei brûkers analyses yn in fraksje fan 'e tiid kinne foltôgje.
Dremio Cloud, in folslein beheard data lakehouse-platfoarm, en de lansearring fan twa nije tsjinsten: Dremio Sonar, in lakehouse-fraachmotor, en Dremio Arctic, in yntelliginte megastore foar Apache Iceberg dy't in unike Git-like ûnderfining leveret foar it lakehouse.
Alle SQL-workloads fan in organisaasje kinne wurde útfierd op it wrijvingsleaze, einleaze skalberbere Dremio Cloud-platfoarm, dat ek gegevensbeheartaken automatisearret.
It is boud foar SQL, biedt in Git-like ûnderfining, is iepen boarne, en is altyd fergees.
Se makken it om it lakehouse-platfoarm te wêzen dat datateams oanbidde.
Mei it brûken fan iepen boarne tabel- en bestânsformaten lykas Apache Iceberg en Apache Parquet, binne jo gegevens persistint yn jo eigen gegevensmar opslach by it brûken fan Dremio Cloud.
Takomstige ynnovaasjes kinne maklik wurde oannommen, en de juste motor kin wurde keazen op basis fan jo wurkdruk.
Snowflake
Snowflake is in platfoarm foar wolkgegevens en analytyk dat kin foldwaan oan 'e behoeften fan gegevensmarren en pakhuzen.
It begon as in data warehouse-systeem boud op wolkynfrastruktuer.
It platfoarm bestiet út in sintralisearre opslachrepository dy't boppe op iepenbiere wolkopslach sit fan AWS, Microsoft Azure, of Google Cloud Platform (GCP).
Folgjende is in multi-cluster berekkening laach, dêr't brûkers kinne starte in firtuele gegevens warehouse en útfiere SQL-fragen tsjin harren gegevens opslach.
De arsjitektuer makket it mooglik om opslach- en berekkeningsboarnen te ûntkoppelen, wêrtroch organisaasjes de twa selsstannich kinne skaalje as nedich.
Uteinlik leveret Snowflake in tsjinstlaach mei metadata-kategorisearring, boarnebehear, gegevensbestjoer, transaksjes en oare funksjes.
BI-arkferbiningen, metadatabehear, tagongskontrôles en SQL-fragen binne mar in pear fan 'e data warehouse-funksjonaliteit dy't it platfoarm útblinkt by it oanbieden.
Snowflake is lykwols beheind ta ien relasjonele SQL-basearre querymotor.
As gefolch wurdt it ienfâldiger om te administrearjen, mar minder oanpasber, en wurdt de fyzje fan multi-model gegevensmar net realisearre.
Derneist, foardat gegevens fan wolkopslach kinne wurde socht of analysearre, fereasket Snowflake bedriuwen om it yn in sintralisearre opslachlaach te laden.
De proseduere foar hânlieding foar gegevenspipelining fereasket foarôfgeande ETL, foarsjenning en gegevensopmaak foardat it kin wurde ûndersocht. Skaalfergrutting fan dizze hânmjittige prosessen makket se frustrerend.
In oare opsje dy't op papier in goede fit liket te wêzen, mar yn feite ôfwiket fan it gegevensmarprinsipe fan ienfâldige gegevensynfier is Snowflake's gegevensmarehouse.
Oracle
Moderne, iepen arsjitektuer bekend as in "data lakehouse" makket it mooglik om al jo gegevens op te slaan, te begripen en te analysearjen.
De breedte en fleksibiliteit fan 'e iepen boarne datamare-oplossingen wurde kombinearre mei de sterkte en djipte fan datapakhuzen.
De nijste AI-kaders en foarboude AI-tsjinsten kinne brûkt wurde mei in gegevensmarehouse op Oracle Cloud Infrastructure (OCI).
It is mooglik om te wurkjen mei ekstra soarten gegevens by it brûken fan in iepen boarne gegevensmar. Mar de tiid en muoite nedich om it te behearjen kin in oanhâldend nadeel wêze.
OCI biedt folslein beheare iepen boarne lakehouse-tsjinsten tsjin legere tariven en mei minder behear, sadat jo kinne antisipearje op legere operasjonele útjeften, bettere skalberens en feiligens, en de kapasiteit om al jo besteande gegevens op ien lokaasje te konsolidearjen.
In data lakehouse sil de wearde ferheegje fan datapakhuzen en maart, dy't essensjeel binne foar suksesfolle bedriuwen.
Gegevens kinne wurde ophelle mei help fan in lakehouse út ferskate lokaasjes mei mar ien SQL query.
Besteande programma's en ark krije transparante tagong ta alle gegevens sûnder oanpassingen te fereaskje of nije feardigens te krijen.
Konklúzje
De ynfiering fan data lakehouse oplossings is in wjerspegeling fan in gruttere trend yn grutte gegevens, dat is de yntegraasje fan analytics en gegevens opslach yn unifoarme gegevens platfoarms te maksimalisearjen saaklike wearde út gegevens wylst ferleegjen de tiid, kosten, en kompleksiteit fan wearde winning.
Platfoarmen ynklusyf Databricks, Snowflake, Ahana, Dremio en Oracle binne allegear keppele oan it idee fan in "data lakehouse", mar se hawwe elk in unike set fan funksjes en in oanstriid om mear te funksjonearjen as in data warehouse dan in echte data mar in it gehiel.
As in oplossing wurdt ferkocht as in "data lakehouse," bedriuwen moatte wêze warskôge foar wat it eins betsjut.
Bedriuwen moatte fierder sjen as marketingjargon lykas "data lakehouse" en ynstee sjogge nei de funksjes fan elk platfoarm om it bêste gegevensplatfoarm te selektearjen dat yn 'e takomst sil útwreidzje mei har bedriuwen.
Leave a Reply