Datameerhuise kombineer die datapakhuis- en datameerkonsepte vir besighede.
Hierdie instrumente laat jou toe om kostedoeltreffende databergingsoplossings te bou deur die bestuursvermoëns van datamere te kombineer met die data-argitektuur wat in datapakhuise gevind word.
Boonop is daar 'n vermindering in datamigrasie en oortolligheid, minder tyd word aan administrasie bestee, en korter skema- en databestuursprosedures word eintlik 'n werklikheid.
Een datameerhuis het baie voordele in vergelyking met 'n stoorstelsel met verskeie oplossings.
Hierdie instrumente word steeds deur datawetenskaplikes gebruik om hul begrip van besigheidsintelligensie en masjienleerprosedures te verbeter.
Hierdie artikel sal vinnig kyk na data lakehouse, sy vermoëns en die beskikbare gereedskap.
Inleiding tot Data Lakehouse
'n Nuwe soort data-argitektuur genoem 'n "data lakehouse” kombineer 'n datameer en 'n datapakhuis om die swakhede van elkeen onafhanklik aan te spreek.
Die meerhuisstelsel, soos datamere, gebruik laekosteberging om groot hoeveelhede data in sy oorspronklike vorm te hou.
Die byvoeging van 'n metadatalaag bo-op die winkel bied ook datastruktuur en bemagtig databestuurnutsmiddels soortgelyk aan dié wat in datapakhuise voorkom.
Dit bevat massiewe hoeveelhede gestruktureerde, semi-gestruktureerde en ongestruktureerde data verkry uit die verskillende besigheidstoepassings, stelsels en toestelle wat regdeur die onderneming gebruik word.
As gevolg hiervan, anders as data-mere, kan die lakehouse-stelsel daardie data bestuur en optimaliseer vir SQL-werkverrigting.
Dit het ook die vermoë om groot hoeveelhede uiteenlopende data te stoor en te verwerk teen 'n goedkoper koste as datapakhuise.
'n Data Lakehouse kom handig te pas wanneer jy enige datatoegang of ontledings teen enige data moet uitvoer, maar onseker is oor die data of die aanbevole analise.
'N Lakehouse-argitektuur sal redelik goed funksioneer as prestasie nie 'n primêre bekommernis is nie.
Dit beteken nie dat jy jou hele struktuur op 'n meerhuis moet baseer nie.
Meer inligting oor hoe om 'n datameer, meerhuis, datapakhuis of gespesialiseerde ontledingsdatabasis vir elke gebruiksgeval te kies, kan gevind word na hierdie skakel.
Kenmerke van Data Lakehouse
- Gelyktydige data lees en skryf
- Aanpasbaarheid en skaalbaarheid
- Skemabystand met databestuursinstrumente
- Gelyktydige data lees en skryf
- Berging wat bekostigbaar is
- Alle datatipes en lêerformate word ondersteun.
- Toegang tot datawetenskap en masjienleerinstrumente wat geoptimaliseer is
- Jou dataspanne sal baat by toegang tot net een stelsel om werkladings vinniger en akkurater daardeur oor te dra.
- Intydse vermoëns vir inisiatiewe in datawetenskap, masjienleer en analise
Top 5 Data Lakehouse gereedskap
Datablaaie
Databricks, wat gestig is deur die persoon wat Apache Spark eers ontwikkel en gemaak het open source, bied 'n bestuurde Apache Spark-diens en is geposisioneer as 'n platform vir data-mere.
Die datameer-, deltameer- en delta-enjinkomponente van die Databricks-meerhuisargitektuur maak sake-intelligensie, datawetenskap en masjienleergebruiksgevalle moontlik.
Die datameer is 'n openbare wolkbergingbewaarplek.
Met ondersteuning vir metadatabestuur, bondel- en stroomdataverwerking vir multi-gestruktureerde datastelle, data-ontdekking, veilige toegangskontroles en SQL-analise.
Databricks bied die meeste van die datapakhuisfunksies wat 'n mens kan verwag om in 'n datameerhuisplatform te sien.
Databricks het onlangs sy Auto Loader onthul, wat ETL en data-invoer outomatiseer en datasteekproefneming gebruik om die skema vir 'n verskeidenheid datatipes af te lei, om die noodsaaklike komponente van die datameer-bergingstrategie te lewer.
Alternatiewelik kan gebruikers ETL-pypleidings tussen hul publieke wolkdatameer en Delta Lake bou deur Delta Live Tables te gebruik.
Op papier blyk dit dat Databricks al die voordele het, maar om die oplossing op te stel en sy datapyplyne te skep, verg baie menslike arbeid van bekwame ontwikkelaars.
Op skaal word die antwoord ook meer kompleks. Dit is meer ingewikkeld as wat dit lyk.
Ahana
'n Datameer is 'n enkele, sentrale plek waar jy enige tipe data wat jy kies op skaal kan stoor, insluitend ongestruktureerde en gestruktureerde data. AWS S3, Microsoft Azure en Google Cloud Storage is drie algemene data-mere.
Data mere is ongelooflik gewild omdat hulle baie bekostigbaar en maklik is om te gebruik; jy kan in wese soveel van enige tipe data stoor as wat jy wil vir baie min geld.
Maar die datameer bied nie ingeboude gereedskap soos analise, navraag, ens.
Jy benodig 'n navraagenjin en datakatalogus bo-op die datameer (waar Ahana Cloud inkom) om jou data te bevraagteken en dit te gebruik.
Met die beste van beide die Data Warehouse en die Data Lake, het 'n nuwe data-meerhouse-ontwerp ontwikkel.
Dit dui daarop dat dit deursigtig, aanpasbaar is, goeie prys/prestasie het, skale soos 'n datameer transaksies ondersteun en 'n hoë vlak van sekuriteit het wat vergelykbaar is met 'n datapakhuis.
Jou hoëprestasie SQL-navraag-enjin is die brein agter die Data Lakehouse. As gevolg hiervan kan u hoëprestasie-ontledings op u datameerdata uitvoer.
Ahana Cloud for Presto is SaaS vir Presto op AWS, wat dit ongelooflik eenvoudig maak om Presto in die wolk te begin gebruik.
Vir jou S3-gebaseerde datameer het Ahana reeds 'n ingeboude datakatalogus en kas. Ahana gee jou Presto se kenmerke sonder dat jy die oorhoofse koste moet hanteer, want dit doen dit intern.
AWS Lake Formation, Apache Hudi en Delta Lake is net 'n paar van die transaksiebestuurders wat deel van die stapel is en daarmee integreer.
Dremio
Organisasies poog om vinnig, eenvoudig en doeltreffend massiewe hoeveelhede vinnig stygende data te evalueer.
Dremio glo dat 'n oop datameerhuis die voordele van datamere kombineer en datapakhuise op 'n oop basis die beste benadering is om dit te bereik.
Dremio se lakehouse-platform bied 'n ervaring wat vir almal werk, met 'n maklike UI wat gebruikers in staat stel om ontledings in 'n fraksie van die tyd te voltooi.
Dremio Cloud, 'n volledig bestuurde datameerhuisplatform, en die bekendstelling van twee nuwe dienste: Dremio Sonar, 'n meerhuisnavraagenjin, en Dremio Arctic, 'n intelligente megawinkel vir Apache Iceberg wat 'n unieke Git-agtige ervaring vir die meerhuis bied.
Al 'n organisasie se SQL-werkladings kan op die wrywinglose, eindeloos skaalbare Dremio Cloud-platform uitgevoer word, wat ook databestuurstake outomatiseer.
Dit is gebou vir SQL, bied 'n Git-agtige ervaring, is oopbron, en is altyd gratis.
Hulle het dit geskep om die meerhuisplatform te wees wat dataspanne aanbid.
Deur gebruik te maak van oopbrontabel- en lêerformate soos Apache Iceberg en Apache Parquet, is jou data aanhoudend in jou eie datameerberging wanneer jy Dremio Cloud gebruik.
Toekomstige innovasies kan maklik aangeneem word, en die regte enjin kan gekies word op grond van jou werklading.
Snowflake
Snowflake is 'n wolkdata- en -analiseplatform wat aan datamere en pakhuise se behoeftes kan voldoen.
Dit het begin as 'n datapakhuisstelsel wat op wolkinfrastruktuur gebou is.
Die platform bestaan uit 'n gesentraliseerde bergingbewaarplek wat bo-op openbare wolkberging van AWS, Microsoft Azure of Google Cloud Platform (GCP) sit.
Daarna volg 'n multi-kluster-berekeningslaag, waar gebruikers 'n virtuele datapakhuis kan begin en SQL-navrae teen hul databerging kan doen.
Die argitektuur maak voorsiening vir die ontkoppeling van berging- en berekeningshulpbronne, wat organisasies in staat stel om die twee onafhanklik te skaal soos nodig.
Laastens bied Snowflake 'n dienslaag met metadatakategorisering, hulpbronbestuur, databestuur, transaksies en ander kenmerke.
BI-nutsmiddelverbindings, metadatabestuur, toegangskontroles en SQL-navrae is net 'n paar van die datapakhuisfunksionaliteit wat die platform uitstekend bied.
Snowflake is egter beperk tot 'n enkele relasionele SQL-gebaseerde navraag-enjin.
As gevolg hiervan word dit makliker om te administreer, maar minder aanpasbaar, en die multi-model datameer-visie word nie verwesenlik nie.
Boonop, voordat data van wolkberging deursoek of ontleed kan word, vereis Snowflake dat besighede dit in 'n gesentraliseerde bergingslaag laai.
Die handmatige datapyplynprosedure vereis vooraf ETL, voorsiening en dataformatering voordat dit ondersoek kan word. Om hierdie handmatige prosesse op te skaal maak dit frustrerend.
Nog 'n opsie wat op papier goed pas, maar in werklikheid afwyk van die datameer-beginsel van eenvoudige data-invoer, is Snowflake se datameerhuis.
Oracle
Moderne, oop argitektuur bekend as 'n "datameerhuis" maak dit moontlik om al jou data te stoor, te begryp en te ontleed.
Die wydte en buigsaamheid van die oopbron-datameer-oplossings wat die meeste gewild is, word gekombineer met die sterkte en diepte van datapakhuise.
Die nuutste KI-raamwerke en voorafgeboude KI-dienste kan saam met 'n datameerhuis op Oracle Cloud Infrastructure (OCI) gebruik word.
Dit is haalbaar om met bykomende tipes data te werk terwyl jy 'n oopbron-datameer gebruik. Maar die tyd en moeite wat nodig is om dit te bestuur, kan 'n aanhoudende nadeel wees.
OCI bied volledig bestuurde oopbron-meerhuisdienste teen laer tariewe en met minder bestuur, wat u toelaat om laer operasionele uitgawes, beter skaalbaarheid en sekuriteit te voorsien, en die vermoë om al u bestaande data op een plek te konsolideer.
'n Data-meerhuis sal die waarde van datapakhuise en -markte verhoog, wat noodsaaklik is vir suksesvolle ondernemings.
Data kan herwin word met behulp van 'n meerhuis vanaf verskeie plekke met net een SQL-navraag.
Bestaande programme en gereedskap kry deursigtige toegang tot alle data sonder om aanpassings te vereis of nuwe vaardighede aan te leer.
Gevolgtrekking
Die bekendstelling van data lakehouse-oplossings is 'n weerspieëling van 'n groter neiging in groot data, wat die integrasie van analise en databerging in verenigde dataplatforms is om besigheidswaarde uit data te maksimeer, terwyl die tyd, koste en kompleksiteit van waarde-onttrekking verlaag word.
Platforms, insluitend Databricks, Snowflake, Ahana, Dremio en Oracle, is almal gekoppel aan die idee van 'n "datameerhuis", maar hulle het elkeen 'n unieke stel kenmerke en 'n neiging om meer soos 'n datapakhuis as 'n ware datameer te funksioneer as 'n geheel.
Wanneer 'n oplossing as 'n "datameerhuis" bemark word, moet besighede versigtig wees vir wat dit eintlik beteken.
Ondernemings moet verder kyk as bemarkingsjargon soos “data lakehouse” en eerder na elke platform se kenmerke kyk om die beste dataplatform te kies wat in die toekoms saam met hul besighede sal uitbrei.
Lewer Kommentaar