Datu ezeru mājas apvieno datu noliktavas un datu ezera koncepcijas uzņēmumiem.
Šie rīki ļauj jums izveidot rentablus datu glabāšanas risinājumus, apvienojot datu ezeru pārvaldības iespējas ar datu arhitektūru, kas atrodama datu noliktavās.
Turklāt tiek samazināta datu migrācija un dublēšana, tiek patērēts mazāk laika administrēšanai, un īsākas shēmas un datu pārvaldības procedūras faktiski kļūst par realitāti.
Vienai datu ezeram ir daudz priekšrocību salīdzinājumā ar uzglabāšanas sistēmu ar vairākiem risinājumiem.
Šos rīkus joprojām izmanto datu zinātnieki, lai uzlabotu izpratni par biznesa inteliģenci un mašīnmācīšanās procedūrām.
Šajā rakstā tiks apskatīts datu ezera nams, tā iespējas un pieejamie rīki.
Ievads Data Lakehouse
Jauna veida datu arhitektūra, ko sauc par "datu ezera māja” apvieno datu ezeru un datu noliktavu, lai atsevišķi novērstu katras nepilnības.
Lakehouse sistēma, tāpat kā datu ezeri, izmanto zemu izmaksu krātuvi, lai saglabātu milzīgus datu apjomus sākotnējā formā.
Metadatu slāņa pievienošana veikala augšpusē nodrošina arī datu struktūru un nodrošina datu pārvaldības rīkus, kas ir līdzīgi tiem, kas atrodami datu noliktavās.
Tas satur milzīgu daudzumu strukturētu, daļēji strukturētu un nestrukturētu datu, kas iegūti no dažādām biznesa lietojumprogrammām, sistēmām un ierīcēm, kuras tiek izmantotas visā uzņēmumā.
Tā rezultātā atšķirībā no datu ezeriem Lakehouse sistēma var pārvaldīt un optimizēt šos datus SQL veiktspējai.
Tam ir arī iespēja uzglabāt un apstrādāt lielu daudzumu dažādu datu par lētāku cenu nekā datu noliktavas.
Datu ezera nams ir noderīgs, ja nepieciešams veikt jebkādu datu piekļuvi vai analīzi, salīdzinot ar jebkuriem datiem, bet neesat pārliecināts par datiem vai ieteicamo analīzi.
Ezera mājas arhitektūra darbosies diezgan labi, ja veiktspēja nav galvenā problēma.
Tas nenozīmē, ka visa struktūra ir jābalsta uz ezera māju.
Papildinformāciju par to, kā izvēlēties datu ezeru, ezeru, datu noliktavu vai specializētu analītikas datu bāzi katram lietošanas gadījumam, varat atrast. šeit.
Data Lakehouse iezīmes
- Vienlaicīga datu lasīšana un rakstīšana
- Pielāgojamība un mērogojamība
- Shēmas palīdzība ar datu pārvaldības rīkiem
- Vienlaicīga datu lasīšana un rakstīšana
- Uzglabāšana par pieņemamu cenu
- Tiek atbalstīti visi datu tipi un failu formāti.
- Piekļuve datu zinātnes un mašīnmācīšanās rīkiem, kas ir optimizēta
- Jūsu datu komandas gūs labumu no piekļuves tikai vienai sistēmai, lai ātrāk un precīzāk pārsūtītu darba slodzes caur to.
- Reāllaika iespējas datu zinātnes, mašīnmācības un analītikas iniciatīvām
5 populārākie Data Lakehouse rīki
Datu ķieģeļi
Databricks, kuru dibināja persona, kas pirmo reizi izstrādāja Apache Spark un to izveidoja atvērtā koda, nodrošina pārvaldītu Apache Spark pakalpojumu un ir pozicionēta kā datu ezeru platforma.
Databricks Lakehouse arhitektūras datu ezera, delta ezera un delta dzinēja komponenti nodrošina biznesa inteliģences, datu zinātnes un mašīnmācīšanās lietošanas gadījumus.
Datu ezers ir publiska mākoņu krātuves repozitorijs.
Ar atbalstu metadatu pārvaldībai, pakešu un straumes datu apstrādei daudzstrukturētām datu kopām, datu atrašanai, drošas piekļuves vadīklām un SQL analītikai.
Databricks piedāvā lielāko daļu datu noliktavas funkciju, ko varētu sagaidīt datu ezera platformā.
Databricks nesen iepazīstināja ar savu Auto Loader, kas automatizē ETL un datu ievadi un izmanto datu paraugu ņemšanu, lai secinātu shēmu dažādiem datu tipiem, lai nodrošinātu datu ezera uzglabāšanas stratēģijas būtiskos komponentus.
Lietotāji var arī izveidot ETL cauruļvadus starp savu publisko mākoņdatu ezeru un Delta ezeru, izmantojot Delta Live Tables.
Šķiet, ka uz papīra Databricks ir visas priekšrocības, taču risinājuma iestatīšana un tā datu konveijera izveide prasa daudz kvalificētu izstrādātāju darbaspēka.
Mērogā atbilde kļūst arī sarežģītāka. Tas ir sarežģītāk, nekā šķiet.
Ahana
Datu ezers ir viena, centrālā vieta, kurā varat glabāt jebkura veida datus, ko izvēlaties, tostarp nestrukturētus un strukturētus datus. AWS S3, Microsoft Azure un Google Cloud Storage ir trīs izplatīti datu ezeri.
Datu ezeri ir neticami iecienīti, jo tie ir ļoti pieņemami un vienkārši lietojami; būtībā jūs varat uzglabāt tik daudz jebkura veida datu, cik vēlaties, par ļoti nelielu naudu.
Taču datu ezers nepiedāvā iebūvētus rīkus, piemēram, analīzi, vaicājumus utt.
Lai veiktu datu vaicājumus un izmantotu tos, ir nepieciešams vaicājumu dzinējs un datu katalogs datu ezera augšpusē (kur tiek izmantots Ahana Cloud).
Izmantojot labāko no datu noliktavas un datu ezera, ir izstrādāts jauns datu ezera dizains.
Tas norāda, ka tas ir caurspīdīgs, pielāgojams, tam ir laba cena/veiktspēja, mērogs kā datu ezers atbalsta darījumus, un tam ir augsts drošības līmenis, kas ir salīdzināms ar datu noliktavu.
Jūsu augstas veiktspējas SQL vaicājumu dzinējs ir Data Lakehouse prāts. Tādēļ varat veikt augstas veiktspējas analīzi saviem datu ezera datiem.
Ahana Cloud for Presto ir SaaS for Presto AWS, padarot to neticami vienkāršu sākt lietot Presto mākonī.
Jūsu uz S3 balstītam datu ezeram Ahanā jau ir iebūvēts datu katalogs un kešatmiņa. Ahana sniedz jums Presto funkcijas, neprasot jums rīkoties ar pieskaitāmajām izmaksām, jo tas tiek darīts iekšēji.
AWS Lake Formation, Apache Hudi un Delta Lake ir tikai daži no darījumu pārvaldniekiem, kas ir daļa no steka un integrējas ar to.
Dremio
Organizācijas cenšas ātri, vienkārši un efektīvi novērtēt milzīgu daudzumu strauji augošu datu.
Dremio uzskata, ka atvērto datu ezeru nams apvieno datu ezeru un datu noliktavu priekšrocības atklātā veidā, ir labākā pieeja, lai to paveiktu.
Dremio Lakehouse platforma nodrošina pieredzi, kas ir piemērota ikvienam, ar vienkāršu lietotāja interfeisu, kas ļauj lietotājiem veikt analīzi niecīgā laika daļā.
Dremio Cloud, pilnībā pārvaldīta datu ezera mājas platforma, un divu jaunu pakalpojumu palaišana: Dremio Sonar, Lakehouse vaicājumu dzinējs, un Dremio Arctic, viedais lielveikals Apache Iceberg, kas nodrošina unikālu Git līdzīgu pieredzi ezeram.
Visas organizācijas SQL darba slodzes var darbināt bezrūpīgajā, bezgalīgi mērogojamajā Dremio Cloud platformā, kas arī automatizē datu pārvaldības uzdevumus.
Tas ir izstrādāts SQL, piedāvā Git līdzīgu pieredzi, ir atvērts avots un vienmēr ir bezmaksas.
Viņi to izveidoja kā ezera mājas platformu, ko datu komandas dievina.
Izmantojot atvērtā koda tabulu un failu formātus, piemēram, Apache Iceberg un Apache Parquet, jūsu dati tiek pastāvīgi saglabāti jūsu datu ezera krātuvē, kad izmantojat Dremio Cloud.
Nākotnes inovācijas var viegli pārņemt, un atbilstošu dzinēju var izvēlēties, pamatojoties uz jūsu darba slodzi.
Sniega pārsla
Snowflake ir mākoņdatu un analītikas platforma, kas var apmierināt datu ezeru un noliktavu vajadzības.
Tā sākās kā datu noliktavas sistēma, kas balstīta uz mākoņa infrastruktūru.
Platforma sastāv no centralizētas krātuves repozitorija, kas atrodas virs publiskās mākoņkrātuves no AWS, Microsoft Azure vai Google Cloud Platform (GCP).
Pēc tam ir vairāku klasteru skaitļošanas slānis, kurā lietotāji var palaist virtuālo datu noliktavu un veikt SQL vaicājumus pret savu datu krātuvi.
Arhitektūra ļauj atsaistīt krātuves un skaitļošanas resursus, ļaujot organizācijām pēc vajadzības neatkarīgi mērogot abus.
Visbeidzot, Snowflake nodrošina pakalpojumu slāni ar metadatu kategorizēšanu, resursu pārvaldību, datu pārvaldību, darījumiem un citām funkcijām.
BI rīku savienotāji, metadatu pārvaldība, piekļuves kontrole un SQL vaicājumi ir tikai dažas no datu noliktavas funkcionalitātēm, ko platforma piedāvā izcili.
Tomēr Snowflake var izmantot tikai vienu relāciju SQL vaicājumu dzinēju.
Tā rezultātā tas kļūst vienkāršāk administrējams, bet mazāk pielāgojams, un vairāku modeļu datu ezera vīzija netiek realizēta.
Turklāt, pirms var meklēt vai analizēt datus no mākoņkrātuves, Snowflake pieprasa uzņēmumiem tos ielādēt centralizētā krātuves slānī.
Manuālajai datu konveijera procedūrai ir nepieciešama iepriekšēja ETL, nodrošināšana un datu formatēšana, lai to varētu pārbaudīt. Šo manuālo procesu palielināšana padara tos nomāktus.
Vēl viena iespēja, kas šķiet labi piemērota uz papīra, bet patiesībā atšķiras no vienkāršas datu ievades datu ezera principa, ir Snowflake datu ezera māja.
Orākuls
Mūsdienīga, atvērta arhitektūra, kas pazīstama kā “datu ezera māja”, ļauj uzglabāt, izprast un analizēt visus jūsu datus.
Vispopulārāko atvērtā pirmkoda datu ezera risinājumu plašums un elastība ir apvienoti ar datu noliktavu spēku un dziļumu.
Jaunākās AI ietvarus un iepriekš izveidotos AI pakalpojumus var izmantot ar datu ezeru Oracle Cloud Infrastructure (OCI).
Izmantojot atvērtā koda datu ezeru, ir iespējams strādāt ar papildu datu veidiem. Bet laiks un pūles, kas nepieciešamas, lai to pārvaldītu, varētu būt pastāvīgs trūkums.
OCI piedāvā pilnībā pārvaldītus atvērtā koda ezera mājas pakalpojumus par zemākām likmēm un ar mazāku pārvaldību, ļaujot jums paredzēt zemākus darbības izdevumus, labāku mērogojamību un drošību, kā arī spēju konsolidēt visus esošos datus vienā vietā.
Datu ezera nams palielinās datu noliktavu un tirgu vērtību, kas ir būtiskas veiksmīgam uzņēmumam.
Datus var izgūt, izmantojot ezera māju no vairākām vietām, tikai ar vienu SQL vaicājumu.
Esošās programmas un rīki saņem pārredzamu piekļuvi visiem datiem, neprasot korekcijas vai jaunu prasmju apguvi.
Secinājumi
Data Lakehouse risinājumu ieviešana atspoguļo lielāku tendenci lielo datu jomā, kas ir analītikas un datu uzglabāšanas integrācija vienotās datu platformās, lai maksimāli palielinātu datu biznesa vērtību, vienlaikus samazinot vērtības iegūšanas laiku, izmaksas un sarežģītību.
Platformas, tostarp Databricks, Snowflake, Ahana, Dremio un Oracle, ir saistītas ar ideju par “datu ezeru”, taču katrai no tām ir unikāls funkciju kopums un tendence darboties vairāk kā datu noliktava, nevis īsts datu ezers. kopumā.
Kad risinājums tiek tirgots kā “datu ezera māja”, uzņēmumiem vajadzētu būt uzmanīgiem, ko tas patiesībā nozīmē.
Uzņēmumiem ir jāskatās tālāk par mārketinga žargonu, piemēram, “datu ezera nams”, un tā vietā ir jāizpēta katras platformas funkcijas, lai izvēlētos labāko datu platformu, kas nākotnē paplašināsies līdz ar viņu uzņēmējdarbību.
Atstāj atbildi