Spoločnosti získavajú viac údajov ako kedykoľvek predtým, pretože sa na ne stále viac spoliehajú pri informovaní o dôležitých obchodných rozhodnutiach, rozšírení ponuky produktov a poskytovaní lepších služieb zákazníkom.
S množstvom údajov, ktoré sa vytvára exponenciálnym tempom, cloud ponúka niekoľko výhod na spracovanie a analýzu údajov vrátane škálovateľnosti, spoľahlivosti a dostupnosti.
V cloudovom ekosystéme existuje aj niekoľko nástrojov a technológií na spracovanie a analýzu dát. Dva typy štruktúr ukladania veľkých dát, ktoré sa najčastejšie využívajú, sú dátové sklady a dátové jazerá.
Aj keď je využitie dátového jazera menej príťažlivé, pretože nemôžete dopytovať model a údaje, kým sú stále relevantné, použitie dátového skladu na streamovanie dát je zbytočné.
Waký typ cloudovej architektúry si vyberieme?
Mali by sme zvážiť novšie koncepty dátového jazera, alebo by sme sa mali uspokojiť s obmedzeniami skladu alebo obmedzeniami jazera?
Nová architektúra ukladania údajov nazývaná „data lakehouse“ kombinuje prispôsobivosť dátových jazier so správou dátových skladov.
Pochopenie rôznych metód ukladania veľkých údajov je nevyhnutné na vybudovanie spoľahlivého kanála na ukladanie údajov pre business intelligence (BI), analýzu údajov a strojové učenie (ML) pracovné zaťaženie v závislosti od požiadaviek vašej spoločnosti.
V tomto príspevku sa podrobne pozrieme na Data Warehouse, Data Lake a Data Lakehouse s ich výhodami, obmedzeniami, ako aj ich výhodami a nevýhodami. Poďme začať.
Čo je to Data Warehouse?
Dátový sklad je centralizované úložisko údajov, ktoré organizácia používa na uchovávanie obrovských objemov údajov z mnohých zdrojov. Dátový sklad funguje ako jediný zdroj „pravdivosti údajov“ v organizácii a je nevyhnutný pre reporting a obchodnú analýzu.
Dátové sklady zvyčajne kombinujú relačné množiny údajov z niekoľkých zdrojov, ako sú aplikačné, obchodné a transakčné údaje, na ukladanie historických údajov. Údaje sa pred načítaním do skladového systému transformujú a vyčistia v dátových skladoch, aby mohli byť použité ako jediný zdroj pravdivosti údajov.
Firmy investujú do dátových skladov vďaka svojej schopnosti rýchlo ponúkať obchodné poznatky zo všetkých oblastí spoločnosti. S využitím nástrojov BI, klientov SQL a iných menej sofistikovaných analytických riešení (t. j. bez vedy o údajoch), obchodní analytici, dátoví inžinieri a osoby s rozhodovacou právomocou majú prístup k údajom z dátových skladov.
Udržiavať sklad s neustále sa zvyšujúcim objemom dát je nákladné a dátový sklad nedokáže spracovať nespracované alebo neštruktúrované dáta. Okrem toho to nie je ideálna voľba pre sofistikované techniky analýzy údajov, ako je strojové učenie alebo prediktívne modelovanie.
Dátový sklad preto poskytuje rýchlejšie odpovede na otázky a dáta vyššej kvality. Google Big Query, Amazon Redshift, Azure SQL Data Storage a Snowflake sú cloudové služby, ktoré sú dostupné pre dátové sklady.
Výhody dátového skladu
- Zvýšenie efektívnosti a rýchlosti pracovného zaťaženia business intelligence a analýzy údajov: Dátové sklady skracujú čas potrebný na prípravu a analýzu dát. Môžu sa jednoducho prepojiť s nástrojmi na analýzu údajov a business intelligence, pretože údaje z dátového skladu sú spoľahlivé a konzistentné. Dátové sklady navyše šetria čas potrebný na zhromažďovanie údajov a poskytujú tímom možnosť používať údaje pre zostavy, informačné panely a ďalšie analytické požiadavky.
- Zvýšenie konzistencie, kvality a štandardizácie údajov: Organizácie zhromažďujú údaje z rôznych zdrojov vrátane údajov o používateľoch, predaji a transakciách. Firma môže dôverovať údajom pre obchodné požiadavky, pretože dátové sklady kompilujú podnikové údaje do jednotného, štandardizovaného formátu, ktorý môže fungovať ako jediný zdroj pravdivosti údajov.
- Zlepšenie rozhodovania vo všeobecnosti: Dátové sklady umožňujú lepšie rozhodovanie tým, že ponúkajú centralizované úložisko pre najnovšie aj staré údaje. Spracovaním údajov v dátových skladoch s cieľom získať presné informácie môžu osoby s rozhodovacou právomocou posúdiť riziká, pochopiť želania klientov a zlepšiť tovar a služby.
- Poskytovanie lepších obchodných informácií: Dátové sklady premosťujú priepasť medzi masívnymi nespracovanými údajmi, ktoré sa často rutinne zhromažďujú ako samozrejmosť, a upravenými údajmi, ktoré poskytujú prehľad. Fungujú ako základ pre ukladanie údajov organizácie, umožňujú jej odpovedať na zložité otázky o svojich údajoch a využívať odpovede na prijímanie obhajiteľných obchodných rozhodnutí.
Obmedzenia Data Warehouse
- Nedostatok dátovej flexibility: Zatiaľ čo dátové sklady vynikajú v manipulácii so štruktúrovanými údajmi, pološtruktúrované a neštruktúrované dátové formáty, ako je analýza denníkov, streamovanie a údaje zo sociálnych médií, môžu byť pre ne náročné. To umožňuje odporúčanie dátových skladov pre prípady použitia zahŕňajúce strojové učenie a umelá inteligencia ťažké.
- Nákladná inštalácia a údržba: Inštalácia a údržba dátových skladov môže byť nákladná. Okrem toho dátový sklad často nie je statický; starne a potrebuje častú údržbu, ktorá je drahá.
Pros
- Dáta sa dajú ľahko nájsť, získať a dotazovať sa.
- Pokiaľ sú údaje už čisté, príprava údajov SQL je jednoduchá.
Zápory
- Ste nútení používať iba jedného dodávateľa analytických služieb.
- Analýza a ukladanie neštruktúrovaných alebo tečúcich údajov je dosť nákladné.
Čo je to Data Lake?
Dátové jazerá sľubujú a umožňujú každý typ údajov. Je výhodné mať údaje prístupným spôsobom centrálne umiestnené a dostupné na čítanie.
Dátové jazero je centralizovaný, mimoriadne prispôsobivý úložný priestor, kde sa uchovávajú obrovské objemy organizovaných a neštruktúrovaných údajov v ich nespracovaných, nezmenených a neformátovaných formách.
Dátové jazero využíva plochú architektúru a objekty uložené v nespracovanom stave na ukladanie údajov, na rozdiel od dátových skladov, ktoré ukladajú relačné údaje, ktoré boli predtým „vyčistené“.
Dátové jazerá, na rozdiel od dátových skladov, ktoré majú problémy so spracovaním údajov v tomto formáte, sú prispôsobivé, spoľahlivé a cenovo dostupné a umožňujú podnikom získať lepší prehľad z neštruktúrovaných údajov.
V dátových jazerách sa údaje extrahujú, načítavajú a transformujú (ELT) na analytické účely, namiesto toho, aby sa schéma alebo údaje vytvorili v čase zhromažďovania údajov.
Využívanie technológií pre mnoho druhov údajov zo zariadení internetu vecí, sociálne médiáa streamovanie údajov, dátové jazerá umožňujú strojové učenie a prediktívnu analytiku.
Okrem toho môže dátový vedec, ktorý dokáže spracovať nespracované údaje, využiť dátové jazero. Na druhej strane dátový sklad je pre podniky jednoduchšie. Je ideálny pre profilovanie používateľov, prediktívna analýza, strojové učenie a ďalšie úlohy.
Hoci dátové jazerá riešia niekoľko problémov s dátovými skladmi, ich kvalita dát je nízka a rýchlosť ich dopytovania nedostatočná. Podnikovým používateľom navyše vyžaduje ďalšie nástroje na vykonávanie SQL dotazov. Dátové jazero, ktoré je zle štruktúrované, môže mať problém so stagnáciou údajov.
Výhody Data Lake
- Podpora širokej škály prípadov strojového učenia a dátovej vedy Je jednoduchšie použiť iné algoritmy strojového a hlbokého učenia na spracovanie údajov v dátových jazerách, pretože údaje sa uchovávajú otvoreným a nespracovaným spôsobom.
- Veľkou výhodou je všestrannosť dátových jazier, ktorá umožňuje ukladať dáta v akomkoľvek formáte alebo médiu bez požiadavky na prednastavenú schému. Budúce prípady použitia údajov môžu byť podporované a môže sa analyzovať viac údajov, ak sú údaje ponechané v pôvodnom stave.
- Aby ste sa vyhli nutnosti ukladať oba typy údajov v rôznych kontextoch, dátové jazerá môžu obsahovať štruktúrované aj neštruktúrované údaje. Na ukladanie rôznych druhov organizačných údajov ponúkajú jediné miesto.
- V porovnaní s tradičnými dátovými skladmi sú dátové jazerá lacnejšie, pretože sú postavené na lacnom komoditnom hardvéri, ako je napríklad úložisko objektov, ktoré je často zamerané na nižšie náklady na uložený gigabajt.
Obmedzenia Data Lake
- Prípady použitia dátových analýz a business intelligence dosahujú slabé skóre: Dátové jazerá sa môžu stať neorganizovanými, ak nie sú primerane udržiavané, čo sťažuje ich prepojenie s nástrojmi business intelligence a analytických nástrojov. Navyše, ak je to potrebné pre prípady použitia prehľadov a analýz, nedostatok konzistentnosti dátových štruktúr a ACID (atomicita, konzistencia, izolácia a trvanlivosť) transakčná podpora môže viesť k suboptimálnemu výkonu dotazov.
- Nekonzistentnosť dátových jazier znemožňuje presadzovanie spoľahlivosti a bezpečnosti údajov, čo vedie k nedostatku oboch. Môže byť ťažké vyvinúť vhodné štandardy zabezpečenia údajov a správy, aby vyhovovali citlivým typom údajov, pretože dátové jazerá dokážu spracovať akúkoľvek formu údajov.
Pros
- Cenovo dostupné riešenia pre všetky typy údajov.
- Dokáže spracovať dáta, ktoré sú organizované aj pološtruktúrované.
- Ideálne pre komplikované spracovanie dát a streamovanie.
Zápory
- Je potrebné vybudovať sofistikované potrubie.
- Dajte údajom určitý čas, aby sa mohli dopytovať.
- Zaručenie spoľahlivosti a kvality údajov si vyžaduje čas.
Čo je Data Lakehouse?
Nová architektúra ukladania veľkých dát nazývaná „data lakehouse“ kombinuje najväčšie aspekty dátových jazier a dátových skladov. Všetky vaše dáta, či už štruktúrované, pološtruktúrované, alebo neštruktúrované, môžu byť uložené na jednom mieste s najlepšími možnosťami strojového učenia, business intelligence a streamingu, aké sú možné vďaka dátovému jazeru.
Dátové jazerá všetkých druhov sú často východiskovým bodom pre dátové jazerá; potom sú údaje transformované do formátu Delta Lake (open-source úložná vrstva, ktorá prináša spoľahlivosť dátových jazier).
Dátové jazerá s delta jazerami umožňujú ACID transakčné postupy z konvenčných dátových skladov. Systém Lakehouse v podstate využíva lacné úložisko na udržiavanie obrovského množstva údajov v ich pôvodných formách, podobne ako dátové jazerá.
Pridanie vrstvy metadát na vrch obchodu tiež poskytuje štruktúru údajov a posilňuje nástroje na správu údajov, ako sú tie, ktoré sa nachádzajú v dátových skladoch.
To umožňuje mnohým tímom pristupovať ku všetkým údajom spoločnosti prostredníctvom jediného systému pre rôzne iniciatívy, ako je veda o údajoch, strojové učenie a business intelligence.
Výhody Data Lakehouse
- Podpora väčšieho rozsahu pracovných zaťažení: Na uľahčenie sofistikovaných analýz poskytujú data lakehouse používateľom priamy prístup k niektorým z najpopulárnejších nástrojov business intelligence (Tableau, PowerBI). Okrem toho môžu údaje ľahko používať dátoví vedci a inžinieri strojového učenia, pretože dátové jazerá využívajú formáty otvorených údajov (napríklad Parquet) spolu s rozhraniami API a rámcami strojového učenia, ako je Python/R.
- Efektívnosť nákladov: Data lakehouses využívajú lacné riešenia na ukladanie objektov na implementáciu nákladovo efektívnych charakteristík ukladania dátových jazier. Ponukou jediného riešenia sa data lakehouses tiež zbavia nákladov a času spojeného so správou rôznych systémov na ukladanie údajov.
- Návrh Data Lakehouse zaisťuje integritu schémy a údajov, čo zjednodušuje vytváranie efektívnych systémov zabezpečenia a správy údajov. Jednoduchosť verzovanie údajov, riadenie a bezpečnosť.
- Data lakehouses ponúkajú jedinú, viacúčelovú platformu na ukladanie údajov, ktorá dokáže vyhovieť všetkým požiadavkám spoločnosti na údaje, čo znižuje duplicitu údajov. Väčšina podnikov volí hybridné riešenie kvôli výhodám dátového skladu aj dátového jazera. Táto stratégia by medzitým mohla viesť k nákladnej duplikácii údajov.
- Podpora otvorených formátov. Otvorené formáty sú typy súborov, ktoré môžu používať mnohé softvérové aplikácie a ktorých špecifikácie sú verejne dostupné. Podľa správ sú Lakehouses schopné ukladať údaje v bežných formátoch súborov, ako sú Apache Parquet a ORC (Optimalized Row Columnar).
Obmedzenia Data Lakehouse
Najväčšou nevýhodou Data Lakehouse je, že je to stále mladá a vyvíjajúca sa technológia. Nie je isté, či vďaka tomu splní svoje záväzky. Kým budú dátové jazerá konkurovať zavedeným systémom na ukladanie veľkých dát, môže to trvať roky.
Avšak vzhľadom na rýchlosť, s akou dochádza k moderným inováciám, je ťažké povedať, či ich nakoniec nenahradí iný systém na ukladanie dát.
Pros
- Jedna platforma má všetky údaje, čo znamená, že je potrebné udržiavať menej názvov hostiteľov.
- Atomicita, konzistencia, izolácia a húževnatosť nie sú ovplyvnené.
- Cenovo je to výrazne výhodnejšie.
- Jedna platforma má všetky údaje, čo znamená, že je potrebné udržiavať menej názvov hostiteľov.
- Jednoduchá správa a rýchle riešenie akýchkoľvek problémov
- Uľahčite výstavbu potrubia
Zápory
- Nastavenie môže chvíľu trvať.
- Je príliš mladý a príliš vzdialený na to, aby sa kvalifikoval ako zavedený systém skladovania.
Data Warehouse vs Data Lake vs Data Lakehouse
Dátový sklad má dlhú históriu v podnikovej inteligencii, reportingu a analytických aplikáciách a je prvou technológiou ukladania veľkých dát.
Dátové sklady sú na druhej strane drahé a majú problémy so spracovaním rôznorodých a neštruktúrovaných údajov, ako sú napríklad streamované údaje. Pre úlohy strojového učenia a vedy o údajoch boli vyvinuté dátové jazerá na správu nespracovaných údajov v rôznych formách na cenovo dostupnom úložisku.
Hoci dátové jazerá sú efektívne s neštruktúrovanými dátami, chýbajú im transakčné schopnosti ACID dátových skladov, takže je náročné zaručiť konzistentnosť a spoľahlivosť dát.
Najnovšia architektúra ukladania údajov, známa ako „data lakehouse“, kombinuje spoľahlivosť a konzistentnosť dátových skladov s cenovou dostupnosťou a prispôsobivosťou dátových jazier.
záver
Na záver, budovanie dátového jazera od nuly môže byť ťažké. Okrem toho budete takmer určite používať platformu navrhnutú tak, aby umožňovala architektúru open data lakehouse.
Preto pred nákupom buďte opatrní pri skúmaní mnohých funkcií a implementácií každej platformy. Spoločnosti, ktoré hľadajú vyspelé, štruktúrované dátové riešenie so zameraním na prípady použitia business intelligence a dátovej analýzy, môžu zvážiť dátový sklad.
Avšak podniky, ktoré hľadajú škálovateľné a cenovo dostupné riešenie veľkých dát na napájanie úloh pre vedu o údajoch a strojové učenie na neštruktúrovaných údajoch, by mali zvážiť dátové jazerá.
Zvážte, že vaša firma potrebuje viac údajov, ako môže poskytnúť dátový sklad a technológie dátového jazera, alebo že hľadáte riešenie na integráciu sofistikovanej analýzy a operácií strojového učenia do vašich údajov. A data lakehouse je v danej situácii rozumná možnosť.
Nechaj odpoveď