Data Lakehouse - Ĉio, kion vi Devas Scii

Enhavtabelo[Kaŝi][Montri]

Kio estas Data Lakehouse?
Trajtoj
Elementoj de Data Lakehouse
Datumoj Lakehouse Arkitekturo+-
Avantaĝoj de Data Lakehouse
Malavantaĝoj de Data Lakehouse
Defioj de Data Lakehouse
konkludo

Eble estas iomete malfacile konsideri ĉiujn disponeblajn servojn kaj arkitekturajn elektojn kiam vi pensas pri datumplatformoj.

Entreprena datumplatformo ofte konsistas el datumstokejoj, datummodeloj, datumlagoj kaj raportoj, ĉiu kun specifa celo kaj aro de kapabloj bezonataj. En kontrasto, nova dezajno nomita la datuma lagodomo aperis dum la lastaj jaroj.

La versatileco de datumlagoj kaj datummagazeno datumadministrado estas kombinitaj en revolucia datumstokado arkitekturo nomata "datumlagdomo".

Ni profunde ekzamenos datumojn en ĉi tiu afiŝo, inkluzive de ĝiaj komponantoj, funkcioj, arkitekturo kaj aliaj aspektoj.

Kio estas Data Lakehouse?

Kiel la nomo implicas, datuma lagodomo estas nova speco de datuma arkitekturo, kiu kombinas datumlagon kun datuma stokejo por solvi la mankojn de ĉiu aparte.

En esenco, la lagdomo-sistemo uzas nekostan stokadon por konservi masivajn kvantojn da datenoj en siaj originaj formoj, tre kiel datenlagoj. Aldonante la metadatuman tavolon supre de la vendejo ankaŭ donas datumstrukturon kaj rajtigas datumadministrajn ilojn kiel tiuj trovitaj en datumstokejoj.

Datumoj Lakehouse

Ĝi stokas la enormajn volumojn de organizitaj, duonstrukturitaj kaj nestrukturitaj datumoj, kiujn ili ricevas de la malsamaj komercaj aplikaĵoj, sistemoj kaj iloj uzataj tra sia organizo.

Plejofte, datenlagoj uzas malaltkostan stokadinfrastrukturon kun dosiera aplika programado-interfaco (API) por stoki datumojn en malfermaj, senmarkaj dosierformatoj.

Ĉi tio ebligas al multaj teamoj aliri ĉiujn firmaajn datumojn per ununura sistemo por diversaj iniciatoj, kiel datumscienco, maŝinlernado, kaj komerca inteligenteco.

Trajtoj

Malaltkosta stokado. Datenlagdomo devas povi stoki datenojn en nekosta objektostokado, kiel ekzemple Google Nubo Stokado, Azure Blob Storage, Amazon Simple Storage Service, aŭ denaske uzante ORC aŭ Parquet.
Kapablo por datuma optimumigo: Datuma enpaĝigo optimumigo, kaŝmemoro kaj indeksado estas kelkaj ekzemploj de kiel datuma lagodomo devas povi optimumigi la datumojn konservante la originan formaton de la datumoj.
Tavolo de transakciaj metadatenoj: Krom la esenca malmultekosta stokado, ĉi tio ebligas kapablojn pri administrado de datumoj decidaj por la agado de datumservoj.
Subteno por la Declarative DataFrame API: La plimulto de AI-iloj povas uzi DataFrames por preni krudajn objekto-vendejajn datumojn. Subteno por Declarative DataFrame API pliigas la kapablon dinamike plibonigi la prezenton kaj strukturon de la datumoj en respondo al aparta datumscienco aŭ AI-tasko.
Subteno por ACID-transakcioj: La akronimo ACID, kiu signifas atomecon, konsistencon, izolitecon kaj fortikecon, estas kritika komponento en difinado de transakcio kaj certigado de la konsistenco kaj fidindeco de datumoj. Tiaj transakcioj antaŭe estis nur eblaj en datumstokejoj, sed la Lakehouse ofertas la eblon uzi ilin kun datumaj lagoj ankaŭ. Kun pluraj datumduktoj inkluzive de samtempaj datumoj legas kaj skribas, ĉi tio solvas la problemon de malalta datumkvalito de ĉi-lasta.

Elementoj de Data Lakehouse

La arkitekturo de la datenlagdomo estas dividita en du ĉefajn partojn sur alta nivelo. La datumkonsumado de la stoka tavolo estas kontrolita de la platformo Lakehouse (t.e., la datumlago).

Sen devi ŝarĝi la datumojn en datumstokejon aŭ konverti ĝin en proprietan formaton, la pretigtavolo tiam povas pridemandi la datenojn en la stokadtavolo rekte uzante gamon da iloj.

Tiam, BI-aplikoj, same kiel AI kaj ML-teknologioj, povas uzi la datumojn. La ekonomio de datuma lago estas disponigita per ĉi tiu dezajno, sed ĉar ĉiu pretigmotoro povas legi ĉi tiujn datumojn, entreprenoj havas la liberecon igi la pretajn datumojn alireblaj por analizo de gamo da sistemoj. Procesoro-efikeco kaj kosto ambaŭ povas esti plibonigitaj uzante ĉi tiun metodon por prilaborado kaj analizo.

Pro ĝia subteno por datumbaztransakcioj kiuj aliĝas al la sekvaj ACIDO (atomico, konsistenco, izoliteco, kaj fortikeco) kriterioj, la arkitekturo ankaŭ ebligas multajn partiojn aliri kaj skribi datumojn samtempe ene de la sistemo:

Atomeco rilatas al la fakto ke aŭ la plena transakcio aŭ neniu el ĝi, sukcesas kompletigante transakcion. En la okazo ke procezo estas interrompita, ĉi tio helpas eviti datumperdon aŭ korupton.
konsistenco garantias ke transakcioj okazas en antaŭvidebla, konsekvenca maniero. Ĝi konservas la integrecon de la datumoj certigante, ke ĉiuj datumoj estas laŭleĝaj laŭ antaŭdestinitaj reguloj.
Izolo certigas ke, ĝis ĝi estas finita, neniu transakcio povas esti trafita per iu alia transakcio ene de la sistemo. Ĉi tio permesas al multaj partioj legi kaj skribi de la sama sistemo samtempe sen ĝeni unu la alian.
fortikeco garantias ke ŝanĝoj al la datumoj en sistemo daŭre ekzistas post kiam transakcio estas finita, eĉ en la okazaĵo de sistemfiasko. Ĉiuj ŝanĝoj kaŭzitaj de transakcio estas konservitaj en dosiero por ĉiam.

Datumoj Lakehouse Arkitekturo

Databricks (la noviganto kaj dizajnisto de ilia Delta Lake-koncepto) kaj AWS estas la du ĉefaj rekomendantoj por la koncepto de datuma lagdomo. Ni tiel fidos je ilia scio kaj kompreno por priskribi la arkitekturan aranĝon de lagdomoj.

Datuma lakejsistemo tipe havos kvin tavolojn:

Ingesta tavolo
Stoka tavolo
Metadatuma tavolo
API-tavolo
Konsumotavolo

Datumoj Lakehouse Arkitekturo

Ingesta tavolo

La unua tavolo de la sistemo komisias kolekti datumojn de diversaj fontoj kaj sendi ĝin al la stoka tavolo. La tavolo povas utiligi plurajn protokolojn por konekti al multaj internaj kaj eksteraj fontoj, inkluzive de kombinado de bataj kaj fluantaj datumtraktadkapabloj, kiel ekzemple

NoSQL-datumbazoj,
dosierpartoj
CRM-aplikoj,
retejoj,
IoT-sensiloj,
sociaj amaskomunikiloj,
Programaro kiel Servo (SaaS) aplikaĵoj, kaj
sistemoj de administrado de interrilataj datumbazoj, ktp.

Je ĉi tiu punkto, komponantoj kiel Apache Kafka por datumfluo kaj Amazon Data Migration Service (Amazon DMS) por importi datumojn de RDBMS kaj NoSQL-datumbazoj povas esti uzataj.

Stoka tavolo

La lagdoma arkitekturo celas ebligi la stokadon de diversaj specoj de datumoj kiel objektoj en nekostaj objektobutikoj, kiel ekzemple AWS S3. Uzante malfermajn dosierformatojn, la klientaj iloj povas tiam legi ĉi tiujn erojn rekte de la vendejo.

Ĉi tio ebligas al multaj API-oj kaj konsumtavolaj komponantoj aliri kaj utiligi la samajn datumojn. La metadatumtavolo stokas la skemojn por strukturitaj kaj duonstrukturitaj datumaroj tiel ke la komponentoj povas apliki ilin al la datenoj dum ili legas ĝin.

La platformo Hadoop Distributed File System (HDFS), ekzemple, povas esti uzata por konstrui nubajn deponejojn, kiuj disigas komputadon kaj stokadon surloke. Lakehouse estas ideale taŭga por ĉi tiuj servoj.

Metadatuma tavolo

La metadatuma tavolo estas la fundamenta komponento de datuma lagdomo kiu distingas ĉi tiun dezajnon. Ĝi estas ununura katalogo kiu ofertas metadatenojn (informojn pri aliaj datenpecoj) por ĉiuj eroj stokitaj en la lago kaj permesas al uzantoj utiligi administradkapablojn kiel:

Konsekvenca versio de la datumbazo estas vidata de samtempaj transakcioj danke al ACID-transakcioj;
kaŝmemoro por konservi dosierojn pri nuba objekto;
aldonante datumstrukturajn indeksojn uzante indeksadon por akceli demandopretigon;
uzante nul-kopia klonado por duplikati datumobjektojn; kaj
por konservi certajn versiojn de la datumoj ktp., uzu datuman version.

Plie, la metadatumo-tavolo ebligas la efektivigon de skemadministrado, la uzon de DW-skemtopologioj kiel stelo/neĝflako-skemoj, kaj la zorgaĵon de datumregado kaj reviziokapablecon rekte sur la datenlago, plibonigante la integrecon de la tuta datumdukto.

Trajtoj por skem-evoluo kaj devigo estas inkluditaj en skemadministrado. Malakceptante iujn ajn skribaĵojn, kiuj ne konformas al la skemo de la tabelo, skemo-devigo ebligas al uzantoj konservi datumintegrecon kaj kvaliton.

Skemevolucio permesas al la nuna skemo de la tablo esti modifita por alĝustigi ŝanĝiĝantajn datenojn. Pro ununura administradinterfaco sur la supro de la datumlago, ekzistas ankaŭ alirkontrolo kaj reviziaj eblecoj.

API-tavolo

Alia decida tavolo de la arkitekturo nun ĉeestas, gastigante kelkajn API-ojn, kiujn ĉiuj finuzantoj povas uzi por plenumi laborojn pli rapide kaj akiri pli kompleksajn statistikojn.

La uzo de metadatenoj API faciligas identigi kaj aliri la datumaĵojn necesajn por antaŭfiksita aplikaĵo.

Koncerne al maŝinlernadaj bibliotekoj, kelkaj el ili, kiel TensorFlow kaj Spark MLlib, povas legi malfermajn dosierformatojn kiel Parquet kaj rekte aliri la metadatuman tavolon.

Samtempe, DataFrame-API-oj ofertas pli grandajn ŝancojn por optimumigo, ebligante al programistoj organizi kaj ŝanĝi disajn datumojn.

Konsumotavolo

Power BI, Tableau kaj aliaj iloj kaj apoj estas gastigitaj sub la konsumtavolo. Kun la lagdomo-dezajno, ĉiuj metadatenoj kaj ĉiuj datumoj konservitaj en lago estas alireblaj por la klientprogramoj.

La lagdomo povas esti uzata de ĉiuj uzantoj ene de firmao por plenumi ĉiajn analitikaj operacioj, inkluzive de kreado de komercaj inteligentecaj paneloj kaj prizorgado de SQL-demandoj kaj maŝinlernadaj taskoj.

Avantaĝoj de Data Lakehouse

Organizoj povas krei datuman lagdomon por unuigi sian nunan datumplatformon kaj optimumigi sian tutan datumadministradprocezon. Malmuntante la silobarojn ligantajn diversajn fontojn, datuma lagdomo povas anstataŭigi la bezonon de apartaj solvoj.

Kompare al kuracitaj datumfontoj, ĉi tiu integriĝo produktas signife pli efikan fin-al-finan proceduron. Ĉi tio havas plurajn avantaĝojn:

Malpli da administrado: Prefere ol ĉerpi datumojn de krudaj datumoj kaj prepari ĝin por uzo ene de datenmagazeno, datuma lagdomo permesas al iuj fontoj ligitaj al ĝi havi siajn datumojn disponeblaj kaj organizitaj por utiligo.
Pliigita kostefikeco: Datumaj lagdomoj estas konstruitaj uzante nuntempan infrastrukturon kiu disigas komputadon kaj stokadon, simpligante vastigi stokadon sen pliigado de komputa potenco. Nur la uzado de malmultekosta datumstokado rezultigas skaleblon kiu estas kostefika.
Pli bona administrado de datumoj: Datumaj lagdomoj estas konstruitaj kun normigita malferma arkitekturo, enkalkulante pli da kontrolo de sekureco, metriko, rol-bazita aliro, kaj aliaj gravaj administradkomponentoj. Unuigante rimedojn kaj datumfontojn, ili simpligas kaj plibonigas administradon.
Simpligitaj normoj: Ĉar la ligo estis tre limigita en la 1980-aj jaroj, kiam datumstokejoj unue estis evoluigitaj, lokalizitaj skemnormoj estis ofte evoluigitaj ene de entreprenoj, eĉ sekcioj. Datenlagdomoj uzas la fakton ke multaj specoj de datenoj nun havas malfermajn normojn por skemo konsumante multajn datenfontojn kun la imbrikita unuforma skemo por fluliniigi procedurojn.

Malavantaĝoj de Data Lakehouse

Malgraŭ ĉiuj tumultoj ĉirkaŭaj datumaj lagdomoj, gravas memori, ke la ideo estas ankoraŭ tre nova. Nepre pezu la malavantaĝojn antaŭ ol engaĝiĝi plene al ĉi tiu nova dezajno.

Monolita strukturo: La ĉio-inkluziva dezajno de lagdomo ofertas plurajn avantaĝojn, sed ĝi ankaŭ levas kelkajn problemojn. Monolita arkitekturo ofte kondukas al malbona servo por ĉiuj uzantoj kaj povas esti rigida kaj malfacile konservi. Tipe, arkitektoj kaj dizajnistoj ŝatas pli modulan arkitekturon, kiun ili povas personecigi por diversaj uzkazoj.
La teknologio ankoraŭ ne estas tie: la fina celo implicas signifan kvanton de maŝinlernado kaj artefarita inteligenteco. Antaŭ ol lagdomoj povas rezulti kiel antaŭvidite, tiuj teknologioj devas evoluigi plu.
Ne grava progreso super ekzistantaj strukturoj: Estas ankoraŭ konsiderinda skeptiko pri kiom pli da valoraj lagdomoj efektive kontribuos. Kelkaj kritikantoj asertas ke lag-stokejo dezajno parigita kun la konvena aŭtomatigita ekipaĵo povas atingi kompareblan efikecon.

Defioj de Data Lakehouse

Povus esti malfacile adopti la datuman lakeman teknikon. Pro la komplikeco de ĝiaj komponentoj, estas malĝuste rigardi la datuman lagdomon kiel tute ampleksan idealan strukturon aŭ "unu platformon por ĉio", por unu.

Aldone, pro la kreskanta adopto de datumlagoj, entreprenoj devos movi siajn nunajn datumstokejojn al ili, fidante nur je promeso de sukceso sen pruvebla ekonomia profito.

Se ekzistas iuj problemoj de latenteco aŭ malfunkcioj dum la transiga procezo, ĉi tio povus esti multekosta, tempopostula kaj eble nesekura.

Komercaj uzantoj devas ampleksi tre specialigitajn teknologiojn, laŭ certaj vendistoj, kiuj eksplicite aŭ implicite surmerkatigas solvojn kiel datumaj lagdomoj. Ĉi tiuj eble ne ĉiam funkcias kun aliaj iloj ligitaj al la datuma lago en la centro de la sistemo, aldonante la problemojn.

Aldone, eble estos malfacile provizi 24/7 analizojn dum funkciado de komercaj kritikaj laborŝarĝoj, kio postulas infrastrukturon kun kostefika skaleblo.

konkludo

La plej nova vario de datumcentroj en la lastaj jaroj estas la datuma lagdomo. Ĝi integras diversajn kampojn, kiel informa teknologio, malfermfonta programaro, cloud computing, kaj distribuitaj stokadprotokoloj.

Ĝi ebligas al entreprenoj centre stoki ĉiujn tipojn de datumoj de iu ajn loko, simpligante administradon kaj analizon. Data Lakehouse estas sufiĉe interesa koncepto.

Ajna firmao havus signifan konkurencivan avantaĝon se ĝi havus aliron al ĉiu-en-unu datumplatformo kiu estis same rapida kaj efika kiel datumstokejo samtempe estante same fleksebla kiel datumlago.

La ideo ankoraŭ disvolviĝas kaj restas relative nova. Kiel rezulto, ĝi povus preni iom da tempo por determini ĉu aŭ ne io povas ĝeneraliĝi.

Ni ĉiuj devus esti scivolaj pri la direkto, kiun iras la arkitekturo de Lakehouse.

Datumoj Lakehouse Ĉio, kion Vi Devas Scii

Data Lakehouse - Ĉio, kion vi Devas Scii

Kio estas Data Lakehouse?

Trajtoj

Elementoj de Data Lakehouse