Það gæti verið svolítið erfitt að íhuga alla tiltæka þjónustu og byggingarvalkosti þegar hugsað er um gagnapalla.
Gagnavettvangur fyrirtækja samanstendur oft af gagnageymslum, gagnalíkönum, gagnavötnum og skýrslum, hvert um sig með ákveðnum tilgangi og hæfileikum sem þarf. Aftur á móti hefur ný hönnun sem kallast gagnavatnshúsið komið fram á síðustu árum.
Fjölhæfni gagnavatna og gagnastjórnunar gagnavöruhúsa er sameinuð í byltingarkenndum gagnageymsluarkitektúr sem er kallaður „gagnavatnshús“.
Við munum skoða gagnavatnshúsið ítarlega í þessari færslu, þar með talið íhluti þess, eiginleika, arkitektúr og aðra þætti.
Hvað er Data Lakehouse?
Eins og nafnið gefur til kynna er gagnavatnshús ný tegund gagnaarkitektúrs sem sameinar gagnavatn og gagnageymslu til að leysa galla hvers fyrir sig.
Í meginatriðum notar vatnahúsakerfið ódýra geymslu til að viðhalda gríðarlegu magni gagna í upprunalegu formi, líkt og gagnavötnum. Að bæta lýsigagnalaginu ofan á verslunina gefur einnig gagnaskipulag og styrkir gagnastjórnunartæki eins og þau sem finnast í gagnavöruhúsum.
Það geymir gífurlegt magn af skipulögðum, hálfuppbyggðum og óskipulögðum gögnum sem þeir fá frá mismunandi viðskiptaforritum, kerfum og græjum sem notaðar eru í fyrirtækinu sínu.
Meirihluti tímans nota gagnavötn ódýr geymsluinnviði með forritunarviðmóti skráa (API) til að geyma gögn á opnu, almennu skráarsniði.
Þetta gerir mörgum teymum mögulegt að fá aðgang að öllum gögnum fyrirtækisins í gegnum eitt kerfi fyrir margvísleg frumkvæði, svo sem gagnafræði, vél nám, og viðskiptagreind.
Aðstaða
- Ódýr geymsla. Gagnavatnshús verður að geta geymt gögn í ódýrri hlutageymslu, svo sem Google Cloud Geymsla, Azure Blob Storage, Amazon Simple Storage Service, eða innbyggt með því að nota ORC eða Parket.
- Möguleiki á hagræðingu gagna: Hagræðing gagnaútlits, skyndiminni og flokkun eru nokkur dæmi um hvernig gagnavatnshús verður að geta fínstillt gögnin á sama tíma og upprunalegu sniði gagna er viðhaldið.
- Lag af lýsigögnum viðskipta: Ofan á nauðsynlega lágkostnaðargeymslu, gerir þetta gagnastjórnunargetu sem skiptir sköpum fyrir frammistöðu gagnavöruhúss.
- Stuðningur við Declarative DataFrame API: Meirihluti gervigreindarverkfæra getur notað DataFrames til að sækja óunnin gögn um hlutgeymslu. Stuðningur við Declarative DataFrame API eykur getu til að bæta framsetningu og uppbyggingu gagna á kraftmikinn hátt til að bregðast við sérstökum gagnavísindum eða gervigreindarverkefnum.
- Stuðningur við ACID-viðskipti: Skammstöfunin ACID, sem stendur fyrir atómvirkni, samkvæmni, einangrun og endingu, er mikilvægur þáttur í að skilgreina viðskipti og tryggja samkvæmni og áreiðanleika gagna. Slík viðskipti voru áður aðeins möguleg í gagnageymslum, en lakehouse býður upp á möguleika á að nýta þau með gagnavötnum einnig. Með nokkrum gagnaleiðslum sem innihalda samhliða lestur og ritun gagna leysir þetta vandamálið með lágum gagnagæði hins síðarnefnda.
Þættir Data Lakehouse
Arkitektúr gagnavatnshússins er skipt í tvö meginþrep á háu stigi. Gagnainntöku geymslulagsins er stjórnað af Lakehouse pallinum (þ.e. gagnavatninu).
Án þess að þurfa að hlaða gögnunum inn í gagnageymslu eða breyta þeim í sérsniðið, getur vinnslulagið síðan leitað beint að gögnunum í geymslulaginu með því að nota margvísleg verkfæri.
Síðan geta BI forrit, sem og gervigreind og ML tækni, notað gögnin. Hagkvæmni gagnavatns er veitt af þessari hönnun, en vegna þess að hvaða vinnsluvél sem er getur lesið þessi gögn, hafa fyrirtæki frelsi til að gera tilbúin gögn aðgengileg til greiningar með ýmsum kerfum. Bæði er hægt að bæta afköst og kostnað örgjörva með því að nota þessa aðferð við vinnslu og greiningu.
Vegna stuðnings við gagnagrunnsviðskipti sem fylgja eftirfarandi ACID (atómleika, samkvæmni, einangrun og endingu), gerir arkitektúrinn einnig mörgum aðilum kleift að fá aðgang að og skrifa gögn samtímis innan kerfisins:
- Atómvirkni vísar til þess að annaðhvort fullur viðskiptin eða ekkert þeirra, heppnast á meðan viðskiptum er lokið. Ef ferli er truflað hjálpar það til við að forðast gagnatap eða spillingu.
- Samræmi tryggir að viðskipti eiga sér stað á fyrirsjáanlegan og samkvæman hátt. Það viðheldur heilleika gagnanna með því að tryggja að öll gögn séu lögmæt í samræmi við fyrirfram ákveðnar reglur.
- Einangrun tryggir að þar til henni er lokið getur engin önnur viðskipti haft áhrif á viðskipti innan kerfisins. Þetta gerir mörgum aðilum kleift að lesa og skrifa úr sama kerfinu samtímis án þess að trufla hver annan.
- ending tryggir að breytingar á gögnum í kerfi haldi áfram að vera til eftir að viðskiptum er lokið, jafnvel ef kerfisbilun kemur upp. Allar breytingar sem færslur hafa í för með sér eru geymdar að eilífu.
Data Lakehouse arkitektúr
Databricks (frumkvöðull og hönnuður Delta Lake hugmyndarinnar) og AWS eru tveir helstu talsmenn hugmyndarinnar um gagnavatnshús. Við munum því treysta á þekkingu þeirra og innsæi til að lýsa byggingarfræðilegu skipulagi vatnahúsa.
Gagnahúsakerfi mun venjulega hafa fimm lög:
- Inntökulag
- Geymslulag
- Lýsigagnalag
- API lag
- Neyslulag
Inntökulag
Fyrsta lag kerfisins sér um að safna gögnum úr ýmsum áttum og senda í geymslulagið. Lagið getur notað nokkrar samskiptareglur til að tengjast fjölmörgum innri og ytri heimildum, þar á meðal að sameina hópa- og streymigagnavinnslugetu, svo sem
- NoSQL gagnagrunnar,
- skráarhlutdeild
- CRM forrit,
- vefsíður,
- IoT skynjarar,
- félagsleg fjölmiðla,
- Software as a Service (SaaS) forrit, og
- tengslagagnagrunnsstjórnunarkerfi o.fl.
Á þessum tímapunkti er hægt að nota íhluti eins og Apache Kafka fyrir gagnastraum og Amazon Data Migration Service (Amazon DMS) til að flytja inn gögn úr RDBMS og NoSQL gagnagrunnum.
Geymslulag
Lakehouse arkitektúrnum er ætlað að gera kleift að geyma ýmiss konar gögn sem hluti í ódýrum hlutabúðum, eins og AWS S3. Með því að nota opin skráarsnið geta verkfæri viðskiptavinarins síðan lesið þessa hluti beint úr versluninni.
Þetta gerir mörgum API og neyslulagshlutum kleift að fá aðgang að og nýta sömu gögnin. Lýsigagnalagið geymir skemu fyrir skipulögð og hálfuppbyggð gagnapakka þannig að íhlutirnir geti beitt þeim á gögnin um leið og þeir lesa þau.
Hadoop Distributed File System (HDFS) vettvangurinn, til dæmis, er hægt að nota til að smíða skýjageymsluþjónustu sem skiptir upp tölvum og geymslu á staðnum. Lakehouse hentar vel fyrir þessa þjónustu.
Lýsigagnalag
Lýsigagnalagið er grundvallarþáttur gagnavatnshúss sem aðgreinir þessa hönnun. Það er einn vörulisti sem býður upp á lýsigögn (upplýsingar um aðra gagnahluta) fyrir alla hluti sem eru geymdir í vatninu og gerir notendum kleift að nota stjórnunargetu eins og:
- Samræmd útgáfa af gagnagrunninum sést af samhliða viðskiptum þökk sé ACID viðskiptum;
- skyndiminni til að vista skýhlutageymsluskrár;
- bæta við gagnaskipulagsvísitölum með því að nota flokkun til að flýta fyrir vinnslu fyrirspurna;
- nota núll-afrit klónun til að afrita gagnahluti; og
- til að geyma ákveðnar útgáfur af gögnunum o.s.frv., nota gagnaútgáfu.
Að auki gerir lýsigagnalagið kleift að innleiða kerfisstjórnun, notkun DW skema yfirbyggingar eins og stjörnu/snjókorna skema og útvegun gagnastjórnunar og endurskoðunargetu beint á gagnavatninu, sem eykur heilleika allrar gagnaleiðslunnar.
Eiginleikar fyrir skemaþróun og framfylgd eru innifalin í skemastjórnun. Með því að hafna skrifum sem uppfylla ekki skema töflunnar gerir skemaframfylgd notendum kleift að viðhalda gagnaheilleika og gæðum.
Skemaþróun gerir kleift að breyta núverandi skema töflunnar til að koma til móts við breytt gögn. Vegna eins stjórnunarviðmóts ofan á gagnavatninu eru einnig aðgangsstýringar og endurskoðunarmöguleikar.
API lag
Annað mikilvægt lag arkitektúrsins er nú til staðar, hýsir fjölda API sem allir notendur geta notað til að framkvæma störf hraðar og fá flóknari tölfræði.
Notkun lýsigagna API gerir það auðveldara að bera kennsl á og fá aðgang að gagnahlutunum sem þarf fyrir tiltekið forrit.
Hvað varðar vélanámssöfn, geta sum þeirra, eins og TensorFlow og Spark MLlib, lesið opin skráarsnið eins og Parquet og fengið beinan aðgang að lýsigagnalaginu.
Á sama tíma bjóða DataFrame API meiri möguleika á hagræðingu, sem gerir forriturum kleift að skipuleggja og breyta dreifðum gögnum.
Neyslulag
Power BI, Tableau og önnur verkfæri og öpp eru hýst undir neyslulaginu. Með hönnun vatnshússins eru öll lýsigögn og öll gögn sem eru geymd í stöðuvatni aðgengileg viðskiptaforritum.
Vatnahúsið geta nýst öllum notendum innan fyrirtækis til að framkvæma alls kyns greiningaraðgerðir, þar á meðal að búa til mælaborð fyrir viðskiptagreind og keyra SQL fyrirspurnir og vélanámsverkefni.
Kostir Data Lakehouse
Stofnanir geta búið til gagnavatnshús til að sameina núverandi gagnavettvang sinn og fínstilla allt gagnastjórnunarferlið. Með því að taka í sundur sílóhindranir sem tengja saman ýmsar uppsprettur getur gagnavatnshús komið í stað þörf fyrir sérstakar lausnir.
Í samanburði við safnaðar gagnaheimildir framleiðir þessi samþætting verulega skilvirkari end-to-end aðferð. Þetta hefur nokkra kosti:
- Minni stjórnsýsla: Frekar en að draga gögn úr hrágögnum og undirbúa þau til notkunar innan gagnavöruhúss, gerir gagnavatnahús öllum heimildum sem tengjast þeim kleift að hafa gögn sín tiltæk og skipulögð til notkunar.
- Aukin hagkvæmni: Gagnavatnshús eru smíðuð með nútímalegum innviðum sem skiptir útreikningi og geymslu, sem gerir það einfalt að stækka geymslu án þess að auka tölvuafl. Bara notkun ódýrrar gagnageymslu leiðir til sveigjanleika sem er hagkvæmur.
- Betri gagnastjórnun: Gagnahús eru smíðuð með stöðluðum opnum arkitektúr, sem gerir ráð fyrir meiri stjórn á öryggi, mæligildum, hlutverkatengdum aðgangi og öðrum mikilvægum stjórnunarþáttum. Með því að sameina auðlindir og gagnaheimildir einfalda þær og auka stjórnun.
- Einfaldaðir staðlar: Þar sem tengingin var mjög takmörkuð á níunda áratugnum, þegar gagnavöruhús voru fyrst þróuð, voru staðbundnir skemastaðlar oft þróaðir innan fyrirtækja, jafnvel deilda. Gagnahús nýta sér þá staðreynd að margar tegundir gagna hafa nú opna staðla fyrir skema með því að taka inn fjölda gagnagjafa með samræmdu skema sem skarast til að hagræða verklagsreglum.
Ókostir Data Lakehouse
Þrátt fyrir allt hrakið í kringum gagnavatnahús er mikilvægt að hafa í huga að hugmyndin er enn mjög ný. Vertu viss um að vega ókostina áður en þú skuldbindur þig að fullu til þessarar nýju hönnunar.
- Einhverfa uppbygging: Allt innifalið hönnun vatnahúss býður upp á nokkra kosti, en hún vekur líka nokkur vandamál. Monolithic arkitektúr leiðir oft til lélegrar þjónustu fyrir alla notendur og getur verið stífur og erfiður í viðhaldi. Venjulega vilja arkitektar og hönnuðir meira mát arkitektúr sem þeir geta sérsniðið fyrir ýmis notkunartilvik.
- Tæknin er ekki alveg til staðar ennþá: lokamarkmiðið felur í sér umtalsvert magn af vélanámi og gervigreind. Áður en vatnahús geta staðið sig eins og ímyndað er, verður þessi tækni að þróast frekar.
- Ekki teljandi framfarir á núverandi mannvirkjum: Það eru enn töluverðar efasemdir um hversu miklu meira verðmæti vatnahús muni í raun leggja til. Sumir andmælendur halda því fram að hönnun vöruhúsavatna ásamt viðeigandi sjálfvirkum búnaði geti náð sambærilegri skilvirkni.
Áskoranir Data Lakehouse
Það gæti verið erfitt að tileinka sér gagnavatnahústæknina. Vegna þess hversu flókin íhlutir þess eru, er rangt að líta á gagnavatnshúsið sem alltumlykjandi hugsjónabyggingu eða „einn vettvang fyrir allt,“ fyrir einn.
Þar að auki, vegna aukinnar upptöku gagnavatna, verða fyrirtæki að flytja núverandi gagnageymslur sínar til þeirra og treysta aðeins á loforð um árangur án sannanlegs efnahagslegs ávinnings.
Ef það eru einhver leynd vandamál eða truflanir í gegnum flutningsferlið gæti þetta endað að vera dýrt, tímafrekt og kannski óöruggt.
Viðskiptanotendur verða að tileinka sér mjög sérhæfða tækni, samkvæmt ákveðnum söluaðilum sem beinlínis eða óbeint markaðssetja lausnir sem gagnavatnshús. Þetta virkar kannski ekki alltaf með öðrum verkfærum sem tengjast gagnavatninu í miðju kerfisins, sem eykur á vandamálin.
Að auki gæti verið erfitt að útvega greiningar allan sólarhringinn á meðan þú keyrir mikilvægu vinnuálagi, sem kallar á innviði með hagkvæmum sveigjanleika.
Niðurstaða
Nýjasta úrval gagnavera undanfarin ár er gagnaverið. Það samþættir margvísleg svið, svo sem upplýsingatækni, opinn hugbúnað, ský computing, og dreifðar geymslusamskiptareglur.
Það gerir fyrirtækjum kleift að geyma miðlægt allar tegundir gagna frá hvaða stað sem er, sem einfaldar stjórnun og greiningu. Data Lakehouse er frekar forvitnilegt hugtak.
Sérhvert fyrirtæki myndi hafa umtalsverða samkeppnisforskot ef það hefði aðgang að allt-í-einum gagnavettvangi sem væri eins fljótur og skilvirkur og gagnavöruhús á sama tíma og það væri jafn sveigjanlegt og gagnavatn.
Hugmyndin er enn að þróast og er tiltölulega ný. Þar af leiðandi gæti tekið nokkurn tíma að ákvarða hvort eitthvað geti orðið útbreitt eða ekki.
Við ættum öll að vera forvitin um í hvaða átt Lakehouse arkitektúr stefnir.
Skildu eftir skilaboð