Efnisyfirlit[Fela][Sýna]
Fyrirtæki safna fleiri gögnum en nokkru sinni fyrr þar sem þau treysta í auknum mæli á þau til að upplýsa mikilvægar viðskiptaákvarðanir, auka vöruframboð og veita betri þjónustu við viðskiptavini.
Þar sem gagnamagnið er búið til á veldishraða býður skýið upp á nokkra kosti fyrir gagnavinnslu og greiningu, þar á meðal sveigjanleika, áreiðanleika og aðgengi.
Í skýjavistkerfinu eru einnig nokkur tæki og tækni fyrir gagnavinnslu og greiningu. Tvær gerðir stórra gagnageymslumannvirkja sem eru oftast notaðar eru gagnavöruhús og gagnavötn.
Þó að nota gagnavatn sé minna aðlaðandi þar sem ekki er hægt að spyrjast fyrir um líkanið og gögnin á meðan þau eru enn viðeigandi, þá er sóun að nota gagnageymslu fyrir streymigagnageymslu.
Whvaða tegund af skýjaarkitektúr veljum við?
Eigum við að huga að nýrri hugmyndum fyrir gagnavatnshúsið, eða eigum við að vera sátt við takmarkanir vöruhússins eða takmarkanir vatnsins?
Nýr gagnageymsluarkitektúr sem kallast „gagnavatnshús“ sameinar aðlögunarhæfni gagnavatna við gagnastjórnun gagnavöruhúsa.
Skilningur á hinum ýmsu stórgagnageymsluaðferðum er nauðsynlegur til að byggja upp áreiðanlega gagnageymslupípu fyrir viðskiptagreind (BI), gagnagreiningu og vél nám (ML) vinnuálag, allt eftir kröfum fyrirtækisins þíns.
Í þessari færslu munum við skoða Data Warehouse, Data Lake og Data Lakehouse, með kostum, takmörkunum og kostum og göllum þeirra. Byrjum.
Hvað er Data Warehouse?
Gagnageymsla er miðlæg gagnageymsla sem fyrirtæki notar til að geyma gríðarlegt magn gagna frá mörgum aðilum. Gagnageymsla virkar sem ein uppspretta „gagnasannleika“ fyrirtækis og er nauðsynleg fyrir skýrslugerð og viðskiptagreiningu.
Venjulega sameina gagnavöruhús tengslagagnasett frá nokkrum aðilum, svo sem forrita-, viðskipta- og viðskiptagögn, til að geyma söguleg gögn. Áður en þeim er hlaðið inn í vöruhúsakerfið er gögnum umbreytt og hreinsað í gagnageymslum svo hægt sé að nota þau sem eina uppsprettu gagnasannleika.
Vegna getu þeirra til að bjóða hratt upp á viðskiptainnsýn frá öllum sviðum fyrirtækisins, fjárfesta fyrirtæki í gagnageymslum. Með notkun BI verkfæra, SQL viðskiptavina og annarra minna háþróaðra (þ.e. ekki gagnavísinda) greiningarlausna, viðskiptafræðingar, gagnaverkfræðingar og ákvarðanir geta nálgast gögn frá gagnageymslum.
Það er dýrt að halda úti vöruhúsi með sívaxandi gagnamagni og gagnavöruhús ræður ekki við hrá eða ómótuð gögn. Að auki er það ekki kjörinn kostur fyrir háþróaða gagnagreiningartækni eins og vélanám eða forspárlíkön.
Gagnahús veitir því hraðari fyrirspurnasvar og gögn af meiri gæðum. Google Big Query, Amazon Redshift, Azure SQL Data warehouse og Snowflake eru skýjaþjónusta sem er í boði fyrir gagnavöruhús.
Kostir Data Warehouse
- Að auka skilvirkni og hraða vinnuálags viðskiptagreindar og gagnagreiningar: Gagnageymslur stytta þann tíma sem þarf til gagnagerðar og greiningar. Þeir geta auðveldlega tengst gagnagreiningar- og viðskiptagreindarverkfærum þar sem gögnin frá gagnageymslunni eru áreiðanleg og samkvæm. Að auki spara gagnageymslur þann tíma sem þarf til gagnasöfnunar og veita teymum möguleika á að nota gögn fyrir skýrslur, mælaborð og aðrar greiningarkröfur.
- Auka samræmi, gæði og stöðlun gagna: Stofnanir safna gögnum frá ýmsum aðilum, þar á meðal notenda-, sölu- og viðskiptagögnum. Fyrirtækið getur treyst gögnunum fyrir viðskiptakröfum vegna þess að vörugeymsla gagna safnar saman fyrirtækjagögnum í samræmt, staðlað snið sem getur virkað sem ein uppspretta gagnasannleika.
- Að efla ákvarðanatöku almennt: Gagnageymsla auðveldar betri ákvarðanatöku með því að bjóða upp á miðlæga verslun fyrir bæði nýleg og gömul gögn. Með því að vinna úr gögnum í gagnageymslum til að fá nákvæma innsýn geta ákvarðanatakendur metið áhættu, skilið óskir viðskiptavina og aukið vörur og þjónustu.
- Að veita betri viðskiptagreind: Gagnageymsla brúar bilið á milli gríðarmikilla hrágagna, sem oft er safnað reglulega sem sjálfsagður hlutur, og söfnuðra gagna sem veita innsýn. Þeir virka sem grunnur að gagnageymslu fyrirtækis, sem gerir henni kleift að svara flóknum spurningum um gögn sín og nýta svörin til að taka forsvaranlegar viðskiptaákvarðanir.
Takmarkanir Data Warehouse
- Skortur á sveigjanleika gagna: Þó gagnavöruhús skari fram úr í meðhöndlun skipulögðra gagna, þá geta hálfgerð og óskipulögð gagnasnið eins og annálagreining, streymi og gögn á samfélagsmiðlum verið krefjandi fyrir þau. Þetta gerir það að verkum að mælt er með gagnageymslum fyrir notkunartilvik sem fela í sér vélanám og gervigreind erfiðleikar.
- Dýrt í uppsetningu og viðhaldi: Gagnageymslur geta verið dýrar í uppsetningu og viðhaldi. Ennfremur er gagnavöruhúsið oft ekki kyrrstætt; það eldist og þarfnast tíðar viðhalds, sem er dýrt.
Kostir
- Gögn er einfalt að finna, sækja og spyrjast fyrir um.
- Svo lengi sem gögnin eru þegar hrein er undirbúningur SQL gagna einföld.
Gallar
- Þú neyðist til að nota aðeins einn greiningaraðila.
- Það er ansi kostnaðarsamt að greina og geyma ómótuð eða flæðandi gögn.
Hvað er Data Lake?
Öllum tegundum gagna er lofað og gert mögulegt með gagnavötnum. Það er hagkvæmt að hafa gögn á aðgengilegan hátt miðsvæðis og aðgengileg til lestrar.
Gagnavatn er miðstýrt, ákaflega aðlögunarhæft geymslurými þar sem gríðarlegt magn af skipulögðum og óskipulögðum gögnum er haldið í óunnið, óbreytt og ósniðið form.
Gagnavatn notar flatan arkitektúr og hluti sem eru geymdir í óunnu ástandi til að geyma gögn, öfugt við gagnavöruhús, sem vista tengslagögn sem áður hafa verið „hreinsuð“.
Gagnavötn, öfugt við gagnavöruhús, sem eiga í erfiðleikum með að meðhöndla gögn á þessu sniði, eru aðlögunarhæf, áreiðanleg og hagkvæm og gera fyrirtækjum kleift að fá aukna innsýn frá óskipulögðum gögnum.
Í gagnavötnum eru gögn dregin út, hlaðin og umbreytt (ELT) í greiningartilgangi frekar en að hafa stefið eða gögnin staðfest á þeim tíma sem gagnasöfnunin var gerð.
Að nota tækni fyrir margar tegundir gagna frá IoT tækjum, félagslega fjölmiðla, og streymigögn, gagnavötn gera vélanám og forspárgreiningar kleift.
Að auki getur gagnafræðingur sem getur unnið úr hrágögnum notað gagnavatnið. Gagnageymsla er aftur á móti auðveldara fyrir fyrirtæki í notkun. Það er fullkomið fyrir notendasnið, sjálfvirk greining, vélanám og önnur verkefni.
Þrátt fyrir að gagnavötn taki á nokkrum vandamálum með gagnavöruhús eru gagnagæði þeirra léleg og fyrirspurnarhraði þeirra er ófullnægjandi. Að auki þarf aukaverkfæri fyrir viðskiptanotendur til að framkvæma SQL fyrirspurnir. Gagnavatn sem er illa uppbyggt gæti lent í vandræðum með stöðnun gagna.
Kostir Data Lake
- Stuðningur við fjölbreytt úrval vélanáms- og gagnavísindatilvika Það er einfaldara að nota aðra vél og djúpnámsreiknirit til að meðhöndla gögnin í gagnavötnum þar sem gögnunum er haldið á opinn, hráan hátt.
- Fjölhæfni Data Lakes, sem gerir þér kleift að geyma gögn á hvaða sniði eða miðli sem er án kröfu um forstillt skema, er stór kostur. Hægt er að styðja við framtíðartilvik gagnanotkunar og hægt er að greina fleiri gögn ef gögnin eru skilin eftir í upprunalegu ástandi.
- Til þess að forðast að þurfa að geyma báðar tegundir gagna í ýmsum samhengi geta gagnavötn innihaldið bæði skipulögð og óskipulögð gögn. Fyrir geymslu ýmiss konar skipulagsgagna bjóða þeir upp á eina staðsetningu.
- Í samanburði við hefðbundin gagnageymslur eru gagnavötn ódýrari vegna þess að þau eru byggð til að vera geymd á ódýrum vörubúnaði, svo sem geymsluplássi, sem oft er ætlað fyrir lægri kostnað á hvert geymt gígabæt.
Takmarkanir Data Lake
- Notkunartilvik gagnagreiningar og viðskiptagreindar skora illa: Gagnavötn geta orðið óskipulögð ef þeim er ekki viðhaldið nægilega vel, sem gerir það erfitt að tengja þau við viðskiptagreind og greiningartæki. Að auki, þegar nauðsynlegt er fyrir skýrslugerð og greiningarnotkunartilvik, skortur á samræmi gagnaskipan og ACID (atómvirkni, samkvæmni, einangrun og ending) viðskiptastuðningur getur leitt til óákjósanlegra fyrirspurna.
- Ósamræmi Data Lakes gerir það ómögulegt að framfylgja áreiðanleika og öryggi gagna, sem leiðir til skorts á hvoru tveggja. Það getur verið erfitt að þróa viðeigandi gagnaöryggis- og stjórnunarstaðla til að koma til móts við viðkvæmar gagnategundir, þar sem gagnavötn geta séð um hvaða gagnaform sem er.
Kostir
- Lausnir sem eru á viðráðanlegu verði fyrir allar tegundir gagna.
- Geta meðhöndlað gögn sem eru bæði skipulögð og hálfgerð.
- Tilvalið fyrir flókna gagnavinnslu og streymi.
Gallar
- Þarfnast að byggja upp háþróaða leiðslu.
- Gefðu gögnum tíma til að verða fyrirspurnarhæf.
- Tekur tíma að tryggja áreiðanleika gagna og gæði.
Hvað er Data Lakehouse?
Nýr stórgagnageymsluarkitektúr sem kallast „gagnavatnshús“ sameinar stærstu þætti gagnavatna og gagnavöruhúsa. Öll gögnin þín, hvort sem þau eru skipulögð, hálfuppbyggð eða óskipulögð, er hægt að geyma á einum stað með bestu vélanámi, viðskiptagreind og streymismöguleika sem möguleg er þökk sé gagnavatnshúsi.
Gagnavötn af öllu tagi eru oft upphafspunktur gagnavatnahúsa; eftir það er gögnunum breytt í Delta Lake snið (opinn uppspretta geymslulag sem færir gagnavötnum áreiðanleika).
Gagnavötn með deltavötnum gera ACID viðskiptaaðferðir frá hefðbundnum gagnageymslum kleift. Í meginatriðum notar vatnahúsakerfið ódýra geymslu til að viðhalda gríðarlegu magni gagna í upprunalegu formi, líkt og gagnavötnum.
Að bæta lýsigagnalaginu ofan á verslunina gefur einnig gagnaskipulag og styrkir gagnastjórnunartæki eins og þau sem finnast í gagnageymslum.
Þetta gerir mörgum teymum mögulegt að fá aðgang að öllum gögnum fyrirtækisins í gegnum eitt kerfi fyrir margvísleg frumkvæði, svo sem gagnafræði, vélanám og viðskiptagreind.
Kostir Data Lakehouse
- Stuðningur við stærra svið vinnuálags: Til að auðvelda háþróaða greiningu, veita gagnavatnahús notendum beinan aðgang að nokkrum af vinsælustu viðskiptagreindarverkfærunum (Tableau, PowerBI). Að auki geta gagnafræðingar og vélanámsverkfræðingar auðveldlega notað gögnin þar sem gagnavatnahús nota opin gagnasnið (eins og Parket) ásamt API og vélanámsramma, svo sem Python/R.
- Hagkvæmni: Gagnahús nota ódýrar hlutgeymslulausnir til að innleiða hagkvæma geymslueiginleika gagnavatna. Með því að bjóða upp á eina lausn, losa gagnavatnahús einnig útgjöld og tíma sem fylgja stjórnun ýmissa gagnageymslukerfa.
- Data Lakehouse hönnun tryggir skema og gagnaheilleika, sem gerir það einfaldara að byggja upp skilvirkt gagnaöryggi og stjórnunarkerfi. Vellíðan af gagnaútgáfu, stjórnarhætti og öryggi.
- Data Lakehouses bjóða upp á einn, fjölnota gagnageymsluvettvang sem getur mætt öllum gagnakröfum fyrirtækisins, sem dregur úr tvíverknaði gagna. Meirihluti fyrirtækja velur blendingalausn vegna ávinnings bæði gagnavöruhússins og gagnavatnsins. Þessi stefna gæti á sama tíma leitt til kostnaðarsamrar tvíföldunar gagna.
- Stuðningur við opin snið. Opin snið eru skráargerðir sem hægt er að nota af mörgum hugbúnaðarforritum og forskriftir þeirra eru aðgengilegar almenningi. Samkvæmt skýrslum eru Lakehouses fær um að geyma gögn á algengum skráarsniðum eins og Apache Parket og ORC (Optimized Row Columnar).
Takmarkanir Data Lakehouse
Stærsti galli gagnavatnshúss er að það er enn ung og þróandi tækni. Óvíst er hvort það muni standa við skuldbindingar sínar í kjölfarið. Áður en gagnavatnahús geta keppt við rótgróin stórgagnageymslukerfi gæti það tekið mörg ár.
Hins vegar, miðað við þann hraða sem nútíma nýsköpun á sér stað, er erfitt að segja til um hvort annað gagnageymslukerfi muni ekki að lokum koma í stað þess.
Kostir
- Einn vettvangur hefur öll gögnin, sem þýðir að það eru færri hýsingarnöfn til að viðhalda.
- Atómvirkni, samkvæmni, einangrun og hörku eru óbreytt.
- Það er verulega hagkvæmara.
- Einn vettvangur hefur öll gögnin, sem þýðir að það eru færri hýsingarnöfn til að viðhalda.
- Einfalt í umsjón og fljótlegt að laga öll vandamál
- Gerðu það einfaldara að smíða leiðslu
Gallar
- Uppsetning getur tekið nokkurn tíma.
- Það er of ungt og of langt í burtu til að geta verið viðurkennt geymslukerfi.
Data Warehouse vs Data Lake vs Data Lakehouse
Gagnahús á sér langa sögu í upplýsinga-, skýrslu- og greiningarforritum fyrirtækja og er fyrsta stórgagnageymslutæknin.
Gagnageymslur eru aftur á móti dýr og eiga í vandræðum með að meðhöndla fjölbreytt og óskipulögð gögn, svo sem streymigögn. Fyrir vinnuálag vélanáms og gagnavísinda voru gagnavötn þróuð til að stjórna hráum gögnum í fjölbreyttu formi á hagkvæmri geymslu.
Þrátt fyrir að gagnavötn séu áhrifarík með óskipulögð gögn, þá skortir þau ACID viðskiptagetu gagnavöruhúsa, sem gerir það krefjandi að tryggja samræmi og áreiðanleika gagna.
Nýjasta gagnageymsluarkitektúrinn, þekktur sem „gagnavatnshúsið“, sameinar áreiðanleika og samkvæmni gagnageymslur með hagkvæmni og aðlögunarhæfni gagnavatna.
Niðurstaða
Að lokum gæti verið erfitt að byggja upp gagnavatnshús frá grunni. Ennfremur munt þú næstum örugglega nota vettvang sem er hannaður til að virkja arkitektúr í opnum gögnum.
Þess vegna skaltu fara varlega í að rannsaka marga eiginleika og útfærslur hvers vettvangs áður en þú kaupir. Fyrirtæki sem eru að leita að þroskaðri, skipulagðri gagnalausn með áherslu á viðskiptagreind og notkunartilvik gagnagreiningar geta íhugað gagnavöruhús.
Hins vegar ættu fyrirtæki sem leita að stigstærri, hagkvæmri stórgagnalausn til að knýja vinnuálag fyrir gagnafræði og vélanám á óskipulögðum gögnum að íhuga gagnavötn.
Íhugaðu að fyrirtækið þitt þarfnast meiri gagna en gagnavöruhús og gagnavatnstæknin getur veitt, eða að þú ert að leita að lausn til að samþætta háþróuð greiningar- og vélanámsaðgerðir við gögnin þín. A data lakehouse er skynsamlegur kostur í stöðunni.
Skildu eftir skilaboð