Saturs[Paslēpt][Rādīt]
Uzņēmumi tver vairāk datu nekā jebkad agrāk, jo tie arvien vairāk paļaujas uz tiem, lai pieņemtu svarīgus biznesa lēmumus, uzlabotu produktu piedāvājumu un nodrošinātu labāku klientu apkalpošanu.
Tā kā datu daudzums tiek izveidots eksponenciālā ātrumā, mākonis piedāvā vairākas priekšrocības datu apstrādei un analīzei, tostarp mērogojamību, uzticamību un pieejamību.
Mākoņu ekosistēmā ir arī vairāki rīki un tehnoloģijas datu apstrādei un analīzei. Visbiežāk tiek izmantoti divu veidu lielo datu uzglabāšanas struktūras, kas ir datu noliktavas un datu ezeri.
Lai gan datu ezera izmantošana nav tik pievilcīga, jo modeli un datus nevar pieprasīt, kamēr tie joprojām ir aktuāli, datu noliktavas izmantošana datu straumēšanai ir izšķērdīga.
Wkādu mākoņu arhitektūras veidu mēs izvēlamies?
Vai mums vajadzētu apsvērt jaunākas koncepcijas datu ezeram, vai arī mums būtu jāapmierinās ar noliktavas vai ezera ierobežojumiem?
Jaunā datu glabāšanas arhitektūra, ko sauc par “datu ezeru māju”, apvieno datu ezeru pielāgošanās spēju ar datu noliktavu datu pārvaldību.
Izpratne par dažādām lielo datu glabāšanas metodēm ir būtiska, lai izveidotu uzticamu datu glabāšanas cauruļvadu biznesa informācijas (BI), datu analīzes un mašīna mācīšanās (ML) darba slodzes atkarībā no jūsu uzņēmuma prasībām.
Šajā ziņā mēs rūpīgi apskatīsim Data Warehouse, Data Lake un Data Lakehouse ar priekšrocībām, ierobežojumiem, kā arī to plusiem un mīnusiem. Sāksim.
Kas ir datu noliktava?
Datu noliktava ir centralizēta datu krātuve, ko organizācija izmanto, lai glabātu milzīgus datu apjomus no daudziem avotiem. Datu noliktava darbojas kā organizācijas vienīgais “datu patiesības” avots, un tā ir būtiska atskaišu veidošanai un biznesa analītikai.
Parasti datu noliktavas apvieno relāciju datu kopas no vairākiem avotiem, piemēram, lietojumprogrammu, biznesa un darījumu datiem, lai saglabātu vēsturiskos datus. Pirms iekraušanas noliktavu sistēmā dati tiek pārveidoti un iztīrīti datu noliktavās, lai tos varētu izmantot kā vienotu datu patiesības avotu.
Tā kā uzņēmumi spēj ātri piedāvāt biznesa ieskatus no visām uzņēmuma jomām, uzņēmumi iegulda datu noliktavās. Izmantojot BI rīkus, SQL klientus un citus mazāk sarežģītus (ti, ar datu zinātni nesaistītus) analītikas risinājumus, biznesa analītiķi, datu inženieri un lēmumu pieņēmēji var piekļūt datiem no datu noliktavām.
Ir dārgi uzturēt noliktavu ar arvien pieaugošo datu apjomu, un datu noliktava nevar apstrādāt neapstrādātus vai nestrukturētus datus. Turklāt tas nav ideāls risinājums sarežģītām datu analīzes metodēm, piemēram, mašīnmācībai vai paredzamajai modelēšanai.
Tāpēc datu noliktava nodrošina ātrākas atbildes uz vaicājumiem un augstākas kvalitātes datus. Google Big Query, Amazon Redshift, Azure SQL Data warehouse un Snowflake ir mākoņpakalpojumi, kas ir pieejami datu noliktavām.
Datu noliktavas priekšrocības
- Biznesa informācijas un datu analīzes darba slodzes efektivitātes un ātruma palielināšana: Datu noliktavas saīsina datu sagatavošanai un analīzei nepieciešamo laiku. Tie var viegli izveidot savienojumu ar datu analītikas un biznesa informācijas rīkiem, jo dati no datu noliktavas ir uzticami un konsekventi. Turklāt datu noliktavas ietaupa laiku, kas nepieciešams datu apkopošanai, un nodrošina komandām iespēju izmantot datus pārskatiem, informācijas paneļiem un citām analītikas prasībām.
- Datu konsekvences, kvalitātes un standartizācijas palielināšana: organizācijas vāc datus no dažādiem avotiem, tostarp lietotāju, pārdošanas un darījumu datus. Uzņēmums var uzticēties datiem biznesa vajadzībām, jo datu noliktavā tiek apkopoti uzņēmuma dati vienotā, standartizētā formātā, kas var darboties kā viens datu patiesības avots.
- Lēmumu pieņemšanas uzlabošana kopumā: Datu noliktavas atvieglo labāku lēmumu pieņemšanu, piedāvājot centralizētu veikalu gan jaunākajiem, gan vecajiem datiem. Apstrādājot datus datu noliktavās, lai iegūtu precīzu ieskatu, lēmumu pieņēmēji var novērtēt riskus, izprast klientu vēlmes un uzlabot preces un pakalpojumus.
- Labākas biznesa informācijas nodrošināšana: Datu glabāšana novērš plaisu starp apjomīgiem neapstrādātajiem datiem, kas bieži tiek savākti regulāri kā pašsaprotami, un atlasītajiem datiem, kas sniedz ieskatu. Tie darbojas kā organizācijas datu glabāšanas pamats, ļaujot tai atbildēt uz sarežģītiem jautājumiem par datiem un izmantot atbildes, lai pieņemtu pamatotus biznesa lēmumus.
Datu noliktavas ierobežojumi
- Datu elastības trūkums: lai gan datu noliktavas ir izcilas strukturētu datu apstrādē, daļēji strukturēti un nestrukturēti datu formāti, piemēram, žurnālu analīze, straumēšana un sociālo mediju dati, tām var būt izaicinājums. Tas ļauj ieteikt datu noliktavas lietošanai gadījumiem, kas saistīti ar mašīnmācīšanos un mākslīgais intelekts grūti.
- Dārgi uzstādīt un uzturēt: Datu noliktavu uzstādīšana un uzturēšana var būt dārga. Turklāt datu noliktava bieži vien nav statiska; tas noveco un ir bieži jākopj, kas ir dārgi.
Plusi
- Datus ir vienkārši atrast, izgūt un vaicāt.
- Kamēr dati jau ir tīri, SQL datu sagatavošana ir vienkārša.
Mīnusi
- Jūs esat spiests izmantot tikai vienu analītikas piegādātāju.
- Nestrukturētu vai plūstošu datu analīze un glabāšana ir diezgan dārga.
Kas ir Data Lake?
Datu ezeri sola un padara iespējamus jebkura veida datus. Ir izdevīgi, ja dati ir pieejami centralizēti un pieejami lasīšanai.
Datu ezers ir centralizēta, īpaši pielāgojama uzglabāšanas vieta, kurā tiek glabāti milzīgi sakārtotu un nestrukturētu datu apjomi neapstrādātā, nemainītā un neformatētā formā.
Datu ezerā datu glabāšanai tiek izmantota plakana arhitektūra un objekti, kas tiek glabāti neapstrādātā stāvoklī, pretstatā datu noliktavām, kas saglabā relāciju datus, kas iepriekš ir “notīrīti”.
Datu ezeri, atšķirībā no datu noliktavām, kurām ir grūtības apstrādāt datus šajā formātā, ir pielāgojami, uzticami un par pieņemamu cenu, un ļauj uzņēmumiem iegūt uzlabotu ieskatu no nestrukturētiem datiem.
Datu ezeros dati tiek iegūti, ielādēti un pārveidoti (ELT) analītiskos nolūkos, nevis datu vākšanas laikā izveidoto shēmu vai datus.
Tehnoloģiju izmantošana daudziem datu veidiem no IoT ierīcēm, sociālo mediju, un datu straumēšana, datu ezeri nodrošina mašīnmācīšanos un paredzamo analīzi.
Turklāt datu zinātnieks, kurš var apstrādāt neapstrādātus datus, var izmantot datu ezeru. No otras puses, datu noliktava uzņēmumiem ir vieglāk lietojama. Tas ir lieliski piemērots lietotāju profilēšanai, prognozējošā analīze, mašīnmācīšanās un citi uzdevumi.
Lai gan datu ezeri risina vairākas problēmas ar datu noliktavām, to datu kvalitāte ir slikta un to vaicājumu ātrums ir nepietiekams. Turklāt biznesa lietotājiem ir nepieciešami papildu rīki, lai veiktu SQL vaicājumus. Datu ezeram, kas ir slikti strukturēts, var rasties datu stagnācijas problēma.
Datu ezera priekšrocības
- Atbalsts plašam mašīnmācības un datu zinātnes lietojuma gadījumu klāstam Datu apstrādei datu ezeros ir vienkāršāk izmantot atšķirīgus mašīnmācīšanās un dziļās mācīšanās algoritmus, jo dati tiek glabāti atklātā, neapstrādātā veidā.
- Datu ezeru daudzpusība, kas ļauj uzglabāt datus jebkurā formātā vai datu nesējā, neprasot iepriekš iestatītu shēmu, ir liela priekšrocība. Nākotnes datu izmantošanas gadījumus var atbalstīt, un var analizēt vairāk datu, ja dati tiek atstāti sākotnējā stāvoklī.
- Lai nebūtu jāuzglabā abu veidu dati dažādos kontekstos, datu ezeros var būt gan strukturēti, gan nestrukturēti dati. Dažādu veidu organizācijas datu glabāšanai tie piedāvā vienu atrašanās vietu.
- Salīdzinot ar tradicionālajām datu noliktavām, datu ezeri ir lētāki, jo tie ir veidoti tā, lai tos glabātu uz lētas preču aparatūras, piemēram, objektu glabāšanas, kas bieži vien ir paredzēta zemākām izmaksām par vienu saglabāto gigabaitu.
Datu ezera ierobežojumi
- Datu analīzes un biznesa informācijas izmantošanas gadījumi ir slikti rezultāti: datu ezeri var kļūt neorganizēti, ja tie netiek pienācīgi uzturēti, kas apgrūtina to sasaisti ar biznesa informācijas un analītikas rīkiem. Turklāt, ja tas ir nepieciešams ziņošanai un analītikas izmantošanas gadījumiem, konsekvences trūkums datu struktūras un ACID (atomiskums, konsekvence, izolācija un izturība) darījumu atbalsts var novest pie neoptimālas vaicājuma veiktspējas.
- Datu ezeru nekonsekvence padara neiespējamu datu uzticamības un drošības ieviešanu, kā rezultātā trūkst abu. Var būt grūti izstrādāt atbilstošus datu drošības un pārvaldības standartus, kas atbilstu sensitīvu datu tipiem, jo datu ezeri var apstrādāt jebkuru datu formu.
Plusi
- Risinājumi, kas ir pieejami visu veidu datiem.
- Spēj apstrādāt gan organizētus, gan daļēji strukturētus datus.
- Ideāli piemērots sarežģītai datu apstrādei un straumēšanai.
Mīnusi
- Ir nepieciešams izbūvēt sarežģītu cauruļvadu.
- Dodiet datiem kādu laiku, lai tie kļūtu pieprasāmi.
- Ir vajadzīgs laiks, lai garantētu datu uzticamību un kvalitāti.
Kas ir Data Lakehouse?
Jaunā lielo datu krātuves arhitektūra, ko sauc par “datu ezera māju”, apvieno labākos datu ezeru un datu noliktavu aspektus. Visus jūsu datus, neatkarīgi no tā, vai tie ir strukturēti, daļēji strukturēti vai nestrukturēti, var glabāt vienā vietā ar vislabākajām mašīnmācības, biznesa inteliģences un straumēšanas iespējām, kas ir iespējamas, pateicoties datu ezeram.
Datu ezeru māju sākumpunkts bieži ir visu veidu datu ezeri; pēc tam dati tiek pārveidoti Delta Lake formātā (atvērtā koda krātuves slānis, kas nodrošina datu ezeru uzticamību).
Datu ezeri ar delta ezeriem nodrošina ACID darījumu procedūras no parastajām datu noliktavām. Būtībā Lakehouse sistēma izmanto lētu krātuvi, lai uzturētu milzīgus datu apjomus to sākotnējā formā, līdzīgi kā datu ezeri.
Metadatu slāņa pievienošana veikala augšpusē nodrošina arī datu struktūru un nodrošina datu pārvaldības rīkus, piemēram, tos, kas atrodami datu noliktavās.
Tas ļauj daudzām komandām piekļūt visiem uzņēmuma datiem, izmantojot vienu sistēmu dažādām iniciatīvām, piemēram, datu zinātnei, mašīnmācībai un biznesa informācijai.
Data Lakehouse priekšrocības
- Atbalsts lielākam darba slodžu klāstam: lai atvieglotu sarežģītu analīzi, datu ezeru mājas lietotājiem nodrošina tiešu piekļuvi dažiem no populārākajiem biznesa informācijas rīkiem (Tableau, PowerBI). Turklāt datu zinātnieki un mašīnmācīšanās inženieri var viegli izmantot datus, jo datu ezeru mājas izmanto atvērto datu formātus (piemēram, Parquet) kopā ar API un mašīnmācīšanās ietvariem, piemēram, Python/R.
- Izmaksu efektivitāte: datu ezeru mājas izmanto lētus objektu uzglabāšanas risinājumus, lai ieviestu datu ezeru rentablas uzglabāšanas īpašības. Piedāvājot vienotu risinājumu, datu ezeru mājas arī samazina izdevumus un laiku, kas saistīti ar dažādu datu uzglabāšanas sistēmu pārvaldību.
- Data Lakehouse dizains nodrošina shēmu un datu integritāti, padarot vienkāršāku efektīvu datu drošības un pārvaldības sistēmu izveidi. Vieglums datu versiju veidošana, pārvaldība un drošība.
- Datu ezeru mājas piedāvā vienu, daudzfunkcionālu datu uzglabāšanas platformu, kas spēj apmierināt visas uzņēmuma datu prasības, tādējādi samazinot datu dublēšanos. Lielākā daļa uzņēmumu izvēlas hibrīda risinājumu gan datu noliktavas, gan datu ezera priekšrocību dēļ. Tikmēr šī stratēģija var izraisīt dārgu datu dublēšanos.
- Atvērto formātu atbalsts. Atvērtie formāti ir failu tipi, kurus var izmantot daudzas programmatūras lietojumprogrammas un kuru specifikācijas ir publiski pieejamas. Saskaņā ar ziņojumiem Lakehouses spēj uzglabāt datus tādos izplatītos failu formātos kā Apache Parquet un ORC (Optimized Row Columnar).
Datu Lakehouse ierobežojumi
Datu ezera mājas lielākais trūkums ir tas, ka tā joprojām ir jauna un attīstās tehnoloģija. Nav skaidrs, vai tā rezultātā pildīs savas saistības. Pirms datu ezeru mājas var konkurēt ar izveidotajām lielo datu uzglabāšanas sistēmām, var paiet gadi.
Tomēr, ņemot vērā mūsdienu inovāciju rašanās ātrumu, ir grūti pateikt, vai to galu galā neaizstās cita datu uzglabāšanas sistēma.
Plusi
- Vienā platformā ir visi dati, kas nozīmē, ka jāuztur mazāk saimniekdatoru nosaukumu.
- Atomiskums, konsistence, izolācija un stingrība netiek ietekmēta.
- Tas ir ievērojami lētāks.
- Vienā platformā ir visi dati, kas nozīmē, ka jāuztur mazāk saimniekdatoru nosaukumu.
- Vienkārši pārvaldāms un ātri novērš visas problēmas
- Vienkāršojiet cauruļvada izbūvi
Mīnusi
- Iestatīšana var aizņemt kādu laiku.
- Tā ir pārāk jauna un pārāk tālu, lai kvalificētos kā izveidota uzglabāšanas sistēma.
Datu noliktava vs Data Lake vs Data Lakehouse
Datu noliktavai ir gara vēsture korporatīvās informācijas, atskaišu un analītikas lietojumprogrammās, un tā ir pirmā lielo datu uzglabāšanas tehnoloģija.
No otras puses, datu noliktavas ir dārgas, un tām ir grūtības apstrādāt dažādus un nestrukturētus datus, piemēram, straumēšanas datus. Mašīnmācības un datu zinātnes darba slodzēm tika izstrādāti datu ezeri, lai pārvaldītu neapstrādātus datus dažādās formās pieejamā krātuvē.
Lai gan datu ezeri ir efektīvi ar nestrukturētiem datiem, tiem trūkst datu noliktavu ACID transakciju iespēju, tāpēc ir sarežģīti garantēt datu konsekvenci un uzticamību.
Jaunākā datu krātuves arhitektūra, kas pazīstama kā “datu ezera nams”, apvieno datu noliktavu uzticamību un konsekvenci ar datu ezeru pieejamību un pielāgojamību.
Secinājumi
Noslēgumā jāsaka, ka datu ezera mājas izveide no nulles varētu būt sarežģīta. Turklāt jūs gandrīz noteikti izmantosit platformu, kas izstrādāta, lai iespējotu atvērto datu ezera arhitektūru.
Tāpēc pirms pirkuma veikšanas esiet piesardzīgs, lai izpētītu daudzās katras platformas funkcijas un ieviešanas iespējas. Uzņēmumi, kas meklē nobriedušu, strukturētu datu risinājumu, koncentrējoties uz biznesa inteliģenci un datu analītikas izmantošanas gadījumiem, var apsvērt iespēju izveidot datu noliktavu.
Tomēr uzņēmumiem, kas meklē mērogojamu, pieejamu lielo datu risinājumu, lai palielinātu datu zinātnes un mašīnmācības darba slodzi, izmantojot nestrukturētus datus, būtu jāapsver datu ezeri.
Ņemiet vērā, ka jūsu uzņēmumam ir nepieciešams vairāk datu, nekā var nodrošināt datu noliktavas un datu ezera tehnoloģijas, vai arī jūs meklējat risinājumu, lai jūsu datos integrētu sarežģītas analītikas un mašīnmācīšanās darbības. A datu ezera māja ir saprātīgs risinājums šajā situācijā.
Atstāj atbildi