Dema ku hûn li ser platformên daneyê difikirin, dibe ku hinekî dijwar be ku meriv hemî karûbarên berdest û vebijarkên mîmarî bihesibîne.
Platformek daneya pargîdanî bi gelemperî ji depoyên daneyê, modelên daneyê, golên daneyê, û raporan pêk tê, ku her yek bi armancek taybetî û komek jêhatîbûnên hewce ne. Berevajî vê, sêwiranek nû ya bi navê data lakehouse di van çend salên dawî de derketiye holê.
Pirrengiya golên daneyê û rêveberiya daneya depoya daneyê di mîmariya hilanîna daneya şoreşgerî ya ku jê re "gola daneyê" tê binav kirin de têne hev kirin.
Em ê di vê postê de daneya lakehouse bi kûrahî vekolînin, tevî pêkhateyên wê, taybetmendî, mîmarî, û aliyên din.
Data Lakehouse çi ye?
Wekî ku ji navê xwe diyar dike, gola daneyê celebek nû ya mîmariya daneyê ye ku gola daneyê bi depoyek daneyê re dike yek da ku kêmasiyên her yekê ji hev cuda çareser bike.
Di eslê xwe de, pergala lakehouse hilanîna erzan bikar tîne da ku mîqdarên girseyî yên daneyê di formên xwe yên orjînal de biparêze, pir mîna golên daneyê. Zêdekirina qata metadata li jora dikanê di heman demê de strukturên daneyê jî dide û amûrên rêveberiya daneyê mîna yên ku di depoyên daneyê de têne dîtin hêzdar dike.
Ew cildên mezin ên daneyên organîze, nîv-sazkirî û nesazkirî yên ku ew ji serîlêdanên karsaziyê, pergal û amûrên cihêreng ên ku li seranserê rêxistina xwe têne bikar anîn digirin hilîne.
Pir caran, golên daneyê binesaziya hilanînê ya erzan bi navgînek bernamesaziya serîlêdana pelê (API) bikar tînin da ku daneyan di pelên vekirî, pelên gelemperî de hilînin.
Ev dihêle ku gelek tîm bigihîjin hemî daneyên pargîdaniyê bi pergalek yekane ji bo cûrbecûr destpêşxerî, wekî zanistiya daneyê, fêrbûna makîneyê, û îstîxbarata karsaziyê.
Features
- Hilberîna kêm-mesref. Lakehousek daneyê pêdivî ye ku bikaribe daneyan di hilanîna tiştên erzan de hilîne, wek mînak Google Cloud Storage, Azure Blob Storage, Amazon Simple Storage Service, an bi xwemalî ORC an Parquet bikar tînin.
- Kapasîteya ji bo xweşbînkirina daneyê: Optimîzasyona nexşeya daneyê, cachkirin, û îndekskirin çend mînak in ku çawa lakehouseek daneyê pêdivî ye ku di heman demê de forma orîjînal a daneyê biparêze, daneyan xweşbîn bike.
- Qatek metadata danûstendinê: Li ser hilanîna kêm-lêçûn a bingehîn, ev yek kapasîteyên rêveberiya daneyê yên ji bo performansa depoya daneyê girîng dike.
- Piştgiriya ji bo API-ya Daxuyaniya DataFrame: Piraniya amûrên AI-ê dikarin DataFrames bikar bînin da ku daneyên hilanîna tiştên xav bistînin. Piştgiriya Declarative DataFrame API şiyana baştirkirina dînamîk pêşkêşî û strukturê daneyê di bersivdana zanistiya daneya taybetî an peywira AI-ê de zêde dike.
- Piştgiriya ji bo danûstendinên ACID: Kurtenivîsa ACID, ku ji bo atomî, hevgirtî, veqetandin, û domdariyê radiweste, di pênasekirina danûstendinê de û dabînkirina hevgirtî û pêbaweriya daneyan de pêkhateyek girîng e. Danûstendinên bi vî rengî berê tenê di depoyên daneyê de gengaz bûn, lê lakehouse vebijarka karanîna wan bi golên daneyê re pêşkêşî dike her wiha. Bi gelek lûleyên daneyê re tevî xwendin û nivîsandina daneya hevdem, ev pirsgirêka kêmbûna kalîteya daneya ya paşîn çareser dike.
Hêmanên Daneyên Lakehouse
Mîmariya gola daneyê di astek bilind de li du qatên sereke tê dabeş kirin. Girtina daneya qata hilanînê ji hêla platforma Lakehouse ve tê kontrol kirin (ango, gola daneyê).
Bêyî ku hewce bike ku daneyan li depoyek daneyê bar bike an jî wê veguhezîne formatek xwedan, dûv re qata pêvajoyê dikare rasterast bi karanîna cûrbecûr amûran li daneyên di qata hilanînê de bipirse.
Dûv re, serîlêdanên BI, û hem jî teknolojiyên AI û ML, dikarin daneyan bikar bînin. Aboriya gola daneyê ji hêla vê sêwiranê ve tê peyda kirin, lê ji ber ku her motorek pêvajoyê dikare van daneyan bixwîne, karsazî xwedî azadiya ku daneya amadekirî ji hêla cûrbecûr pergalan ve ji bo analîzê bigihîjin hev. Performansa pêvajoyê û lêçûn dikare hem bi karanîna vê rêbazê ji bo pêvajo û analîzê were çêtir kirin.
Ji ber piştgirîya wê ji bo danûstendinên databasê yên ku bi pîvanên jêrîn ên ACID (atomî, hevgirtî, veqetandin, û domdarî) ve girêdayî ne, mîmarî di heman demê de rê dide gelek aliyan ku di nav pergalê de hevdem bigihîjin û daneyan binivîsin:
- Atomîbûn amaje bi wê yekê dike ku an danûstendinek tam an jî yek jê, dema ku danûstendinek biqedîne bi ser dikeve. Di bûyera ku pêvajoyek qut bibe, ev ji windabûna daneyan an gendeliyê dûr dikeve.
- Pêdiviya garantî dike ku danûstendin bi rengek pêşbînîkirî, domdar pêk tê. Ew yekparçetiya daneyan diparêze û pê ewle dike ku her dane li gorî rêgezên pêşwext rewa ye.
- tenêkirinî piştrast dike ku, heya ku ew biqede, ti danûstendin nikare bandorê li danûstendinek din a di nav pergalê de neke. Ev dihêle ku gelek partî bi hevdemî ji heman pergalê bixwînin û binivîsin bêyî ku destwerdana hevûdu bikin.
- Xweparêzî garantî dike ku guhertinên daneyên di pergalê de piştî ku danûstendinek qediya jî hebûna xwe bidomînin, tewra di bûyera têkçûna pergalê de. Her guhertinên ku ji hêla danûstendinê ve têne çêkirin her û her di pelê de têne girtin.
Daneyên Lakehouse Architecture
Databricks (navdêr û sêwiranerê konsepta wan a Delta Lake) û AWS du parêzvanên sereke ne ji bo konsepta gola daneyê. Ji ber vê yekê em ê xwe bispêrin zanîn û têgihiştina wan ji bo danasîna sêwirana mîmarî ya golan.
Pergalek lakehouse ya daneyê dê bi gelemperî pênc qat be:
- Tebeqeya avêtinê
- Storage layer
- Metadata qatê
- layer API
- Tebeqeya serfkirinê
Tebeqeya avêtinê
Qata yekem a pergalê berpirsiyar e ku daneyan ji çavkaniyên cihêreng berhev bike û bişîne qata hilanînê. Qat dikare çend protokolan bikar bîne da ku bi gelek çavkaniyên hundurîn û derveyî ve were girêdan, di nav de tevhevkirina kapasîteyên hilberandina daneya berhevok û veguhêz, wek mînak
- Databasên NoSQL,
- parvekirina pelan
- sepanên CRM,
- malperên,
- Sensorên IoT,
- medyaya civakî,
- Sepanên nermalava wekî karûbarê (SaaS), û
- pergalên rêveberiya databasa têkildar, hwd.
Di vê nuqteyê de, hêmanên mîna Apache Kafka ji bo weşana daneyê û Karûbarê Koçberiya Daneyên Amazon (Amazon DMS) ji bo anîna daneyan ji databasên RDBMS û NoSQL dikarin werin xebitandin.
Storage layer
Mîmariya lakehouse tê vê wateyê ku hilanîna cûrbecûr daneyan wekî tiştan di firotgehên tiştên erzan de, wek AWS S3, bike. Bi karanîna formên pelên vekirî, amûrên xerîdar wê hingê dikarin van tiştan rasterast ji firotgehê bixwînin.
Ev dihêle ku gelek API û pêkhateyên qata serfkirinê bigihîjin heman daneyan û bikar bînin. Parçeya metadata şemayên ji bo danehevên birêkûpêk û nîv-sazkirî hilîne da ku hêman gava ku ew dixwînin wan li daneyan bicîh bikin.
Mînakî, platforma Pergala Pelê ya Dabeşkirî ya Hadoop (HDFS), dikare were bikar anîn da ku karûbarên depoya ewr ava bike ku hesabkirin û hilanînê li hundurê xwe vediqetîne. Lakehouse ji bo van karûbaran îdeal e.
Metadata qatê
Parçeya metadata pêkhateya bingehîn a gola daneyê ye ku vê sêwiranê ji hev vediqetîne. Ew katalogek yekane ye ku ji bo hemî tiştên ku li golê hatine hilanîn metadata (agahdariya li ser perçeyên din ên daneyê) pêşkêşî dike û dihêle bikarhêneran kapasîteyên rêveberiyê wekî:
- Guhertoyek domdar a databasê bi danûstendinên hevdemî bi saya danûstendinên ACID ve tê dîtin;
- caching ji bo tomarkirina pelên hilanîna tiştên ewr;
- zêdekirina îndeksên strukturên daneyê bi karanîna îndekskirinê ji bo bilezkirina pêvajoya pirsê;
- bikaranîna klonkirina zero-kopî ji bo dubarekirina tiştên daneyê; û
- ji bo hilanîna hin guhertoyên daneyan, hwd., guhertoya daneyê bikar bînin.
Wekî din, qata metadata pêkanîna rêveberiya şemayê, karanîna topolojiyên şema DW yên mîna şemayên stêrk / berfê, û peydakirina rêveberiya daneyê û kapasîteya kontrolê rasterast li ser gola daneyê dihêle, yekbûna tevahiya lûleya daneyê zêde dike.
Taybetmendiyên ji bo pêşkeftin û bicîhkirina şemayê di rêveberiya şemayê de cih digirin. Bi redkirina her nivîsên ku li gorî şema tabloyê nabin, bicîhkirina şema bikarhêneran dihêle ku yekitî û kalîteya daneyê biparêzin.
Pêşveçûna Schema dihêle ku şemaya heyî ya tabloyê were guheztin da ku daneyên guheztinê bicîh bîne. Ji ber navbeynkariya rêveberiyê ya yekane li ser gola daneyê, di heman demê de îmkanên kontrolkirina gihîştinê û kontrolê jî hene.
layer API
Qatek din a girîng a mîmariyê naha heye, mêvandariya hejmarek API-yên ku hemî bikarhênerên paşîn dikarin bikar bînin da ku zûtir karan bikin û statîstîkên sofîstîketir bistînin.
Bikaranîna API-yên metadata naskirin û gihîştina daneyên daneyên ku ji bo serîlêdanek diyarkirî hewce dike hêsantir dike.
Di warê pirtûkxaneyên fêrbûna makîneyê de, hin ji wan, wekî TensorFlow û Spark MLlib, dikarin pelên vekirî yên mîna Parquet bixwînin û rasterast bigihîjin qata metadata.
Di heman demê de, API-yên DataFrame ji bo xweşbîniyê şansên mezintir pêşkêşî dikin, ku bernamenûsan dihêlin ku daneyên belavbûyî bi rêxistin bikin û biguhezînin.
Tebeqeya serfkirinê
Power BI, Tableau, û alav û serîlêdanên din di bin qata serfkirinê de têne mêvandar kirin. Bi sêwirana lakehouse, hemî metadata û hemî daneyên ku di golê de têne hilanîn ji serîlêdanên xerîdar re têne gihîştin.
Lakehouse dikare ji hêla hemî bikarhêneran ve di hundurê pargîdaniyek de were bikar anîn da ku her cûre pêk bîne operasyonên analîtîk, di nav de çêkirina dashboardên îstîxbarata karsaziyê û meşandina pirsên SQL û peywirên fêrbûna makîneyê.
Avantajên Data Lakehouse
Rêxistin dikarin xaniyek daneyê biafirînin da ku platforma daneya xwe ya heyî yek bikin û tevahiya pêvajoya rêveberiya daneya xwe xweşbîn bikin. Bi rakirina astengên silo yên ku çavkaniyên cihêreng ve girêdidin, avahiyek golê dikare şûna hewcedariya çareseriyên cihêreng bigire.
Li gorî çavkaniyên daneya birêkûpêk, ev entegrasyon pêvajoyek dawî-bi-dawî ya girîngtir bi bandor çêdike. Ev çend avantajên hene:
- Rêveberiya kêmtir: Li şûna derxistina daneyan ji daneya xav û amadekirina wê ji bo karanîna di nav depoyek daneyê de, lakehousek rê dide her çavkaniyên ku bi wê ve girêdayî ne ku daneyên wan berdest û ji bo karanîna xwe rêxistin bikin.
- Zêdebûna lêçûn-bandor: Xaniyên golê yên daneyan bi karanîna binesaziya hevdem têne çêkirin ku hesab û hilanînê dabeş dike, bêyî zêdekirina hêza hesabkirinê berfirehkirina hilanînê hêsan dike. Tenê karanîna hilanîna daneya erzan dibe sedema pîvandina ku lêçûn-bandor e.
- Rêvebiriya daneyê çêtir: Xaniyên golê yên daneyan bi mîmariya vekirî ya standardkirî têne çêkirin, ku destûrê dide kontrolkirina bêtir li ser ewlehî, metrîk, gihîştina-based rol, û pêkhateyên din ên rêveberiyê yên girîng. Bi yekkirina çavkaniyan û çavkaniyên daneyê, ew rêveberiyê hêsan dikin û zêde dikin.
- Standardên hêsankirî: Ji ber ku di salên 1980-an de pêwendiyek pir sînordar bû, dema ku depoyên daneyê yekem car hatin pêşve xistin, standardên şema yên herêmî bi gelemperî di hundurê karsaziyan, tewra beşan de jî hatin pêşve xistin. Xaniyên golê yên daneyan vê rastiyê bikar tînin ku gelek celeb daneyan naha standardên vekirî ji bo şemaxê hene bi navgîniya gelek çavkaniyên daneyê yên bi şemaya yekgirtî ya hevgirtî re da ku prosedurên xweş bikin.
Dezawantajên Data Lakehouse
Tevî hemî hoopla derdora golên daneyan, girîng e ku ji bîr mekin ku ev raman hîn jî pir nû ye. Berî ku hûn bi tevahî vê sêwirana nû tevbigerin, pê ewle bin ku dezawantajan giran bikin.
- Avahiyeke monolîtîk: Sêwirana tev-berhev a lakehousek gelek feydeyan pêşkêşî dike, lê ew di heman demê de hin pirsgirêkan jî derdixe holê. Mîmariya monolîtîk bi gelemperî ji bo hemî bikarhêneran berbi karûbarê belengaz dibe û domandina hişk û dijwar dibe. Bi gelemperî, mîmar û sêwiraner mîmariyek modulartir hez dikin ku ew dikarin ji bo rewşên karanîna cihêreng xweş bikin.
- Teknolojî hîn ne li wir e: Armanca dawîn hejmarek girîng fêrbûna makîneyê û îstîxbarata çêkirî vedihewîne. Berî ku xaniyên golê wekî ku tê pêşbînîkirin pêk bînin, divê ev teknolojiyên pêşdetir pêşve bibin.
- Li ser avahiyên heyî pêşveçûnek girîng nîne: Hîn jî gumanek berbiçav li ser wê yekê heye ku golên golan çiqas bêtir bi nirx dê bi rastî beşdar bibin. Hin xirabkar îdia dikin ku sêwirana gol-depoya ku bi alavên otomatîkî yên guncan ve hatî berhev kirin dikare bikêrhatîyek berawirdî bi dest bixe.
Zehmetiyên Daneyên Lakehouse
Zehmet e ku meriv teknîka lakehouse ya daneyê bipejirîne. Ji ber tevliheviya perçeyên wê, nerast e ku meriv gola daneyê wekî avahiyek îdeal a tevdehev an "yek platformek ji bo her tiştî", ji bo yekê nerast e.
Wekî din, ji ber zêdebûna pejirandina golên daneyê, karsazî neçar in ku depoyên daneyên xwe yên heyî li wan bar bikin, tenê bi sozek serfiraziyê ve girêdayî ne ku feydeyên aborî yên xuyangkirî ne.
Ger di tevahiya pêvajoya veguheztinê de pirsgirêkên derengmayînê an qutbûn hebin, dibe ku ev biha, dem-xwar, û dibe ku ne ewledar be.
Bikarhênerên karsaziyê divê teknolojiyên pir pispor hembêz bikin, li gorî hin firoşkarên ku bi eşkere an nepenî çareseriyan wekî golên daneyan difiroşin. Dibe ku ev her gav bi amûrên din ên ku bi gola daneyê ya li navenda pergalê ve girêdayî ne re bixebitin, pirsgirêkan zêde bikin.
Wekî din, dibe ku dijwar be peydakirina analîtîkên 24/7 dema ku bargiraniyên karsaziyê-krîtîk dimeşînin, ku banga binesaziyê bi pîvana lêçûn-bandor dike.
Xelasî
Cûreyên herî nû yên navendên daneyê di salên dawî de gola daneyê ye. Ew cûrbecûr qadan yek dike, wekî teknolojiya agahdariyê, nermalava çavkaniya vekirî, computing ewr, û protokolên hilanînê belav kirin.
Ew karsaziyan dihêle ku hemî celeb daneyan ji her deverê bi navendî hilînin, rêveberî û analîzê hêsan dike. Data Lakehouse têgehek balkêş e.
Her fîrmayek dê xwediyê pêşbaziyek girîng be ger bigihîje platformek daneya hemî-yek-yek ku wekî depoyek daneyê bilez û bikêr bû û di heman demê de wekî gola daneyê jî maqûl bû.
Fikir hîn jî pêş dikeve û bi rengek nû dimîne. Wekî encamek, ew dikare hin dem bigire ku meriv diyar bike ka tiştek dikare belav bibe an na.
Pêdivî ye ku em hemî li ser rêça ku mîmariya Lakehouse ber bi rê ve diçe meraq bikin.
Leave a Reply