Gallai fod ychydig yn anodd ystyried yr holl wasanaethau sydd ar gael a'r opsiynau pensaernïol wrth feddwl am lwyfannau data.
Mae llwyfan data menter yn aml yn cynnwys warysau data, modelau data, llynnoedd data, ac adroddiadau, pob un â phwrpas penodol a set o sgiliau sydd eu hangen. Mewn cyferbyniad, mae dyluniad newydd o'r enw'r tŷ llyn data wedi dod i'r amlwg yn ystod yr ychydig flynyddoedd diwethaf.
Mae amlbwrpasedd llynnoedd data a rheoli data warws data yn cael eu cyfuno mewn pensaernïaeth storio data chwyldroadol a elwir yn “llyndy data.”
Byddwn yn archwilio'r tŷ llyn data yn fanwl yn y swydd hon, gan gynnwys ei gydrannau, nodweddion, pensaernïaeth ac agweddau eraill.
Beth yw Data Lakehouse?
Fel y mae'r enw'n awgrymu, mae tŷ llyn data yn fath newydd o bensaernïaeth data sy'n cyfuno llyn data â warws data i ddatrys diffygion pob un ar wahân.
Yn ei hanfod, mae system y tŷ llyn yn defnyddio storfa rad i gynnal symiau enfawr o ddata yn eu ffurfiau gwreiddiol, yn debyg iawn i lynnoedd data. Mae ychwanegu'r haen metadata ar ben y storfa hefyd yn rhoi strwythur data ac yn grymuso offer rheoli data fel y rhai a geir mewn warysau data.
Mae'n storio'r symiau enfawr o ddata trefnus, lled-strwythuredig ac anstrwythuredig a gânt o'r gwahanol gymwysiadau busnes, systemau a theclynnau a ddefnyddir ledled eu sefydliad.
Y rhan fwyaf o'r amser, mae llynnoedd data yn defnyddio seilwaith storio cost isel gyda rhyngwyneb rhaglennu cymwysiadau ffeiliau (API) i storio data mewn fformatau ffeil agored, generig.
Mae hyn yn ei gwneud hi'n bosibl i lawer o dimau gael mynediad at holl ddata'r cwmni trwy un system ar gyfer amrywiaeth o fentrau, fel gwyddor data, dysgu peiriant, a deallusrwydd busnes.
Nodweddion
- Storfa cost isel. Rhaid i dŷ llyn data allu storio data mewn storfa wrthrychau rhad, megis Google Cloud Storio, Storio Azure Blob, Gwasanaeth Storio Syml Amazon, neu ddefnyddio ORC neu Parquet yn frodorol.
- Gallu ar gyfer optimeiddio data: Mae optimeiddio gosodiad data, caching, a mynegeio yn rhai enghreifftiau o sut mae'n rhaid i lyncu data allu optimeiddio'r data tra'n cynnal fformat gwreiddiol y data.
- Haen o fetadata trafodion: Yn ogystal â storio cost isel hanfodol, mae hyn yn galluogi galluoedd rheoli data sy'n hanfodol ar gyfer perfformiad warws data.
- Cefnogaeth i'r API DataFrame Datganiadol: Gall y mwyafrif o offer AI ddefnyddio DataFrames i adfer data storfa gwrthrychau crai. Mae cefnogaeth ar gyfer API DataFrame Datganiadol yn cynyddu'r gallu i wella cyflwyniad a strwythur y data yn ddeinamig mewn ymateb i dasg gwyddor data neu AI penodol.
- Cefnogaeth i drafodion ACID: Mae'r acronym ACID, sy'n sefyll am atomigedd, cysondeb, ynysu, a gwydnwch, yn elfen hanfodol wrth ddiffinio trafodiad a sicrhau cysondeb a dibynadwyedd data. Roedd trafodion o'r fath yn flaenorol yn bosibl yn unig mewn warysau data, ond mae'r Mae lakehouse yn cynnig yr opsiwn i'w defnyddio gyda llynnoedd data hefyd. Gyda sawl piblinell ddata gan gynnwys darllen ac ysgrifennu data cydamserol, mae hyn yn datrys problem ansawdd data isel yr olaf.
Elfennau o Ddata Lakehouse
Rhennir pensaernïaeth y tŷ llyn data yn ddwy brif haen ar lefel uchel. Mae cymeriant data'r haen storio yn cael ei reoli gan blatfform Lakehouse (hy, y llyn data).
Heb fod angen llwytho'r data i mewn i warws data na'i drawsnewid yn fformat perchnogol, yna mae'r haen brosesu yn gallu cwestiynu'r data yn yr haen storio yn uniongyrchol gan ddefnyddio ystod o offer.
Yna, gall apiau BI, yn ogystal â thechnolegau AI ac ML, ddefnyddio'r data. Darperir economeg llyn data gan y dyluniad hwn, ond oherwydd bod unrhyw beiriant prosesu yn gallu darllen y data hwn, mae gan fusnesau'r rhyddid i wneud y data parod yn hygyrch i'w ddadansoddi gan ystod o systemau. Gellir gwella perfformiad a chost prosesydd trwy ddefnyddio'r dull hwn ar gyfer prosesu a dadansoddi.
Oherwydd ei gefnogaeth i drafodion cronfa ddata sy'n cadw at y meini prawf ACID (atomicity, cysondeb, ynysu, a gwydnwch) canlynol, mae'r bensaernïaeth hefyd yn galluogi llawer o bartïon i gyrchu ac ysgrifennu data ar yr un pryd o fewn y system:
- Atomigrwydd yn cyfeirio at y ffaith bod naill ai'r trafodiad llawn neu ddim ohono, yn llwyddo wrth gwblhau trafodiad. Os amharir ar broses, mae hyn yn helpu i osgoi colli data neu lygredd.
- Cysondeb gwarantau bod trafodion yn digwydd mewn modd rhagweladwy, cyson. Mae'n cynnal cywirdeb y data trwy sicrhau bod pob data yn gyfreithlon yn unol â rheolau a bennwyd ymlaen llaw.
- inswleiddio yn sicrhau, hyd nes y bydd wedi'i orffen, na all unrhyw drafodiad gael ei effeithio gan unrhyw drafodiad arall o fewn y system. Mae hyn yn caniatáu i bartïon niferus ddarllen ac ysgrifennu o'r un system ar yr un pryd heb ymyrryd â'i gilydd.
- Gwydnwch yn gwarantu bod newidiadau i'r data mewn system yn parhau i fodoli ar ôl i drafodiad ddod i ben, hyd yn oed os bydd system yn methu. Mae unrhyw newidiadau a achosir gan drafodiad yn cael eu cadw ar ffeil am byth.
Pensaernïaeth Lakehouse Data
Databricks (arloeswr a dylunydd eu cysyniad Delta Lake) ac AWS yw'r ddau brif hyrwyddwr ar gyfer y cysyniad o dŷ llyn data. Felly byddwn yn dibynnu ar eu gwybodaeth a'u dirnadaeth i ddisgrifio cynllun pensaernïol y llynnoedd.
Fel arfer bydd gan system tŷ llyn data bum haen:
- Haen llyncu
- Haen storio
- Haen metadata
- Haen API
- Haen defnydd
Haen llyncu
Mae haen gyntaf y system yn gyfrifol am gasglu data o wahanol ffynonellau a'i anfon i'r haen storio. Gall yr haen ddefnyddio sawl protocol i gysylltu â nifer o ffynonellau mewnol ac allanol, gan gynnwys cyfuno galluoedd prosesu data swp a ffrydio, megis
- Cronfeydd data NoSQL,
- rhannu ffeiliau
- Cymwysiadau CRM,
- gwefannau,
- Synwyryddion IoT,
- Cyfryngau cymdeithasol,
- Cymwysiadau Meddalwedd fel Gwasanaeth (SaaS), a
- systemau rheoli cronfeydd data perthynol, ac ati.
Ar y pwynt hwn, gellir defnyddio cydrannau fel Apache Kafka ar gyfer ffrydio data a Gwasanaeth Mudo Data Amazon (Amazon DMS) ar gyfer mewnforio data o gronfeydd data RDBMSs a NoSQL.
Haen storio
Bwriad pensaernïaeth y tŷ llyn yw galluogi storio gwahanol fathau o ddata fel gwrthrychau mewn storfeydd gwrthrychau rhad, megis AWS S3. Gan ddefnyddio fformatau ffeil agored, gall yr offer cleient ddarllen yr eitemau hyn yn uniongyrchol o'r siop.
Mae hyn yn ei gwneud hi'n bosibl i lawer o APIs a chydrannau haenau defnydd gyrchu a defnyddio'r un data. Mae'r haen metadata yn storio'r sgemâu ar gyfer setiau data strwythuredig a lled-strwythuredig fel y gall y cydrannau eu cymhwyso i'r data wrth iddynt ei ddarllen.
Gellir defnyddio platfform System Ffeil Ddosbarthedig Hadoop (HDFS), er enghraifft, i adeiladu gwasanaethau cadw cwmwl sy'n hollti cyfrifiadura a storio ar y safle. Mae Lakehouse yn ddelfrydol ar gyfer y gwasanaethau hyn.
Haen metadata
Yr haen metadata yw cydran sylfaenol tŷ llyn data sy'n gwahaniaethu'r dyluniad hwn. Mae'n gatalog sengl sy'n cynnig metadata (gwybodaeth am ddarnau data eraill) ar gyfer yr holl eitemau sy'n cael eu storio yn y llyn ac yn caniatáu i ddefnyddwyr ddefnyddio galluoedd gweinyddol fel:
- Gwelir fersiwn gyson o'r gronfa ddata gan drafodion cydamserol diolch i drafodion ACID;
- caching i arbed ffeiliau storfa gwrthrychau cwmwl;
- ychwanegu mynegeion strwythur data gan ddefnyddio mynegeio i gyflymu prosesu ymholiadau;
- defnyddio clonio copi sero i ddyblygu gwrthrychau data; a
- i storio fersiynau penodol o'r data, ac ati, defnyddio fersiynau data.
Yn ogystal, mae'r haen metadata yn galluogi gweithredu rheolaeth sgema, y defnydd o dopoleg sgema DW fel sgemâu seren / pluen eira, a darparu gallu llywodraethu ac archwilio data yn uniongyrchol ar y llyn data, gan wella cywirdeb y biblinell ddata gyfan.
Mae nodweddion ar gyfer esblygiad sgema a gorfodi wedi'u cynnwys wrth reoli sgema. Trwy wrthod unrhyw ysgrifen nad yw'n cwrdd â sgema'r tabl, mae gorfodi sgema yn galluogi defnyddwyr i gynnal cywirdeb ac ansawdd data.
Mae esblygiad sgema yn caniatáu i sgema presennol y tabl gael ei addasu i ddarparu ar gyfer newid data. Oherwydd un rhyngwyneb gweinyddol ar ben y llyn data, mae yna hefyd bosibiliadau rheoli mynediad ac archwilio.
Haen API
Mae haen hanfodol arall o'r bensaernïaeth bellach yn bresennol, gan gynnal nifer o APIs y gall pob defnyddiwr terfynol eu defnyddio i gyflawni swyddi'n gyflymach a chael ystadegau mwy soffistigedig.
Mae'r defnydd o APIs metadata yn ei gwneud hi'n haws nodi a chael mynediad at yr eitemau data sydd eu hangen ar gyfer rhaglen benodol.
O ran llyfrgelloedd dysgu peirianyddol, gall rhai ohonynt, megis TensorFlow a Spark MLlib, ddarllen fformatau ffeil agored fel Parquet a chael mynediad uniongyrchol i'r haen metadata.
Ar yr un pryd, mae APIs DataFrame yn cynnig mwy o gyfleoedd ar gyfer optimeiddio, gan alluogi rhaglenwyr i drefnu a newid data gwasgaredig.
Haen defnydd
Mae Power BI, Tableau, ac offer ac apiau eraill yn cael eu cynnal o dan yr haen defnydd. Gyda dyluniad y tŷ llyn, mae'r holl fetadata a'r holl ddata a gedwir mewn llyn yn hygyrch i'r apiau cleient.
Gall pob defnyddiwr o fewn cwmni ddefnyddio'r tŷ llyn i berfformio pob math o gweithrediadau dadansoddol, gan gynnwys creu dangosfyrddau gwybodaeth busnes a rhedeg ymholiadau SQL a thasgau dysgu peirianyddol.
Manteision Data Lakehouse
Gall sefydliadau greu llyncu data i uno eu platfform data cyfredol a gwneud y gorau o'u proses rheoli data gyfan. Trwy ddatgymalu'r rhwystrau seilo sy'n cysylltu ffynonellau amrywiol, gall tŷ llyn data ddisodli'r angen am atebion gwahanol.
O'i gymharu â ffynonellau data wedi'u curadu, mae'r integreiddio hwn yn cynhyrchu gweithdrefn pen-i-ben llawer mwy effeithiol. Mae gan hyn nifer o fanteision:
- Llai o weinyddiaeth: Yn hytrach na thynnu data o ddata crai a’i baratoi i’w ddefnyddio o fewn warws data, mae tŷ llyn data yn caniatáu i unrhyw ffynonellau sy’n gysylltiedig ag ef fod â’u data ar gael a’u trefnu i’w defnyddio.
- Mwy o gost-effeithiolrwydd: Mae tai llyn data yn cael eu hadeiladu gan ddefnyddio seilwaith cyfoes sy'n rhannu cyfrifiant a storio, gan ei gwneud hi'n syml ehangu storio heb gynyddu pŵer cyfrifiadurol. Dim ond y defnydd o storio data rhad sy'n arwain at scalability sy'n gost-effeithiol.
- Gwell llywodraethu data: Mae tai llyn data yn cael eu hadeiladu gyda phensaernïaeth agored safonol, sy'n caniatáu mwy o reolaeth dros ddiogelwch, metrigau, mynediad yn seiliedig ar rôl, a chydrannau rheoli pwysig eraill. Trwy uno adnoddau a ffynonellau data, maent yn symleiddio ac yn gwella llywodraethu.
- Safonau symlach: Gan fod y cysylltiad yn gyfyngedig iawn yn yr 1980au, pan ddatblygwyd warysau data gyntaf, datblygwyd safonau sgema lleol yn aml y tu mewn i fusnesau, hyd yn oed adrannau. Mae tai llynnoedd data yn defnyddio'r ffaith bod gan lawer o fathau o ddata bellach safonau agored ar gyfer sgema trwy amlyncu nifer o ffynonellau data gyda'r sgema unffurf sy'n gorgyffwrdd i symleiddio gweithdrefnau.
Anfanteision Data Lakehouse
Er gwaethaf yr holl hoopla o amgylch tai llynnoedd data, mae'n bwysig cadw mewn cof bod y syniad yn dal yn newydd iawn. Gwnewch yn siŵr eich bod yn pwyso a mesur yr anfanteision cyn ymrwymo'n llawn i'r dyluniad newydd hwn.
- Strwythur monolithig: Mae dyluniad hollgynhwysol tŷ llyn yn cynnig sawl mantais, ond mae hefyd yn codi rhai problemau. Mae pensaernïaeth fonolithig yn aml yn arwain at wasanaeth gwael i bob defnyddiwr a gall fod yn anhyblyg ac yn anodd ei gynnal. Yn nodweddiadol, mae penseiri a dylunwyr yn hoffi pensaernïaeth fwy modiwlaidd y gallant ei haddasu ar gyfer achosion defnydd amrywiol.
- Nid yw'r dechnoleg yn hollol yno eto: mae'r nod terfynol yn golygu llawer iawn o ddysgu peiriannau a deallusrwydd artiffisial. Cyn y gall tai llyn berfformio fel y rhagwelir, rhaid i'r technolegau hyn ddatblygu ymhellach.
- Ddim yn gynnydd sylweddol dros strwythurau presennol: Mae cryn amheuaeth o hyd ynghylch faint yn fwy o werth y bydd tai llyn yn ei gyfrannu mewn gwirionedd. Mae rhai dinistrwyr yn dadlau y gall dyluniad warws llyn ynghyd â'r offer awtomataidd priodol gyflawni effeithlonrwydd tebyg.
Heriau Data Lakehouse
Gallai fod yn anodd mabwysiadu'r dechneg tŷ llyn data. Oherwydd cymhlethdod ei ddarnau cydrannol, mae'n anghywir edrych ar y llyn data fel strwythur delfrydol hollgynhwysol neu “un llwyfan i bopeth,” ar gyfer un.
Yn ogystal, oherwydd mabwysiadu cynyddol llynnoedd data, bydd yn rhaid i fusnesau symud eu warysau data cyfredol iddynt, gan ddibynnu ar addewid o lwyddiant yn unig heb unrhyw fudd economaidd amlwg.
Os bydd unrhyw broblemau hwyrni neu doriadau trwy gydol y broses drosglwyddo, gallai hyn ddod i ben yn ddrud, yn cymryd llawer o amser, ac efallai’n anniogel.
Rhaid i ddefnyddwyr busnes gofleidio technolegau hynod arbenigol, yn ôl rhai gwerthwyr sy'n marchnata datrysiadau yn benodol neu'n ymhlyg fel tai llyn data. Efallai na fydd y rhain bob amser yn gweithio gydag offer eraill sy'n gysylltiedig â'r llyn data yng nghanol y system, gan ychwanegu at y problemau.
Yn ogystal, gallai fod yn anodd darparu dadansoddeg 24/7 wrth redeg llwythi gwaith hanfodol i fusnes, sy'n galw am seilwaith â graddadwyedd cost-effeithiol.
Casgliad
Yr amrywiaeth fwyaf newydd o ganolfannau data yn ystod y blynyddoedd diwethaf yw'r tŷ llyn data. Mae'n integreiddio amrywiaeth o feysydd, megis technoleg gwybodaeth, meddalwedd ffynhonnell agored, cyfrifiadura cwmwl, a phrotocolau storio dosbarthedig.
Mae'n galluogi busnesau i storio pob math o ddata yn ganolog o unrhyw leoliad, gan symleiddio rheolaeth a dadansoddiad. Mae Data Lakehouse yn gysyniad eithaf diddorol.
Byddai gan unrhyw gwmni fantais gystadleuol sylweddol pe bai ganddo fynediad at lwyfan data popeth-mewn-un a oedd mor gyflym ac effeithlon â warws data tra hefyd mor hyblyg â llyn data.
Mae'r syniad yn dal i ddatblygu ac yn parhau i fod yn gymharol newydd. O ganlyniad, gallai gymryd peth amser i benderfynu a all rhywbeth ddod yn gyffredin ai peidio.
Dylai pob un ohonom fod yn chwilfrydig ynghylch y cyfeiriad y mae pensaernïaeth Lakehouse yn mynd iddo.
Gadael ymateb