Taula de continguts[Amaga][Espectacle]
Les empreses estan capturant més dades que mai, ja que cada cop depenen més d'elles per prendre decisions empresarials importants, millorar les ofertes de productes i oferir un millor servei al client.
Amb la quantitat de dades creada a un ritme exponencial, el núvol ofereix diversos avantatges per al processament i l'anàlisi de dades, com ara escalabilitat, fiabilitat i disponibilitat.
A l'ecosistema del núvol, també hi ha diverses eines i tecnologies per al processament i l'anàlisi de dades. Els dos tipus d'estructures d'emmagatzematge de grans dades que s'utilitzen amb més freqüència són els magatzems de dades i els llacs de dades.
Tot i que utilitzar un llac de dades és menys atractiu, ja que no podeu consultar el model i les dades mentre encara siguin rellevants, utilitzar un magatzem de dades per a l'emmagatzematge de dades en streaming és un malbaratament.
WQuin tipus d'arquitectura de núvol escollim?
Hem de considerar conceptes més nous per al data Lakehouse o ens hem de conformar amb les limitacions del magatzem o les restriccions del llac?
Una nova arquitectura d'emmagatzematge de dades anomenada "data lakehouse" combina l'adaptabilitat dels data llacs amb la gestió de dades dels magatzems de dades.
Entendre els diferents mètodes d'emmagatzematge de grans dades és essencial per construir un canal d'emmagatzematge de dades fiable per a la intel·ligència empresarial (BI), l'anàlisi de dades i màquina d'aprenentatge Càrregues de treball (ML), en funció de les demandes de la vostra empresa.
En aquesta publicació, analitzarem de prop Data Warehouse, Data Lake i Data Lakehouse, amb els seus avantatges, limitacions i avantatges i contres. Anem a començar.
Què és Data Warehouse?
Un magatzem de dades és un dipòsit de dades centralitzat utilitzat per una organització per contenir enormes volums de dades de moltes fonts. Un magatzem de dades actua com a font única de "veritat de dades" d'una organització i és essencial per als informes i l'anàlisi empresarial.
Normalment, els magatzems de dades combinen conjunts de dades relacionals de diverses fonts, com ara dades d'aplicacions, negocis i transaccionals, per emmagatzemar dades històriques. Abans de carregar-se al sistema d'emmagatzematge, les dades es transformen i es netegen en magatzems de dades perquè es puguin utilitzar com a font única de veritat de dades.
A causa de la seva capacitat per oferir ràpidament coneixements empresarials de totes les àrees de l'empresa, les empreses inverteixen en magatzems de dades. Amb l'ús d'eines de BI, clients SQL i altres solucions d'anàlisi menys sofisticades (és a dir, no relacionades amb la ciència de dades), analistes de negocis, els enginyers de dades i els responsables de la presa de decisions poden accedir a les dades dels magatzems de dades.
És costós mantenir un magatzem amb un volum de dades cada cop més gran, i un magatzem de dades no pot gestionar dades en brut o no estructurades. A més, no és l'opció ideal per a tècniques d'anàlisi de dades sofisticades com l'aprenentatge automàtic o el modelatge predictiu.
Per tant, un magatzem de dades proporciona respostes de consulta més ràpides i dades de més qualitat. Google Big Query, Amazon Redshift, Azure SQL Data warehouse i Snowflake són serveis al núvol que estan disponibles per als magatzems de dades.
Avantatges de Data Warehouse
- Augment de l'eficiència i la velocitat de les càrregues de treball d'intel·ligència empresarial i anàlisi de dades: Els magatzems de dades redueixen el temps necessari per a la preparació i anàlisi de dades. Es poden enllaçar fàcilment amb eines d'anàlisi de dades i intel·ligència empresarial, ja que les dades del magatzem de dades són fiables i coherents. A més, els magatzems de dades estalvien el temps necessari per a la recollida de dades i ofereixen als equips la possibilitat d'utilitzar dades per a informes, taulers de control i altres requisits d'anàlisi.
- Augmentar la coherència, la qualitat i l'estandardització de les dades: les organitzacions recullen dades de diverses fonts, com ara dades d'usuaris, vendes i transaccionals. L'empresa pot confiar en les dades per als requisits empresarials perquè l'emmagatzematge de dades recopila les dades corporatives en un format uniforme i estandarditzat que pot actuar com a font única de veritat de dades.
- Millorar la presa de decisions en general: L'emmagatzematge de dades facilita la millor presa de decisions oferint un magatzem centralitzat tant per a dades recents com antigues. Mitjançant el processament de dades als magatzems de dades per obtenir informació precisa, els qui prenen decisions poden avaluar els riscos, comprendre els desitjos dels clients i millorar els béns i serveis.
- Proporcionar una millor intel·ligència empresarial: L'emmagatzematge de dades crea un pont entre les dades en brut massives, que sovint es recullen de manera rutinària, i les dades seleccionades que proporcionen informació. Funcionen com a base per a l'emmagatzematge de dades d'una organització, cosa que li permet respondre preguntes complicades sobre les seves dades i utilitzar les respostes per prendre decisions empresarials defendibles.
Limitacions del magatzem de dades
- Falta de flexibilitat de dades: Tot i que els magatzems de dades excel·lent en el maneig de dades estructurades, els formats de dades semiestructurades i no estructurades com l'anàlisi de registres, la transmissió en temps real i les dades de les xarxes socials poden ser un repte per a ells. Això fa recomanar magatzems de dades per a casos d'ús que impliquen aprenentatge automàtic i intel·ligència artificial dificultat.
- Costos d'instal·lar i mantenir: Els magatzems de dades poden ser cars d'instal·lar i mantenir. A més, el magatzem de dades sovint no és estàtic; envelleix i necessita un manteniment freqüent, que és car.
pros
- Les dades són fàcils de trobar, recuperar i consultar.
- Mentre les dades ja estiguin netes, la preparació de dades SQL és senzilla.
Contres
- Esteu obligats a utilitzar només un proveïdor d'anàlisi.
- Analitzar i emmagatzemar dades no estructurades o que flueixen és força costós.
Què és Data Lake?
Tots els tipus de dades són promeses i possibles gràcies als data llacs. És beneficiós tenir les dades d'una manera accessible, ubicades al centre i disponibles per a la seva lectura.
Un llac de dades és un espai d'emmagatzematge centralitzat i extremadament adaptable on es conserven volums massius de dades organitzades i no estructurades en les seves formes sense processar, sense alterar i sense format.
Un llac de dades utilitza una arquitectura plana i objectes emmagatzemats en el seu estat sense processar per emmagatzemar dades, a diferència dels magatzems de dades, que emmagatzemen dades relacionals que prèviament s'han "netejat".
Els llacs de dades, a diferència dels magatzems de dades, que tenen dificultats per gestionar les dades en aquest format, són adaptables, fiables i assequibles i permeten a les empreses obtenir informació millorada a partir de dades no estructurades.
Als data llacs, les dades s'extreuen, carreguen i transformen (ELT) amb finalitats analítiques en lloc de tenir l'esquema o les dades establerts en el moment de la recollida de dades.
Utilitzant tecnologies per a molts tipus de dades de dispositius IoT, mitjans de comunicació social, i la transmissió de dades, els llacs de dades permeten l'aprenentatge automàtic i l'anàlisi predictiva.
A més, un científic de dades que pugui processar dades en brut pot utilitzar el llac de dades. Un magatzem de dades, d'altra banda, és més fàcil d'utilitzar per a les empreses. És perfecte per crear perfils d'usuaris, analítica predictiva, aprenentatge automàtic i altres tasques.
Tot i que els data llacs tracten diversos problemes amb els magatzems de dades, la seva qualitat de dades és deficient i la seva velocitat de consulta és insuficient. A més, es necessiten eines addicionals perquè els usuaris empresarials realitzin consultes SQL. Un llac de dades que està mal estructurat pot experimentar un problema amb l'estancament de les dades.
Beneficis de Data Lake
- Suport per a una àmplia gamma de casos d'aplicació d'aprenentatge automàtic i ciència de dades. És més senzill utilitzar una màquina diferent i algorismes d'aprenentatge profund per gestionar les dades als llacs de dades, ja que les dades es mantenen d'una manera oberta i en brut.
- La versatilitat de Data Lakes, que us permet emmagatzemar dades en qualsevol format o suport sense necessitat d'un esquema preestablert, és un gran avantatge. Es poden donar suport a casos d'ús de dades futurs i es poden analitzar més dades si es deixen en el seu estat original.
- Per evitar haver d'emmagatzemar els dos tipus de dades en diversos contextos, els data llacs poden contenir tant dades estructurades com no estructurades. Per a l'emmagatzematge de diversos tipus de dades organitzatives, ofereixen una única ubicació.
- En comparació amb els magatzems de dades tradicionals, els llacs de dades són menys costosos perquè estan construïts per mantenir-se en maquinari de productes bàsics de baix cost, com ara l'emmagatzematge d'objectes, que sovint s'adapta a un cost més baix per gigabyte emmagatzemat.
Limitacions de Data Lake
- Els casos d'ús de l'anàlisi de dades i la intel·ligència empresarial tenen una puntuació baixa: els llacs de dades poden quedar desorganitzats si no es mantenen adequadament, cosa que dificulta la seva vinculació amb eines d'anàlisi i intel·ligència empresarial. A més, quan sigui necessari per als casos d'ús d'informes i anàlisis, falta de coherència estructures de dades i el suport transaccional ACID (atomicitat, consistència, aïllament i durabilitat) pot conduir a un rendiment de consulta subòptim.
- La inconsistència dels llacs de dades fa que sigui impossible fer complir la fiabilitat i la seguretat de les dades, la qual cosa provoca la manca d'ambdues. Pot ser difícil desenvolupar estàndards de govern i seguretat de dades adequats per atendre els tipus de dades sensibles, ja que els data llacs poden gestionar qualsevol forma de dades.
pros
- Solucions assequibles per a tot tipus de dades.
- Capaç de gestionar dades tant organitzades com semiestructurades.
- Ideal per a processament de dades complicat i streaming.
Contres
- Necessita una canonada sofisticada per ser construïda.
- Doneu temps a les dades perquè es puguin consultar.
- Es necessita temps per garantir la fiabilitat i la qualitat de les dades.
Què és Data Lakehouse?
Una nova arquitectura d'emmagatzematge de grans dades anomenada "data lakehouse" combina els aspectes més importants dels data llacs i dels magatzems de dades. Totes les vostres dades, ja siguin estructurades, semiestructurades o no estructurades, es poden emmagatzemar en un sol lloc amb les millors capacitats d'aprenentatge automàtic, intel·ligència empresarial i streaming possibles gràcies a un data lakehouse.
Els llacs de dades de tot tipus són sovint el punt de partida de les cases de llacs de dades; després d'això, les dades es transformen al format Delta Lake (una capa d'emmagatzematge de codi obert que aporta fiabilitat als llacs de dades).
Els llacs de dades amb llacs delta permeten procediments transaccionals ACID des dels magatzems de dades convencionals. En essència, el sistema Lakehouse utilitza un emmagatzematge econòmic per mantenir grans quantitats de dades en les seves formes originals, com els llacs de dades.
Afegir la capa de metadades a la part superior de la botiga també ofereix una estructura de dades i potencia les eines de gestió de dades com les que es troben als magatzems de dades.
Això fa possible que molts equips accedeixin a totes les dades de l'empresa mitjançant un únic sistema per a diverses iniciatives, com ara ciència de dades, aprenentatge automàtic i intel·ligència empresarial.
Avantatges de Data Lakehouse
- Suport per a una gamma més àmplia de càrregues de treball: per facilitar anàlisis sofisticades, els data lakehouses ofereixen als usuaris accés directe a algunes de les eines d'intel·ligència empresarial més populars (Tableau, PowerBI). A més, els científics de dades i els enginyers d'aprenentatge automàtic poden utilitzar fàcilment les dades, ja que els data Lakehouses utilitzen formats de dades obertes (com Parquet) juntament amb API i marcs d'aprenentatge automàtic, com Python/R.
- Rentabilitat: les cases de llacs de dades utilitzen solucions d'emmagatzematge d'objectes barates per implementar les característiques d'emmagatzematge rendibles dels llacs de dades. En oferir una única solució, els data Lakehouses també eliminen les despeses i el temps associats a la gestió de diversos sistemes d'emmagatzematge de dades.
- El disseny de Data Lakehouse garanteix l'esquema i la integritat de les dades, facilitant la creació de sistemes de govern i seguretat de dades efectius. Facilitat de versionació de dades, governança i seguretat.
- Els Data Lakehouses ofereixen una plataforma d'emmagatzematge de dades única i polivalent que pot adaptar-se a totes les demandes de dades de l'empresa, la qual cosa redueix la duplicació de dades. La majoria de les empreses trien una solució híbrida a causa dels avantatges tant del magatzem de dades com del llac de dades. Mentrestant, aquesta estratègia podria comportar una costosa duplicació de dades.
- El suport de formats oberts. Els formats oberts són tipus de fitxers que poden ser utilitzats per moltes aplicacions de programari i les especificacions dels quals estan disponibles públicament. Segons els informes, Lakehouses són capaços d'emmagatzemar dades en formats de fitxer habituals com Apache Parquet i ORC (Optimized Row Columnar).
Limitacions de Data Lakehouse
El major inconvenient d'un data Lakehouse és que encara és una tecnologia jove i en desenvolupament. No se sap si complirà els seus compromisos com a resultat. Abans que els llacs de dades puguin competir amb els sistemes d'emmagatzematge de grans dades establerts, podrien passar anys.
Tanmateix, tenint en compte el ritme al qual s'està produint la innovació moderna, és difícil dir si un sistema d'emmagatzematge de dades diferent no el substituirà.
pros
- Una plataforma té totes les dades, el que significa que hi ha menys noms d'amfitrió per mantenir.
- L'atomicitat, la consistència, l'aïllament i la duresa no es veuen afectats.
- És significativament més assequible.
- Una plataforma té totes les dades, el que significa que hi ha menys noms d'amfitrió per mantenir.
- Fàcil de gestionar i ràpid per solucionar qualsevol problema
- Facilitar la construcció d'una canonada
Contres
- La configuració pot trigar una mica.
- És massa jove i massa llunyà per qualificar-se com un sistema d'emmagatzematge establert.
Data Warehouse vs Data Lake vs Data Lakehouse
El magatzem de dades té una llarga història en aplicacions d'intel·ligència corporativa, informes i anàlisi i és la primera tecnologia d'emmagatzematge de grans dades.
Els magatzems de dades, d'altra banda, són cars i tenen problemes per gestionar dades diverses i no estructurades, com ara dades en temps real. Per a les càrregues de treball d'aprenentatge automàtic i ciència de dades, es van desenvolupar llacs de dades per gestionar dades en brut de diverses formes en un emmagatzematge assequible.
Tot i que els data llacs són efectius amb dades no estructurades, no tenen les capacitats transaccionals d'ACID dels magatzems de dades, cosa que fa que sigui difícil garantir la coherència i la fiabilitat de les dades.
L'arquitectura d'emmagatzematge de dades més recent, coneguda com a "data lakehouse", combina la fiabilitat i la coherència dels magatzems de dades amb l'assequibilitat i l'adaptabilitat dels data lakes.
Conclusió
En conclusió, construir un llac de dades des de zero pot ser difícil. A més, gairebé segur que utilitzareu una plataforma dissenyada per habilitar l'arquitectura de lakehouse de dades obertes.
Per tant, tingueu cura d'investigar les moltes funcions i implementacions de cada plataforma abans de fer una compra. Les empreses que busquen una solució de dades madura i estructurada amb un enfocament en casos d'ús d'intel·ligència empresarial i anàlisi de dades poden considerar un magatzem de dades.
Tanmateix, les empreses que busquen una solució de big data escalable i assequible per alimentar les càrregues de treball per a la ciència de dades i l'aprenentatge automàtic en dades no estructurades haurien de tenir en compte els llacs de dades.
Tingueu en compte que la vostra empresa necessita més dades de les que les tecnologies de data warehouse i llac de dades poden proporcionar, o que busqueu una solució per integrar analítiques sofisticades i operacions d'aprenentatge automàtic a les vostres dades. A Data Lakehouse és una opció sensata en la situació.
Deixa un comentari