Tartalomjegyzék[Elrejt][Előadás]
A vállalatok minden eddiginél több adatot rögzítenek, mivel egyre inkább támaszkodnak rájuk a fontos üzleti döntések meghozatalához, a termékkínálat bővítéséhez és az ügyfelek jobb kiszolgálásához.
Az exponenciális sebességgel létrejövő adatmennyiség miatt a felhő számos előnyt kínál az adatfeldolgozás és -elemzés szempontjából, beleértve a skálázhatóságot, a megbízhatóságot és a rendelkezésre állást.
A felhő ökoszisztémában számos adatfeldolgozási és elemzési eszköz és technológia is létezik. A leggyakrabban használt big data tárolási struktúrák két típusa az adattárházak és az adattó.
Bár a Data Lake használata kevésbé vonzó, mivel nem lehet lekérdezni a modellt és az adatokat, amíg azok még relevánsak, az adattárház használata adattárolás streamelésére pazarló.
Wmilyen típusú felhő architektúrát válasszunk?
Meg kell fontolnunk újabb koncepciókat a Data Lakehouse-hoz, vagy meg kell elégednünk a raktár korlátaival vagy a tó korlátozásaival?
Egy újszerű adattárolási architektúra, az úgynevezett „data lakehouse”, egyesíti az adatlakok alkalmazkodóképességét az adattárházak adatkezelésével.
A különféle big-data tárolási módszerek ismerete elengedhetetlen egy megbízható adattárolási folyamat felépítéséhez az üzleti intelligencia (BI), az adatelemzés és a gépi tanulás (ML) munkaterhelések, a vállalat igényeitől függően.
Ebben a bejegyzésben alaposan megvizsgáljuk a Data Warehouse-t, a Data Lake-et és a Data Lakehouse-t, előnyeivel, korlátaival, valamint előnyeivel és hátrányaival együtt. Kezdjük.
Mi az a Data Warehouse?
Az adattárház egy központi adattár, amelyet egy szervezet használ számos forrásból származó hatalmas mennyiségű adat tárolására. Az adattárház a szervezet „adatigazságának” egyetlen forrásaként működik, és elengedhetetlen a jelentéskészítéshez és az üzleti elemzésekhez.
Az adattárházak általában több forrásból – például alkalmazási, üzleti és tranzakciós adatokból – származó relációs adatkészleteket kombinálnak az előzményadatok tárolására. A raktári rendszerbe való betöltés előtt az adatokat az adattárházakban átalakítják és megtisztítják, hogy az adatigazság egyetlen forrásaként lehessen őket használni.
A vállalkozások az adattárházakba fektetnek be, mivel képesek gyorsan üzleti betekintést nyújtani a vállalat minden területéről. A BI-eszközök, SQL-kliensek és más kevésbé kifinomult (azaz nem adattudományi) elemzési megoldások használatával, üzleti elemzők, az adatmérnökök és a döntéshozók hozzáférhetnek az adattárházakból származó adatokhoz.
A folyamatosan növekvő adatmennyiséggel rendelkező raktár fenntartása költséges, az adattárház pedig nem tud kezelni nyers vagy strukturálatlan adatokat. Ezenkívül nem ideális választás olyan kifinomult adatelemzési technikákhoz, mint a gépi tanulás vagy a prediktív modellezés.
Az adattárház ezért gyorsabb lekérdezési válaszokat és jobb minőségű adatokat biztosít. A Google Big Query, az Amazon Redshift, az Azure SQL Data warehouse és a Snowflake olyan felhőszolgáltatások, amelyek az adattárházak számára elérhetők.
A Data Warehouse előnyei
- Az üzleti intelligencia és az adatelemzési munkaterhelések hatékonyságának és sebességének növelése: Az adattárházak lerövidítik az adatok előkészítéséhez és elemzéséhez szükséges időt. Könnyen összekapcsolhatók az adatelemzési és üzleti intelligencia eszközökkel, mivel az adattárházból származó adatok megbízhatóak és konzisztensek. Ezenkívül az adattárházak időt takarítanak meg az adatgyűjtéshez, és lehetővé teszik a csapatok számára, hogy az adatokat jelentésekhez, irányítópultokhoz és egyéb elemzési követelményekhez használják fel.
- Az adatok konzisztenciájának, minőségének és szabványosításának növelése: A szervezetek számos forrásból gyűjtenek adatokat, beleértve a felhasználói, értékesítési és tranzakciós adatokat. A cég megbízhat az adatokban az üzleti igényekhez, mert az adattárház a vállalati adatokat egységes, szabványos formátumba állítja össze, amely az adatok igazságának egyetlen forrásaként szolgálhat.
- A döntéshozatal javítása általában: Az adattárház megkönnyíti a jobb döntéshozatalt azáltal, hogy központi tárhelyet kínál a friss és a régi adatok számára. Az adattárházakban lévő adatok pontos betekintést biztosító feldolgozásával a döntéshozók felmérhetik a kockázatokat, megérthetik az ügyfelek igényeit, valamint javíthatják az árukat és szolgáltatásokat.
- Jobb üzleti intelligencia biztosítása: Az adattárház áthidalja a szakadékot a tömeges nyers adatok között, amelyeket gyakran magától értetődően gyűjtenek, és a betekintést nyújtó kurált adatok között. Ezek képezik a szervezet adattárolásának alapját, lehetővé téve az adatokkal kapcsolatos bonyolult kérdések megválaszolását, és a válaszok felhasználását védhető üzleti döntések meghozatalához.
Az adattárház korlátai
- Az adatok rugalmasságának hiánya: Míg az adattárházak kiválóak a strukturált adatok kezelésében, a félig strukturált és strukturálatlan adatformátumok, például a naplóelemzés, a streaming és a közösségi média adatok kihívást jelenthetnek számukra. Ez teszi az adattárházak ajánlását olyan használati esetekre, amelyek a gépi tanulást és a mesterséges intelligencia nehéz.
- Telepítése és karbantartása költséges: Az adattárházak telepítése és karbantartása költséges lehet. Ezenkívül az adattárház gyakran nem statikus; elöregszik és gyakori karbantartást igényel, ami drága.
Érvek
- Az adatok könnyen megtalálhatók, visszakereshetők és lekérdezhetők.
- Amíg az adatok már tiszták, az SQL adatok előkészítése egyszerű.
Hátrányok
- Csak egy analitikai szállítót kell használnia.
- A strukturálatlan vagy folyó adatok elemzése és tárolása meglehetősen költséges.
Mi az a Data Lake?
Minden típusú adatot ígérnek és lehetővé tesznek az adatlakok. Előnyös, ha az adatok hozzáférhető módon központi helyen találhatók és olvashatóak.
Az adattó egy központosított, rendkívül adaptálható tárhely, ahol hatalmas mennyiségű szervezett és strukturálatlan adatot tárolnak feldolgozatlan, változatlan és formázatlan formában.
Az adattó egy lapos architektúrát és feldolgozatlan állapotban tárolt objektumokat használ az adatok tárolására, szemben az adattárházakkal, amelyek a korábban „megtisztított” relációs adatokat mentik.
Az adattárházakkal szemben, amelyek nehezen kezelik az adatokat ebben a formátumban, adaptálhatóak, megbízhatóak és megfizethetőek, és lehetővé teszik a vállalkozások számára, hogy jobb betekintést nyerjenek a strukturálatlan adatokból.
Az adattókban az adatok kinyerése, betöltése és átalakítása (ELT) elemzési célokra történik, ahelyett, hogy a sémát vagy az adatokat az adatgyűjtéskor hozták volna létre.
Technológiák felhasználása az IoT-eszközök számos adattípusához, Közösségi média, és az adatok streamelése, az adatlakok gépi tanulást és prediktív elemzést tesznek lehetővé.
Ezenkívül a nyers adatokat feldolgozni tudó adattudós használhatja a Data Lake-et. Az adattárház viszont könnyebben használható a vállalkozások számára. Tökéletes felhasználói profilalkotáshoz, prediktív elemzés, gépi tanulás és egyéb feladatok.
Bár az adatlakok számos problémát kezelnek az adattárházakkal kapcsolatban, rossz az adatminőségük, és nem megfelelő a lekérdezési sebességük. Ezenkívül az SQL-lekérdezések végrehajtásához további eszközökre van szükség az üzleti felhasználók számára. A rosszul strukturált adattó esetében előfordulhat, hogy az adatok stagnálnak.
A Data Lake előnyei
- Gépi tanulási és adattudományi alkalmazási esetek széles skálájának támogatása Egyszerűbb más gépi és mélytanulási algoritmusok használata az adatlakokban lévő adatok kezelésére, mivel az adatokat nyitott, nyers módon tárolják.
- A Data Lakes sokoldalúsága, amely lehetővé teszi az adatok bármilyen formátumban vagy médiában történő tárolását előre beállított séma nélkül, nagy előnyt jelent. A jövőbeni adathasználati esetek támogathatók, és több adat elemezhető, ha az adatokat az eredeti állapotukban hagyják.
- Annak érdekében, hogy ne kelljen mindkét típusú adatot különféle kontextusban tárolni, az adatlakok strukturált és strukturálatlan adatokat is tartalmazhatnak. Különféle szervezeti adatok tárolására egyetlen helyet kínálnak.
- A hagyományos adattárházakhoz képest az adattárak olcsóbbak, mivel olcsó áruhardvereken való tárolásra készültek, például objektumtárolásra, amely gyakran alacsonyabb tárolt gigabájtonkénti költségre irányul.
A Data Lake korlátai
- Az adatelemzés és az üzleti intelligencia használati esetei gyengén teljesítenek: Az adatforrások szervezetlenné válhatnak, ha nincsenek megfelelően karbantartva, ami megnehezíti az üzleti intelligencia és az elemzési eszközök összekapcsolását. Ezen túlmenően, ha a jelentéskészítéshez és az elemzésekhez szükséges, a következetesség hiánya adatszerkezetek és az ACID (atomitás, konzisztencia, izoláció és tartósság) tranzakciós támogatása nem optimális lekérdezési teljesítményhez vezethet.
- A Data Lake-ek következetlensége lehetetlenné teszi az adatok megbízhatóságának és biztonságának érvényesítését, ami mindkettő hiányát eredményezi. Nehéz lehet megfelelő adatbiztonsági és irányítási szabványokat kidolgozni az érzékeny adattípusok kielégítésére, mivel az adatforrások bármilyen adatformát képesek kezelni.
Érvek
- Megoldások, amelyek megfizethetőek minden adattípushoz.
- Képes kezelni szervezett és félig strukturált adatokat is.
- Ideális bonyolult adatfeldolgozáshoz és streaminghez.
Hátrányok
- Kifinomult csővezetéket kell építeni.
- Adjon az adatoknak egy kis időt, hogy lekérdezhetővé váljanak.
- Időbe telik az adatok megbízhatóságának és minőségének garantálásához.
Mi az a Data Lakehouse?
Az új nagy adattárolási architektúra, az úgynevezett „data lakehouse”, egyesíti az adattó- és adattárházak legnagyszerűbb aspektusait. Az összes adata, legyen az strukturált, félig strukturált vagy strukturálatlan, egy helyen tárolható a lehető legjobb gépi tanulási, üzleti intelligencia és streamelési képességekkel, köszönhetően az adattóháznak.
Mindenféle adattó gyakran a kiindulópontja az adattóházaknak; ezt követően az adatokat Delta Lake formátumba alakítják át (egy nyílt forráskódú tárolóréteg, amely megbízhatóságot biztosít az adattóknak).
A delta-tókkal ellátott adattók lehetővé teszik a hagyományos adattárházakból származó ACID tranzakciós eljárásokat. Lényegében a Lakehouse rendszer olcsó tárolást használ, hogy hatalmas mennyiségű adatot eredeti formájukban tartson fenn, hasonlóan az adattókhoz.
A metaadatrétegnek az áruház tetejére történő hozzáadása egyúttal adatstruktúrát ad, és olyan adatkezelési eszközöket is felhatalmazott, mint amilyenek az adattárházakban találhatók.
Ez lehetővé teszi, hogy sok csapat egyetlen rendszeren keresztül hozzáférjen az összes vállalati adathoz számos kezdeményezéshez, például az adattudományhoz, a gépi tanuláshoz és az üzleti intelligenciához.
A Data Lakehouse előnyei
- A munkaterhelések szélesebb körének támogatása: A kifinomult elemzések megkönnyítése érdekében a Data Lakehouse-ok közvetlen hozzáférést biztosítanak a felhasználóknak a legnépszerűbb üzleti intelligencia eszközökhöz (Tableau, PowerBI). Ezenkívül az adattudósok és a gépi tanulási mérnökök könnyen használhatják az adatokat, mivel a Data Lakehouse-ok nyílt adatformátumokat (például Parquet) alkalmaznak API-kkal és gépi tanulási keretrendszerekkel, például Python/R-vel együtt.
- Költséghatékonyság: A Data Lakehouse-ok olcsó objektumtárolási megoldásokat alkalmaznak a Data Lake-ek költséghatékony tárolási jellemzőinek megvalósítására. Egyetlen megoldást kínálva a Data Lakehouse a különféle adattároló rendszerek kezelésével járó kiadásokat és időt is megszünteti.
- A Data Lakehouse kialakítása biztosítja a séma- és adatintegritást, így egyszerűbbé válik a hatékony adatbiztonsági és irányítási rendszerek felépítése. Könnyűsége adatok verziószámítása, kormányzás és biztonság.
- A Data Lakehouse-ok egyetlen, többcélú adattárolási platformot kínálnak, amely képes kielégíteni a vállalat összes adatigényét, ami csökkenti az adatok ismétlődését. A vállalkozások többsége az adattárház és az adattó előnyei miatt választja a hibrid megoldást. Ez a stratégia eközben költséges adatkettőzéshez vezethet.
- Nyílt formátumok támogatása. A nyílt formátumok olyan fájltípusok, amelyeket számos szoftveralkalmazás használhat, és amelyek specifikációi nyilvánosan elérhetők. A jelentések szerint a Lakehouses képes adatokat tárolni olyan általános fájlformátumokban, mint az Apache Parquet és az ORC (Optimized Row Columnar).
A Data Lakehouse korlátai
A Data Lakehouse legnagyobb hátránya, hogy még mindig fiatal és fejlődő technológia. Bizonytalan, hogy ennek eredményeként teljesíti-e kötelezettségeit. Évekbe telhet, mire az adattárolók felvehetik a versenyt a bevett nagy adattároló rendszerekkel.
Tekintettel azonban a modern innováció bekövetkezésének ütemére, nehéz megmondani, hogy végül nem váltja-e fel egy másik adattároló rendszer.
Érvek
- Egy platform rendelkezik az összes adattal, ami azt jelenti, hogy kevesebb a karbantartandó gazdagépnév.
- Az atomitás, a konzisztencia, az izoláció és a szívósság nem változik.
- Lényegesen megfizethetőbb.
- Egy platform rendelkezik az összes adattal, ami azt jelenti, hogy kevesebb a karbantartandó gazdagépnév.
- Egyszerűen kezelhető, és gyorsan orvosolható minden probléma
- Tegye egyszerűbbé a csővezeték megépítését
Hátrányok
- A beállítás eltarthat egy ideig.
- Túl fiatal és túl messze van ahhoz, hogy bevált tárolórendszernek minősüljön.
Data Warehouse vs Data Lake vs Data Lakehouse
Az adattárház nagy múltra tekint vissza a vállalati intelligencia, a jelentéskészítés és az analitikai alkalmazások terén, és az első nagy adattárolási technológia.
Az adattárházak viszont drágák, és gondot okoz a változatos és strukturálatlan adatok, például a streaming adatok kezelése. A gépi tanuláshoz és az adattudományi munkaterhelésekhez Data Lake-eket fejlesztettek ki a nyers adatok különféle formáinak kezelésére, megfizethető tárhelyen.
Bár az adatlakok hatékonyak a strukturálatlan adatokkal, hiányoznak belőlük az adattárházak ACID tranzakciós képességei, ami kihívást jelent az adatok konzisztenciájának és megbízhatóságának garantálása.
A legújabb adattárolási architektúra, az úgynevezett „data lakehouse”, egyesíti az adattárházak megbízhatóságát és konzisztenciáját az adattárak megfizethetőségével és alkalmazkodóképességével.
Következtetés
Összegezve, egy Data Lakehouse-t a semmiből felépíteni nehéz lehet. Ezenkívül szinte bizonyosan olyan platformot fog használni, amelyet úgy terveztek, hogy lehetővé tegye a nyílt adatú Lakehouse architektúrát.
Ezért vásárlás előtt óvatosan tanulmányozza át az egyes platformok számos funkcióját és megvalósítását. Azok a vállalatok, amelyek kiforrott, strukturált adatmegoldást keresnek, az üzleti intelligencia és az adatelemzés felhasználási eseteire összpontosítva, fontolóra vehetik az adattárház kialakítását.
Mindazonáltal azoknak a vállalkozásoknak, amelyek méretezhető, megfizethető big data megoldást keresnek az adattudomány és a strukturálatlan adatok gépi tanulásának növelésére, fontolóra kell venniük az adatforrásokat.
Vegye figyelembe, hogy vállalkozásának több adatra van szüksége, mint amennyit az adattárház és a Data Lake technológiák nyújtani tudnak, vagy hogy megoldást keres a kifinomult elemzési és gépi tanulási műveletek adataiba való integrálására. A adatok tóháza az adott helyzetben ésszerű lehetőség.
Hagy egy Válaszol