Змест[Схаваць][Паказаць]
Кампаніі збіраюць больш даных, чым калі-небудзь, паколькі яны ўсё часцей спадзяюцца на іх для прыняцця важных бізнес-рашэнняў, паляпшэння прапаноў прадуктаў і лепшага абслугоўвання кліентаў.
Паколькі колькасць даных ствараецца з экспанентнай хуткасцю, воблака прапануе некалькі пераваг для апрацоўкі даных і аналітыкі, у тым ліку маштабаванасць, надзейнасць і даступнасць.
У воблачнай экасістэме таксама ёсць некалькі інструментаў і тэхналогій для апрацоўкі і аналітыкі дадзеных. Два тыпы структур захоўвання вялікіх дадзеных, якія найбольш часта выкарыстоўваюцца, - гэта сховішчы даных і азёры даных.
Нягледзячы на тое, што выкарыстанне возера даных менш прывабнае, паколькі вы не можаце запытваць мадэль і даныя, калі яны яшчэ актуальныя, выкарыстанне сховішча даных для захоўвання струменевых даных марнатраўна.
Wякі тып воблачнай архітэктуры мы выбіраем?
Ці варта нам разглядаць новыя канцэпцыі для даных Lakehouse, ці мы павінны задаволіцца абмежаваннямі сховішча або абмежаваннямі возера?
Новая архітэктура захоўвання даных пад назвай «возера даных» аб'ядноўвае адаптыўнасць азёр даных з кіраваннем данымі ў сховішчах даных.
Разуменне розных метадаў захоўвання вялікіх даных вельмі важна для стварэння надзейнага канвеера захоўвання даных для бізнес-аналітыкі (BI), аналітыкі даных і навучанне з дапамогай машыны (ML) працоўныя нагрузкі ў залежнасці ад патрабаванняў вашай кампаніі.
У гэтай публікацыі мы ўважліва разгледзім Data Warehouse, Data Lake і Data Lakehouse з іх перавагамі, абмежаваннямі, а таксама плюсамі і мінусамі. Давайце пачнем.
Што такое сховішча дадзеных?
Сховішча даных - гэта цэнтралізаванае сховішча даных, якое выкарыстоўваецца арганізацыяй для захоўвання велізарных аб'ёмаў даных з розных крыніц. Сховішча даных выступае ў якасці адзінай крыніцы «праўдзівых даных» арганізацыі і вельмі важна для справаздачнасці і бізнес-аналітыкі.
Як правіла, сховішчы даных аб'ядноўваюць наборы рэляцыйных даных з некалькіх крыніц, такіх як даныя прыкладанняў, бізнесу і транзакцый, для захоўвання гістарычных даных. Перад загрузкай у сістэму захоўвання даныя трансфармуюцца і ачышчаюцца ў сховішчах даных, каб іх можна было выкарыстоўваць як адзіную крыніцу праўдзівых даных.
Дзякуючы сваёй здольнасці хутка прапаноўваць бізнес-інфармацыю з усіх сфер дзейнасці кампаніі, прадпрыемствы ўкладваюць грошы ў сховішчы даных. З выкарыстаннем інструментаў BI, кліентаў SQL і іншых менш складаных (г.зн. не звязаных з навукай даных) аналітычных рашэнняў, бізнес-аналітыкі, інжынеры па апрацоўцы дадзеных і асобы, якія прымаюць рашэнні, могуць атрымліваць доступ да даных са сховішчаў даных.
Падтрымліваць сховішча з пастаянна расце аб'ёмам даных дорага, а сховішча даных не можа апрацоўваць неапрацаваныя або неструктураваныя даныя. Акрамя таго, гэта не ідэальны варыянт для складаных метадаў аналізу даных, такіх як машыннае навучанне або прагнастычнае мадэляванне.
Такім чынам, сховішча даных забяспечвае больш хуткія адказы на запыты і даныя больш высокай якасці. Google Big Query, Amazon Redshift, Azure SQL Data warehouse і Snowflake - гэта воблачныя сэрвісы, даступныя для сховішчаў даных.
Перавагі сховішча даных
- Павышэнне эфектыўнасці і хуткасці працоўных нагрузак бізнес-аналітыкі і аналітыкі даных: Сховішчы даных скарачаюць час, неабходны для падрыхтоўкі і аналізу даных. Яны могуць лёгка звязвацца з інструментамі аналітыкі даных і бізнес-аналітыкі, паколькі даныя са сховішча даных надзейныя і паслядоўныя. Акрамя таго, сховішчы даных эканомяць час, неабходны для збору даных, і даюць камандам магчымасць выкарыстоўваць даныя для справаздач, панэляў і іншых аналітычных патрабаванняў.
- Павышэнне ўзгодненасці, якасці і стандартызацыі даных: Арганізацыі збіраюць даныя з розных крыніц, у тым ліку даныя карыстальнікаў, продажаў і транзакцый. Фірма можа давяраць даным у адпаведнасці з патрабаваннямі бізнесу, таму што сховішчы даных зводзяць карпаратыўныя даныя ў адзіны стандартызаваны фармат, які можа служыць адзінай крыніцай праўдзівых даных.
- Павышэнне прыняцця рашэнняў у цэлым: Сховішча даных палягчае прыняцце рашэнняў, прапаноўваючы цэнтралізаванае сховішча як апошніх, так і старых даных. Апрацоўваючы даныя ў сховішчах дадзеных для атрымання дакладнай інфармацыі, асобы, якія прымаюць рашэнні, могуць ацэньваць рызыкі, разумець жаданні кліентаў і паляпшаць тавары і паслугі.
- Прадастаўленне лепшай бізнес-аналітыкі: Сховішча даных ліквідуе разрыў паміж масіўнымі неапрацаванымі данымі, якія часта збіраюцца рэгулярна, і курыраванымі данымі, якія даюць разуменне. Яны служаць асновай для захоўвання даных арганізацыі, дазваляючы ёй адказваць на складаныя пытанні аб сваіх даных і выкарыстоўваць адказы для прыняцця апраўданых бізнес-рашэнняў.
Абмежаванні сховішча даных
- Адсутнасць гібкасці дадзеных: Нягледзячы на тое, што сховішчы даных выдатна спраўляюцца са структураванымі дадзенымі, паўструктураваныя і неструктураваныя фарматы даных, такія як аналітыка часопісаў, струменевая перадача і даныя сацыяльных сетак, могуць быць для іх складанай задачай. Гэта робіць рэкамендацыі сховішчаў дадзеных для варыянтаў выкарыстання з выкарыстаннем машыннага навучання і штучны інтэлект цяжкасць.
- Дарагая ўстаноўка і абслугоўванне: Сховішчы дадзеных могуць быць дарагімі для ўстаноўкі і абслугоўвання. Акрамя таго, сховішча дадзеных часта не з'яўляецца статычным; ён старэе і патрабуе частага абслугоўвання, якое каштуе дорага.
Прафесіяналы
- Дадзеныя лёгка знайсці, атрымаць і запытаць.
- Пакуль дадзеныя ўжо чыстыя, падрыхтоўка дадзеных SQL простая.
мінусы
- Вы вымушаныя выкарыстоўваць толькі аднаго пастаўшчыка аналітыкі.
- Аналіз і захоўванне неструктураваных або цякучых даных даволі дарагія.
Што такое Data Lake?
Кожны тып даных абяцаны і стаў магчымым дзякуючы азёрам даных. Выгадна мець дадзеныя ў даступным выглядзе, размешчаныя ў цэнтры і даступныя для чытання.
Возера даных - гэта цэнтралізаванае, вельмі адаптыўнае сховішча, дзе велізарныя аб'ёмы арганізаваных і неструктураваных даных захоўваюцца ў іх неапрацаванай, нязмененай і нефарматаванай форме.
Возера даных выкарыстоўвае плоскую архітэктуру і аб'екты, якія захоўваюцца ў неапрацаваным стане для захоўвання даных, у адрозненне ад сховішчаў даных, якія захоўваюць рэляцыйныя даныя, якія раней былі «ачышчаны».
Возера даных, у адрозненне ад сховішчаў даных, якія маюць цяжкасці з апрацоўкай даных у гэтым фармаце, з'яўляюцца адаптыўнымі, надзейнымі і даступнымі па цане і дазваляюць прадпрыемствам атрымліваць палепшанае разуменне неструктураваных даных.
У азёрах даных даныя здабываюцца, загружаюцца і пераўтвараюцца (ELT) у аналітычных мэтах, а не для таго, каб мець схему або даныя, створаныя падчас збору даных.
Выкарыстоўваючы тэхналогіі для многіх відаў даных з прылад IoT, сацыяльныя медыя, і струменевыя даныя, возера даных дазваляюць машыннае навучанне і прагназуючую аналітыку.
Акрамя таго, спецыяліст па апрацоўцы дадзеных, які можа апрацоўваць неапрацаваныя даныя, можа выкарыстоўваць возера даных. Сховішча дадзеных, з іншага боку, прасцей у выкарыстанні для прадпрыемстваў. Ён ідэальна падыходзіць для прафілявання карыстальнікаў, прагнастычная аналітыка, машыннае навучанне і іншыя задачы.
Хаця азёры даных вырашаюць некалькі праблем са сховішчамі даных, іх якасць даных нізкая, а хуткасць іх запытаў недастатковая. Акрамя таго, бізнес-карыстальнікам патрэбныя дадатковыя інструменты для выканання запытаў SQL. Дрэнна структураванае возера даных можа сутыкнуцца з праблемай стагнацыі даных.
Перавагі Data Lake
- Падтрымка шырокага спектру выпадкаў прымянення машыннага навучання і навукі аб дадзеных. Прасцей выкарыстоўваць іншую машыну і алгарытмы глыбокага навучання для апрацоўкі даных у азёрах даных, паколькі даныя захоўваюцца ў адкрытай, неапрацаванай форме.
- Вялікай перавагай з'яўляецца ўніверсальнасць азёр даных, якія дазваляюць захоўваць даныя ў любым фармаце або на носьбіце без патрабавання загадзя зададзенай схемы. Могуць падтрымлівацца будучыя варыянты выкарыстання даных і можна аналізаваць больш даных, калі пакінуць іх у зыходным стане.
- Каб пазбегнуць неабходнасці захоўваць абодва тыпы даных у розных кантэкстах, возера даных могуць утрымліваць як структураваныя, так і неструктураваныя даныя. Для захоўвання розных відаў арганізацыйных даных яны прапануюць адно месца.
- У параўнанні з традыцыйнымі сховішчамі даных, азёры даных менш дарагія, таму што яны пабудаваны для захоўвання на недарагім таварным абсталяванні, такім як сховішча аб'ектаў, якое часта разлічана на меншую цану за захаваны гігабайт.
Абмежаванні Data Lake
- Выпадкі выкарыстання аналітыкі даных і бізнес-аналітыкі маюць нізкія балы: азёры даных могуць стаць неарганізаванымі, калі яны не абслугоўваюцца належным чынам, што ўскладняе іх звязванне з інструментамі бізнес-аналітыкі і аналітыкі. Акрамя таго, калі гэта неабходна для справаздачнасці і аналітыкі выкарыстання выпадкаў, адсутнасць паслядоўнасці структуры дадзеных і падтрымка транзакцый ACID (атамарнасць, паслядоўнасць, ізаляцыя і трываласць) можа прывесці да неаптымальнай прадукцыйнасці запытаў.
- Супярэчлівасць азёр даных робіць немагчымым забеспячэнне надзейнасці і бяспекі даных, што прыводзіць да адсутнасці абодвух. Можа быць складана распрацаваць адпаведныя стандарты бяспекі і кіравання данымі, каб задаволіць канфідэнцыяльныя тыпы даных, паколькі возера даных могуць апрацоўваць любую форму даных.
Прафесіяналы
- Даступныя рашэнні для ўсіх тыпаў даных.
- Здольны апрацоўваць як арганізаваныя, так і паўструктураваныя даныя.
- Ідэальна падыходзіць для складанай апрацоўкі дадзеных і струменевай перадачы.
мінусы
- Неабходна пабудаваць складаны трубаправод.
- Дайце даным некаторы час, каб яны сталі даступнымі для запыту.
- Патрабуецца час, каб гарантаваць надзейнасць і якасць дадзеных.
Што такое Data Lakehouse?
Новая архітэктура захоўвання вялікіх даных пад назвай «возера даных» аб'ядноўвае лепшыя аспекты азёр даных і сховішчаў даных. Усе вашы даныя, структураваныя, паўструктураваныя або неструктураваныя, могуць захоўвацца ў адным месцы з найлепшымі магчымасцямі машыннага навучання, бізнес-аналітыкі і струменевай перадачы дадзеных дзякуючы возеру даных.
Возера даных усіх відаў часта з'яўляюцца адпраўной кропкай для азёр даных; пасля гэтага даныя пераўтвараюцца ў фармат Delta Lake (узровень захоўвання з адкрытым зыходным кодам, які забяспечвае надзейнасць азёр даных).
Азёры даных з азёрамі дэльта дазваляюць транзакцыйныя працэдуры ACID са звычайных сховішчаў даных. Па сутнасці, сістэма Lakehouse выкарыстоўвае недарагое сховішча для падтрымання велізарных аб'ёмаў даных у іх зыходнай форме, падобна да азёр даных.
Даданне ўзроўню метададзеных у верхнюю частку сховішчы таксама дае структуру даных і пашырае магчымасці інструментаў кіравання данымі, такіх як тыя, што ёсць у сховішчах даных.
Гэта дазваляе многім камандам атрымліваць доступ да ўсіх даных кампаніі праз адзіную сістэму для розных ініцыятыў, такіх як навука аб дадзеных, машыннае навучанне і бізнес-аналітыка.
Перавагі Data Lakehouse
- Падтрымка больш шырокага дыяпазону працоўных нагрузак: для палягчэння складанага аналізу даныя азёр даюць карыстальнікам прамы доступ да некаторых з самых папулярных інструментаў бізнес-аналітыкі (Tableau, PowerBI). Акрамя таго, навукоўцы па апрацоўцы дадзеных і інжынеры па машынным навучанні могуць лёгка выкарыстоўваць гэтыя даныя, паколькі базы дадзеных выкарыстоўваюць фарматы адкрытых даных (напрыклад, Parquet) разам з API і сістэмамі машыннага навучання, такімі як Python/R.
- Эканамічная эфектыўнасць: у азёрах даных выкарыстоўваюцца недарагія рашэнні для захоўвання аб'ектаў, каб рэалізаваць эканамічна эфектыўныя характарыстыкі сховішчаў азёр даных. Прапаноўваючы адзінае рашэнне, базы дадзеных таксама пазбаўляюць ад выдаткаў і часу, звязаных з кіраваннем рознымі сістэмамі захоўвання дадзеных.
- Дызайн возера даных забяспечвае цэласнасць схемы і даных, палягчаючы стварэнне эфектыўных сістэм бяспекі даных і кіравання. Лёгкасць версій дадзеных, кіраванне і бяспека.
- Data lakehouses прапануюць адзіную шматфункцыянальную платформу захоўвання дадзеных, якая можа задаволіць усе патрабаванні кампаніі да дадзеных, што памяншае дубляванне даных. Большасць прадпрыемстваў выбіраюць гібрыднае рашэнне з-за пераваг як сховішча даных, так і возера даных. Гэтая стратэгія, тым часам, можа прывесці да дарагога дублявання дадзеных.
- Падтрымка адкрытых фарматаў. Адкрытыя фарматы - гэта тыпы файлаў, якія могуць выкарыстоўвацца многімі праграмамі і спецыфікацыі якіх агульнадаступныя. Згодна з паведамленнямі, Lakehouses здольныя захоўваць даныя ў распаўсюджаных фарматах файлаў, такіх як Apache Parquet і ORC (Optimized Row Columnar).
Абмежаванні Data Lakehouse
Самы вялікі недахоп Data Lakehouse заключаецца ў тым, што гэта яшчэ маладая тэхналогія, якая развіваецца. Невядома, ці выканае яна ў выніку свае абавязацельствы. Могуць прайсці гады, перш чым базы дадзеных змогуць канкурыраваць з вядомымі сістэмамі захоўвання вялікіх дадзеных.
Аднак, улічваючы хуткасць, з якой адбываюцца сучасныя інавацыі, цяжка сказаць, ці не заменіць іх іншая сістэма захоўвання даных.
Прафесіяналы
- На адной платформе ёсць усе даныя, што азначае, што імёнаў хастоў для абслугоўвання менш.
- Атамарнасць, паслядоўнасць, ізаляцыя і трываласць не закранаюцца.
- Гэта істотна больш даступным.
- На адной платформе ёсць усе даныя, што азначае, што імёнаў хастоў для абслугоўвання менш.
- Просты ў кіраванні і хуткі ў вырашэнні любых праблем
- Палегчыць будаўніцтва трубаправода
мінусы
- Наладжванне можа заняць некаторы час.
- Яна занадта маладая і занадта далёкая, каб кваліфікавацца як усталяваная сістэма захоўвання.
Data Warehouse супраць Data Lakehouse супраць Data Lakehouse
Сховішча даных мае доўгую гісторыю ў прылажэннях карпаратыўнай разведкі, справаздачнасці і аналітыкі і з'яўляецца першай тэхналогіяй захоўвання вялікіх даных.
Сховішчы дадзеных, з іншага боку, дарагія і маюць праблемы з апрацоўкай разнастайных і неструктураваных даных, такіх як струменевыя даныя. Для машыннага навучання і навукі аб дадзеных былі распрацаваны азёры даных для кіравання неапрацаванымі данымі ў розных формах у даступным сховішчы.
Нягледзячы на тое, што возера даных эфектыўныя з неструктураванымі данымі, ім не хапае транзакцыйных магчымасцей ACID, якія ёсць у сховішчах даных, што ўскладняе гарантыю ўзгодненасці і надзейнасці даных.
Найноўшая архітэктура захоўвання даных, вядомая як «возера даных», спалучае ў сабе надзейнасць і паслядоўнасць сховішчаў даных з даступнасцю і адаптыўнасцю азёр даных.
заключэнне
У заключэнне, пабудаваць базу дадзеных з нуля можа быць складана. Акрамя таго, вы амаль напэўна будзеце выкарыстоўваць платформу, прызначаную для ўключэння архітэктуры возера з адкрытымі дадзенымі.
Таму будзьце асцярожныя, каб вывучыць мноства функцый і рэалізацый кожнай платформы, перш чым рабіць пакупку. Кампаніі, якія шукаюць спелае, структураванае рашэнне для даных з упорам на бізнес-аналітыку і прыклады выкарыстання аналітыкі даных, могуць разгледзець сховішча даных.
Тым не менш, прадпрыемствы, якія шукаюць маштабаванае, даступнае рашэнне для вялікіх даных для забеспячэння працоўных нагрузак для навукі аб даных і машыннага навучання на неструктураваных даных, павінны разгледзець магчымасць азёр даных.
Падумайце, што вашаму бізнесу патрабуецца больш даных, чым можа даць сховішча даных і тэхналогіі возера даных, або што вы шукаеце рашэнне для інтэграцыі складанай аналітыкі і аперацый машыннага навучання з вашымі данымі. А дадзеныя Lakehouse гэта разумны варыянт у гэтай сітуацыі.
Пакінуць каментар