Data Lakehouse - Сè што треба да знаете

Содржина[Крие][Прикажи]

Што е Data Lakehouse?
Карактеристики
Елементи на Дата Лејкхаус
Архитектура на Data Lakehouse+-
Предности на Data Lakehouse
Недостатоци на Data Lakehouse
Предизвиците на Дата Лејкхаус
Заклучок

Можеби е малку тешко да се земат предвид сите достапни услуги и архитектонски опции кога се размислува за податочни платформи.

Платформата за податоци на претпријатието често се состои од складишта на податоци, модели на податоци, езера на податоци и извештаи, секој со одредена цел и сет на потребни вештини. Спротивно на тоа, во последните неколку години се појави нов дизајн наречен data Lakehouse.

Разновидноста на езерата на податоци и управувањето со податоците од складиштето на податоци се комбинирани во револуционерна архитектура за складирање податоци наречена „езерска куќа на податоци“.

Ќе ги испитаме податоците за езерската куќа во длабочина во овој пост, вклучувајќи ги неговите компоненти, карактеристики, архитектура и други аспекти.

Што е Data Lakehouse?

Како што имплицира името, data lakehouse е нов тип на архитектура на податоци што комбинира езеро со податоци со складиште на податоци за да ги реши недостатоците на секоја посебно.

Во суштина, системот на езерската куќа користи евтино складирање за да одржува огромни количини на податоци во нивните оригинални форми, слично како езерата со податоци. Додавањето на слојот на метаподатоци на врвот на продавницата, исто така, дава структура на податоци и ги овластува алатките за управување со податоци како оние што се наоѓаат во складиштата на податоци.

Дата Лејкхаус

Складира огромни количини на организирани, полуструктурирани и неструктурирани податоци што ги добиваат од различните деловни апликации, системи и гаџети што се користат низ нивната организација.

Поголемиот дел од времето, езерата на податоци користат евтина инфраструктура за складирање со програмски интерфејс за апликации за датотеки (API) за складирање на податоци во отворени, генерички формати на датотеки.

Ова им овозможува на многу тимови да пристапат до сите податоци на компанијата преку единствен систем за различни иницијативи, како што е науката за податоци, машинско учење, и деловна интелигенција.

Карактеристики

Складирање со ниска цена. Езерската куќа за податоци мора да може да складира податоци во евтино складирање на предмети, како на пр Google Cloud Складирање, складирање на Azure Blob, Едноставна услуга за складирање на Amazon или природно користејќи ORC или паркет.
Способност за оптимизација на податоци: Оптимизацијата на распоредот на податоците, кеширањето и индексирањето се неколку примери за тоа како езерската куќа за податоци мора да може да ги оптимизира податоците додека го одржува оригиналниот формат на податоците.
Слој на трансакциски метаподатоци: Покрај основното складирање со ниска цена, ова овозможува способности за управување со податоци клучни за перформансите на складиштето на податоци.
Поддршка за Declarative DataFrame API: Поголемиот дел од алатките за вештачка интелигенција може да користат DataFrames за враќање на необработени податоци за складирање на објекти. Поддршката за Declarative DataFrame API ја зголемува способноста за динамичко подобрување на презентацијата и структурата на податоците како одговор на одредена наука за податоци или задача за вештачка интелигенција.
Поддршка за ACID трансакции: Акронимот ACID, што значи атомност, конзистентност, изолација и издржливост, е критична компонента во дефинирањето на трансакцијата и обезбедувањето на конзистентност и доверливост на податоците. Ваквите трансакции претходно беа можни само во складишта на податоци, но на Lakehouse нуди опција за нивно користење со податоци езера исто така. Со неколку цевководи за податоци, вклучувајќи истовремени податоци за читање и запишување, ова го решава проблемот со нискиот квалитет на податоците на вториот.

Елементи на Дата Лејкхаус

Архитектурата на податочната езерска куќа е поделена на две главни нивоа на високо ниво. Внесот на податоци на слојот за складирање е контролиран од платформата Lakehouse (т.е. езерото со податоци).

Без потреба да се вчитаат податоците во складиште за податоци или да се претворат во сопствен формат, слојот за обработка потоа може директно да ги бара податоците во слојот за складирање со помош на низа алатки.

Потоа, BI апликациите, како и AI и ML технологиите, можат да ги користат податоците. Економијата на езерото со податоци е обезбедена со овој дизајн, но бидејќи секој процесор може да ги чита овие податоци, бизнисите имаат слобода да ги направат подготвените податоци достапни за анализа од низа системи. Перформансите и трошоците на процесорот може да се подобрат со користење на овој метод за обработка и анализа.

Поради поддршката за трансакции со база на податоци кои се придржуваат до следните ACID (атомичност, конзистентност, изолација и издржливост) критериуми, архитектурата исто така им овозможува на многу страни да пристапуваат и да пишуваат податоци истовремено во системот:

Атомичност се однесува на фактот дека или целосната трансакција или ниту една од неа, успева при завршување на трансакцијата. Во случај некој процес да биде прекинат, ова помага да се избегне губење на податоци или корупција.
доследност гарантира дека трансакциите се случуваат на предвидлив, конзистентен начин. Го одржува интегритетот на податоците со тоа што гарантира дека секој податок е легитимен во согласност со однапред одредени правила.
изолација осигурува дека, сè додека не се заврши, ниту една трансакција не може да биде под влијание на која било друга трансакција во системот. Ова им овозможува на многу страни да читаат и пишуваат од ист систем истовремено без да се мешаат едни со други.
Трајност гарантира дека промените на податоците во системот продолжуваат да постојат по завршувањето на трансакцијата, дури и во случај на дефект на системот. Било какви измени предизвикани од трансакција се чуваат во датотека засекогаш.

Архитектура на Data Lakehouse

Databricks (иноваторот и дизајнерот на нивниот концепт Delta Lake) и AWS се двајцата главни застапници за концептот на data Lakehouse. Така, ќе се потпреме на нивното знаење и увид за да го опишеме архитектонскиот распоред на езерските куќи.

Системот за езерска куќа за податоци обично ќе има пет слоеви:

Слој за голтање
Слој за складирање
Слој на метаподатоци
Слој на API
Потрошувачки слој

Архитектура на Data Lakehouse

Слој за голтање

Првиот слој на системот е задолжен за собирање податоци од различни извори и нивно испраќање до слојот за складирање. Слојот може да користи неколку протоколи за поврзување со бројни внатрешни и надворешни извори, вклучително и комбинирање на сериски и преносни способности за обработка на податоци, како на пр.

NoSQL бази на податоци,
споделување на датотеки
CRM апликации,
веб-страници,
IoT сензори,
социјални медиуми,
Софтвер како услуга (SaaS) апликации и
системи за управување со релациони бази на податоци итн.

Во овој момент, може да се користат компоненти како Apache Kafka за пренос на податоци и Amazon Data Migration Service (Amazon DMS) за увоз на податоци од RDBMS и NoSQL бази на податоци.

Слој за складирање

Архитектурата на езерската куќа е наменета да овозможи складирање на различни типови на податоци како објекти во евтини складишта за предмети, како што е AWS S3. Користејќи отворени формати на датотеки, алатките на клиентот потоа можат да ги читаат овие ставки директно од продавницата.

Ова им овозможува на многу API-и и компоненти на слојот за потрошувачка да пристапат и да ги користат истите податоци. Слојот на метаподатоци ги складира шемите за структурирани и полуструктурирани збирки на податоци, така што компонентите можат да ги применат на податоците додека ги читаат.

Платформата Hadoop Distributed File System (HDFS), на пример, може да се користи за да се конструираат услуги за складиште на облак што ги делат компјутерите и складирањето во просториите. Лејкхаус е идеално погоден за овие услуги.

Слој на метаподатоци

Слојот на метаподатоци е основната компонента на езерската куќа со податоци што го разликува овој дизајн. Тоа е единствен каталог кој нуди метаподатоци (информации за други податоци) за сите ставки складирани во езерото и им овозможува на корисниците да користат административни способности како што се:

Конзистентна верзија на базата на податоци се гледа со истовремени трансакции благодарение на ACID трансакциите;
кеширање за зачувување на датотеки за складирање на облак објекти;
додавање индекси на структурата на податоци со користење на индексирање за да се забрза обработката на барањата;
користење на клонирање со нула копии за дупликат на податочни објекти; и
за складирање на одредени верзии на податоците итн., користете верзии на податоци.

Дополнително, слојот на метаподатоци овозможува имплементација на управување со шеми, употреба на топологии на шеми DW како шеми со ѕвезди/снегулки и обезбедување на управување со податоци и способност за ревизија директно на езерото со податоци, со што се подобрува интегритетот на целиот податочен канал.

Карактеристиките за еволуција и спроведување на шемата се вклучени во управувањето со шемата. Со отфрлање на сите записи што не одговараат на шемата на табелата, спроведувањето на шемата им овозможува на корисниците да го задржат интегритетот и квалитетот на податоците.

Еволуцијата на шемата дозволува сегашната шема на табелата да се модифицира за да се приспособат на променливите податоци. Поради единствениот административен интерфејс на врвот на езерото со податоци, има и можности за контрола на пристап и ревизија.

Слој на API

Сега е присутен уште еден клучен слој на архитектурата, кој е домаќин на голем број API-и кои сите крајни корисници можат да ги користат за побрзо извршување на задачите и за добивање пософистицирана статистика.

Употребата на API за метаподатоци го олеснува идентификувањето и пристапот до податочните ставки потребни за дадена апликација.

Во однос на библиотеките за машинско учење, некои од нив, како што се TensorFlow и Spark MLlib, можат да читаат отворени формати на датотеки како Parquet и директно да пристапат до слојот на метаподатоци.

Во исто време, DataFrame API-ите нудат поголеми шанси за оптимизација, овозможувајќи им на програмерите да организираат и менуваат дисперзирани податоци.

Потрошувачки слој

Power BI, Tableau и други алатки и апликации се сместени под слојот за потрошувачка. Со дизајнот на Lakehouse, сите метаподатоци и сите податоци што се чуваат во езерото се достапни за клиентските апликации.

Езерската куќа може да ја користат сите корисници во рамките на една компанија за изведување на секакви аналитички операции, вклучувајќи креирање контролни табли за деловна интелигенција и извршување на SQL прашања и задачи за машинско учење.

Предности на Data Lakehouse

Организациите можат да создадат езерце за податоци за да ја обединат нивната моментална платформа за податоци и да го оптимизираат целиот процес на управување со податоци. Со демонтирање на силосните бариери што поврзуваат различни извори, езерската куќа за податоци може да ја замени потребата за различни решенија.

Во споредба со курираните извори на податоци, оваа интеграција создава значително поефикасна процедура од крај до крај. Ова има неколку предности:

Помалку администрација: Наместо да се извлекуваат податоци од необработени податоци и да се подготвуваат за употреба во складиште на податоци, езерската куќа на податоци им овозможува на сите извори поврзани со него да ги имаат нивните податоци достапни и организирани за користење.
Зголемена исплатливост: Езерските куќи за податоци се конструирани со користење на современа инфраструктура која ги дели пресметките и складирањето, што го прави едноставно проширувањето на складирањето без зголемување на компјутерската моќност. Само користењето на евтино складирање податоци резултира со приспособливост која е рентабилна.
Подобро управување со податоците: Податочните езерски куќи се конструирани со стандардизирана отворена архитектура, што овозможува поголема контрола врз безбедноста, метриката, пристапот заснован на улоги и други важни компоненти за управување. Со обединување на ресурсите и изворите на податоци, тие го поедноставуваат и подобруваат управувањето.
Поедноставени стандарди: Со оглед на тоа што врската беше многу ограничена во 1980-тите, кога за првпат беа развиени складишта за податоци, често се развиваа локализирани стандарди за шеми во бизнисите, дури и во одделите. Податочните езерски куќи го користат фактот дека многу типови податоци сега имаат отворени стандарди за шема со внесување на бројни извори на податоци со преклопувачката униформа шема за да се насочат процедурите.

Недостатоци на Data Lakehouse

И покрај сите бранови околу езерските куќи со податоци, важно е да се има на ум дека идејата е сè уште многу нова. Не заборавајте да ги измерите недостатоците пред целосно да се посветите на овој нов дизајн.

Монолитна структура: Сеопфатниот дизајн на езерската куќа нуди неколку предности, но исто така предизвикува некои проблеми. Монолитната архитектура често води до лоша услуга за сите корисници и може да биде ригидна и тешка за одржување. Обично, архитектите и дизајнерите сакаат помодуларна архитектура што можат да ја приспособат за различни случаи на употреба.
Технологијата сè уште не е баш таму: крајната цел повлекува значителна количина на машинско учење и вештачка интелигенција. Пред езерските куќи да работат како што е замислено, овие технологии мора да се развиваат понатаму.
Не значителен напредок во однос на постоечките структури: Сè уште постои значителен скептицизам околу тоа колку езерските куќи всушност ќе придонесат со поголема вредност. Некои клеветници тврдат дека дизајнот на езерско складиште поврзан со соодветната автоматизирана опрема може да постигне споредлива ефикасност.

Предизвиците на Дата Лејкхаус

Може да биде тешко да се усвои техниката на data lakehouse. Поради сложеноста на неговите составни делови, не е точно да се гледа на езерската куќа со податоци како сеопфатна идеална структура или „една платформа за сè“, за едно.

Дополнително, поради зголеменото усвојување на езерата на податоци, бизнисите ќе мора да ги префрлат своите сегашни складишта на податоци во нив, потпирајќи се само на ветувањето за успех без докажлива економска корист.

Ако има какви било проблеми со латентноста или прекини во текот на процесот на пренос, ова може да биде скапо, одзема време и можеби небезбедно.

Деловните корисници мора да прифатат високо специјализирани технологии, според одредени продавачи кои експлицитно или имплицитно ги продаваат решенијата како езерски куќи за податоци. Овие можеби не секогаш работат со други алатки поврзани со езерото со податоци во центарот на системот, што дополнително ги зголемува проблемите.

Дополнително, може да биде тешко да се обезбеди 24/7 аналитика додека се извршуваат работни оптоварувања кои се клучни за бизнисот, што бара инфраструктура со економична приспособливост.

Заклучок

Најновата разновидност на центри за податоци во последниве години е data Lakehouse. Интегрира различни области, како што се информатичката технологија, софтверот со отворен код, облак компјутери, и дистрибуирани протоколи за складирање.

Тоа им овозможува на бизнисите централно да ги складираат сите видови податоци од која било локација, поедноставувајќи го управувањето и анализата. Data Lakehouse е прилично интригантен концепт.

Секоја фирма би имала значајна конкурентска предност доколку има пристап до платформа за податоци сè-во-едно која е брза и ефикасна како складиште на податоци, а истовремено е флексибилна како езерце на податоци.

Идејата сè уште се развива и останува релативно нова. Како резултат на тоа, би можело да потрае некое време за да се утврди дали нешто може да стане широко распространето или не.

Сите ние треба да бидеме љубопитни за насоката во која се движи архитектурата на Лејкхаус.

Data Lakehouse – Сè што треба да знаете

Што е Data Lakehouse?

Карактеристики

Елементи на Дата Лејкхаус