Содржина[Крие][Прикажи]
Компаниите снимаат повеќе податоци од кога било, бидејќи сè повеќе се потпираат на нив за да информираат за важни деловни одлуки, да ги подобрат понудите на производите и да обезбедат подобра услуга за клиентите.
Со количината на податоци што се создава со експоненцијална брзина, облакот нуди неколку предности за обработка и аналитика на податоци, вклучувајќи приспособливост, сигурност и достапност.
Во екосистемот облак, постојат и неколку алатки и технологии за обработка и аналитика на податоци. Двата типа на големи структури за складирање податоци кои најчесто се користат се складишта на податоци и езера на податоци.
Иако користењето на езерото со податоци е помалку привлечно бидејќи не можете да ги прашате моделот и податоците додека се уште се релевантни, користењето складиште за податоци за стриминг складирање податоци е непотребно.
Wкој тип на облак архитектура го избираме?
Дали треба да разгледаме понови концепти за езерската куќа за податоци или треба да бидеме задоволни со ограничувањата на складиштето или ограничувањата на езерото?
Новата архитектура за складирање податоци наречена „data lakehouse“ ја комбинира приспособливоста на езерата на податоци со управувањето со податоците на складиштата на податоци.
Разбирањето на различните методи за складирање на големи податоци е од суштинско значење за изградба на доверлив канал за складирање податоци за деловна интелигенција (БИ), анализа на податоци и машинско учење (ML) оптоварување, во зависност од барањата на вашата компанија.
Во овој пост, внимателно ќе ги разгледаме Data Warehouse, Data Lake и Data Lakehouse, со придобивки, ограничувања, како и добрите и лошите страни од нив. Да почнеме.
Што е складиште на податоци?
Магацинот на податоци е централизирано складиште на податоци што го користи организацијата за да чува огромни количини на податоци од многу извори. Складиштето на податоци делува како единствен извор на „вистината на податоците“ на организацијата и е од суштинско значење за известувањето и деловната анализа.
Вообичаено, складиштата на податоци комбинираат релациони множества на податоци од неколку извори, како што се апликативни, деловни и трансакциски податоци, за складирање на историски податоци. Пред да се вчитаат во системот за складирање, податоците се трансформираат и чистат во складишта на податоци за да можат да се користат како единствен извор на вистината на податоците.
Поради нивниот капацитет брзо да понудат деловни сознанија од сите области на компанијата, бизнисите инвестираат во складишта за податоци. Со употреба на BI алатки, SQL клиенти и други помалку софистицирани (т.е., ненаука за податоци) аналитички решенија, деловни аналитичари, инженерите за податоци и носителите на одлуки можат да пристапат до податоците од складиштата на податоци.
Скапо е да се одржува складиште со постојано зголемување на обемот на податоци, а складиштето на податоци не може да ракува со необработени или неструктурирани податоци. Дополнително, не е идеална опција за софистицирани техники за анализа на податоци како машинско учење или предвидливо моделирање.
Според тоа, складиштето на податоци обезбедува побрзи одговори на прашања и податоци со повисок квалитет. Google Big Query, Amazon Redshift, Azure SQL Data warehouse и Snowflake се облак услуги кои се достапни за складишта на податоци.
Придобивки од складиштето на податоци
- Зголемување на ефикасноста и брзината на обемот на работа за деловна интелигенција и анализа на податоци: Магацините на податоци го скратуваат времето потребно за подготовка и анализа на податоците. Тие лесно можат да се поврзат со алатки за анализа на податоци и деловна интелигенција бидејќи податоците од складиштето на податоци се сигурни и конзистентни. Дополнително, складиштата на податоци заштедуваат време потребно за собирање податоци и им обезбедуваат на тимовите можност да користат податоци за извештаи, контролни табли и други барања за аналитика.
- Зголемување на конзистентноста, квалитетот и стандардизацијата на податоците: Организациите собираат податоци од различни извори, вклучувајќи податоци за корисникот, продажбата и трансакциите. Фирмата може да им верува на податоците за деловните барања бидејќи складирањето податоци ги собира корпоративните податоци во униформа, стандардизиран формат кој може да дејствува како единствен извор на вистината на податоците.
- Подобрување на одлучувањето воопшто: Складирањето податоци го олеснува подоброто донесување одлуки нудејќи централизирана продавница и за неодамнешни и за стари податоци. Со обработка на податоци во складишта на податоци за прецизни увиди, носителите на одлуки можат да ги проценат ризиците, да ги разберат желбите на клиентите и да ги подобрат стоките и услугите.
- Обезбедување подобра деловна интелигенција: Складирањето на податоци го премостува јазот помеѓу огромните необработени податоци, кои често се собираат рутински како работа, и курираните податоци што обезбедуваат увид. Тие дејствуваат како основа за складирање на податоци на организацијата, овозможувајќи ѝ да одговори на комплицираните прашања за нејзините податоци и да ги користи одговорите за да донесе одбранбени деловни одлуки.
Ограничувања на складиштето на податоци
- Недостаток на флексибилност на податоците: Додека складиштата на податоци се одлични во ракувањето со структурирани податоци, полуструктурираните и неструктурирани формати на податоци како што се аналитика на дневници, стриминг и податоци за социјалните медиуми може да бидат предизвик за нив. Ова прави да се препорачаат складишта на податоци за случаи на употреба кои вклучуваат машинско учење и вештачка интелигенција тешкотии.
- Скапи за инсталирање и одржување: Магацините на податоци може да бидат скапи за инсталирање и одржување. Понатаму, складиштето на податоци често не е статично; старее и има потреба од често одржување, што е скапо.
Добрите
- Податоците се едноставни за наоѓање, преземање и барање.
- Сè додека податоците се веќе чисти, подготовката на SQL податоците е едноставна.
Конс
- Вие сте принудени да користите само еден продавач на аналитика.
- Анализирањето и складирањето на неструктурирани или течени податоци е прилично скапо.
Што е Дата Лејк?
Секој тип на податоци е ветен и овозможен од езерата на податоци. Поволно е податоците на пристапен начин централно лоцирани и достапни за читање.
Езерото на податоци е централизиран, исклучително приспособлив простор за складирање каде што се чуваат огромни количини на организирани и неструктурирани податоци во нивните необработени, непроменети и неформатирани форми.
Езерото со податоци користи рамна архитектура и објекти складирани во нејзината необработена состојба за складирање на податоци, наспроти складишта на податоци, кои заштедуваат релациски податоци кои претходно биле „исчистени“.
Езерата на податоци, за разлика од складиштата на податоци, кои имаат потешкотии да ракуваат со податоците во овој формат, се прилагодливи, сигурни и достапни и им овозможуваат на претпријатијата да добијат подобрен увид од неструктурирани податоци.
Во езерата со податоци, податоците се извлекуваат, вчитуваат и трансформираат (ELT) за аналитички цели наместо шемата или податоците да се воспостават во моментот на собирање податоци.
Користење на технологии за многу видови податоци од IoT уреди, социјални медиуми, и преносот на податоци, езерата со податоци овозможува машинско учење и предвидлива аналитика.
Дополнително, научник за податоци кој може да обработува необработени податоци може да го користи езерото со податоци. Магацинот за податоци, од друга страна, е полесен за бизнисите за користење. Совршено е за профилирање на корисникот, предвидувачка анализа, машинско учење и други задачи.
Иако податочните езера решаваат неколку проблеми со складиштата на податоци, нивниот квалитет на податоците е слаб и нивната брзина на барање е недоволна. Дополнително, потребни се дополнителни алатки за деловните корисници да спроведат SQL прашања. Езерото со податоци што е слабо структурирано може да доживее проблем со стагнација на податоците.
Придобивките од Data Lake
- Поддршка за широк опсег на случаи на примена на машинско учење и наука за податоци Поедноставно е да се користат различни алгоритми за машинско и длабоко учење за ракување со податоците во езерата на податоци бидејќи податоците се чуваат на отворен, необработен начин.
- Разновидноста на езерата на податоци, која ви овозможува да складирате податоци во кој било формат или медиум без барање за претходно поставена шема, е голема предност. Може да се поддржат идни случаи на употреба на податоци, а повеќе податоци може да се анализираат доколку податоците се остават во првобитната состојба.
- Со цел да се избегне складирање на двата типа на податоци во различни контексти, езерата со податоци може да содржи и структурирани и неструктурирани податоци. За складирање на различни видови на организациски податоци, тие нудат една локација.
- Во споредба со традиционалните складишта за податоци, езерата со податоци се поевтини бидејќи се изградени за да се чуваат на евтин хардвер за стоки, како што е складирање на предмети, кое често е наменето за пониска цена по складиран гигабајт.
Ограничувања на Data Lake
- Случаите за користење на аналитиката на податоци и деловната интелигенција имаат слаб резултат: Податочните езера може да станат неорганизирани доколку не се одржуваат соодветно, што го отежнува нивното поврзување со алатките за деловна интелигенција и аналитика. Дополнително, кога е потребно за известување и употреба на случаи за аналитика, недостаток на конзистентни структури на податоци и ACID (атомичноста, конзистентноста, изолацијата и издржливоста) трансакциската поддршка може да доведе до неоптимални перформанси на барањето.
- Неконзистентноста на езерата на податоци го оневозможува спроведувањето на сигурноста и безбедноста на податоците, што резултира со недостаток на двете. Можеби е тешко да се развијат соодветни стандарди за безбедност и управување на податоците за да се задоволат чувствителните типови на податоци, бидејќи езерата на податоци може да се справи со која било форма на податоци.
Добрите
- Решенија кои се достапни за сите видови податоци.
- Може да ракува со податоци кои се и организирани и полуструктурирани.
- Идеален за комплицирана обработка и пренос на податоци.
Конс
- Треба да се изгради софистициран гасовод.
- Дајте им малку време на податоците да станат прашални.
- Потребно е време за да се гарантира сигурноста и квалитетот на податоците.
Што е Data Lakehouse?
Новата архитектура за складирање на големи податоци наречена „езерско куќиште на податоци“ ги комбинира најголемите аспекти на езерата на податоци и складиштата на податоци. Сите ваши податоци, без разлика дали се структурирани, полуструктурирани или неструктурирани, може да се складираат на една локација со најдобрите можни способности за машинско учење, деловна интелигенција и пренос благодарение на езерската куќа за податоци.
Податочните езера од сите видови често се почетна точка за езерските куќи со податоци; после тоа, податоците се трансформираат во формат Delta Lake (слој за складирање со отворен код кој носи сигурност на езерата на податоци).
Езерата со податоци со делта езера овозможуваат ACID трансакциски процедури од конвенционалните складишта на податоци. Во суштина, системот на езерската куќа користи евтино складирање за да одржува огромни количини на податоци во нивните оригинални форми, слично како езерата со податоци.
Додавањето на слојот за метаподатоци на врвот на продавницата, исто така, дава структура на податоци и ги овластува алатките за управување со податоци како оние што се наоѓаат во складиштата на податоци.
Ова им овозможува на многу тимови да пристапат до сите податоци на компанијата преку единствен систем за различни иницијативи, како што се наука за податоци, машинско учење и деловна интелигенција.
Предности на Data Lakehouse
- Поддршка за поголем опсег на оптоварувања: за да се олеснат софистицираните анализи, куќите за езера на податоци им овозможуваат на корисниците директен пристап до некои од најпопуларните алатки за деловна интелигенција (Tableau, PowerBI). Дополнително, научниците за податоци и инженерите за машинско учење можат лесно да ги користат податоците бидејќи езерските куќи за податоци користат формати со отворени податоци (како што е Паркет) заедно со API и рамки за машинско учење, како што е Python/R.
- Ефективност: Езерските куќи за податоци користат евтини решенија за складирање на предмети за да ги имплементираат економичните карактеристики за складирање на езерата на податоци. Со нудење на едно решение, куќите за езера на податоци исто така ги отстрануваат трошоците и времето поврзани со управувањето со различни системи за складирање податоци.
- Дизајнот на податочната куќа обезбедува шема и интегритет на податоците, што го прави поедноставно да се градат ефективни системи за безбедност и управување со податоците. Леснотија на верзии на податоци, управување и безбедност.
- Податочните езерски куќи нудат единствена, повеќенаменска платформа за складирање податоци која може да ги задоволи сите барања на податоците на компанијата, што го намалува дуплирањето на податоците. Мнозинството бизниси избираат хибридно решение поради придобивките и од складиштето на податоци и од езерото со податоци. Оваа стратегија, во меѓувреме, може да резултира со скапо дуплирање на податоците.
- Поддршка на отворени формати. Отворените формати се типови на датотеки што можат да ги користат многу софтверски апликации и чии спецификации се јавно достапни. Според извештаите, Lakehouses се способни да складираат податоци во вообичаени формати на датотеки како Apache Parquet и ORC (Optimized Row Columnar).
Ограничувања на Data Lakehouse
Најголемиот недостаток на езерската куќа за податоци е тоа што сè уште е млада и технологија во развој. Неизвесно е дали ќе ги исполни своите обврски како резултат. Пред езерските куќи на податоци да можат да се натпреваруваат со воспоставените системи за складирање на големи податоци, може да поминат години.
Сепак, со оглед на брзината со која се случуваат модерните иновации, тешко е да се каже дали различен систем за складирање податоци на крајот нема да го замени.
Добрите
- Една платформа ги има сите податоци, што значи дека има помалку имиња на домаќини за одржување.
- Атомичноста, конзистентноста, изолацијата и цврстината не се засегнати.
- Тоа е значително подостапно.
- Една платформа ги има сите податоци, што значи дека има помалку имиња на домаќини за одржување.
- Едноставно за управување и брзо отстранување на какви било проблеми
- Направете го поедноставно изградбата на цевковод
Конс
- Поставувањето може да потрае некое време.
- Премногу е млад и премногу далеку за да се квалификува како воспоставен систем за складирање.
Магацин на податоци против Езеро на податоци против Езеро на податоци
Магацинот на податоци има долга историја во корпоративната интелигенција, известувањето и аналитичките апликации и е првата технологија за складирање на големи податоци.
Магацините на податоци, од друга страна, се скапи и имаат проблем со ракување со разновидни и неструктурирани податоци, како што се стриминг податоци. За машинско учење и оптоварување на науката за податоци, езерата на податоци беа развиени за управување со необработени податоци во различни форми на прифатливо складирање.
Иако езерата на податоци се ефективни со неструктурирани податоци, им недостасуваат ACID трансакциските способности на складиштата на податоци, што го прави предизвик да се гарантира конзистентноста и доверливоста на податоците.
Најновата архитектура за складирање податоци, позната како „data lakehouse“, ја комбинира доверливоста и конзистентноста на складиштата на податоци со достапноста и приспособливоста на езерата на податоци.
Заклучок
Како заклучок, изградбата на езерска куќа за податоци од нула може да биде тешко. Понатаму, речиси сигурно ќе користите платформа дизајнирана да овозможи архитектура на куќи со отворени податоци.
Затоа, бидете внимателни да ги истражите многуте карактеристики и имплементации на секоја платформа пред да купите. Компаниите кои бараат зрело, структурирано решение за податоци со фокус на случаите на употреба на деловна интелигенција и анализа на податоци може да размислат за складиште на податоци.
Сепак, претпријатијата кои бараат скалабилно, достапно решение за големи податоци за напојување на оптоварувањата за наука за податоци и машинско учење на неструктурирани податоци треба да размислат за езерата на податоци.
Сметајте дека на вашиот бизнис му требаат повеќе податоци отколку што можат да обезбедат технологиите на складиштето на податоци и езерата на податоци или дека барате решение за интегрирање на софистицираните операции за анализа и машинско учење на вашите податоци. А data Lakehouse е разумна опција во ситуацијата.
Оставете Одговор