Съдържание[Крия][Покажи]
Компаниите улавят повече данни от всякога, тъй като все повече разчитат на тях, за да информират важни бизнес решения, да подобрят продуктовите предложения и да осигурят по-добро обслужване на клиентите.
С количеството данни, създавано с експоненциална скорост, облакът предлага няколко предимства за обработка на данни и анализи, включително мащабируемост, надеждност и наличност.
В облачната екосистема има и няколко инструмента и технологии за обработка и анализ на данни. Двата вида структури за съхранение на големи данни, които се използват най-често, са хранилища за данни и езера от данни.
Въпреки че използването на езеро от данни е по-малко привлекателно, тъй като не можете да правите запитвания към модела и данните, докато те все още са подходящи, използването на хранилище за данни за поточно съхранение на данни е разточително.
Wкакъв тип облачна архитектура да изберем?
Трябва ли да обмислим по-нови концепции за езерото с данни или трябва да се задоволим с ограниченията на склада или с ограниченията на езерото?
Нова архитектура за съхранение на данни, наречена „езеро за данни“, съчетава адаптивността на езерата с данни с управлението на данни на хранилища за данни.
Разбирането на различните методи за съхранение на големи данни е от съществено значение за изграждането на надежден тръбопровод за съхранение на данни за бизнес разузнаване (BI), анализ на данни и машинно обучение (ML) работни натоварвания, в зависимост от изискванията на вашата компания.
В тази публикация ще разгледаме отблизо Data Warehouse, Data Lake и Data Lakehouse, с предимствата, ограниченията, както и предимствата и недостатъците им. Нека да започнем.
Какво е Data Warehouse?
Складът за данни е централизирано хранилище на данни, използвано от организация за съхранение на огромни обеми данни от много източници. Складът за данни действа като единствен източник на „истина на данните“ за организацията и е от съществено значение за отчитането и бизнес анализите.
Обикновено хранилищата за данни комбинират набори от релационни данни от няколко източника, като данни за приложения, бизнес и транзакции, за да съхраняват исторически данни. Преди да бъдат заредени в складовата система, данните се трансформират и почистват в хранилища за данни, така че да могат да се използват като единствен източник на истинност на данните.
Благодарение на способността си бързо да предлагат бизнес прозрения от всички области на компанията, предприятията инвестират в хранилища за данни. С използването на BI инструменти, SQL клиенти и други по-малко сложни (т.е. несвързани с науката за данни) решения за анализ, бизнес анализатори, инженерите по данни и лицата, вземащи решения, имат достъп до данни от хранилища за данни.
Скъпо е да се поддържа склад с непрекъснато нарастващ обем от данни, а складът за данни не може да обработва необработени или неструктурирани данни. Освен това, това не е идеалният вариант за сложни техники за анализ на данни, като машинно обучение или прогнозно моделиране.
Следователно складът за данни осигурява по-бързи отговори на заявки и данни с по-високо качество. Google Big Query, Amazon Redshift, Azure SQL Data warehouse и Snowflake са облачни услуги, които са достъпни за хранилища за данни.
Предимства на Data Warehouse
- Повишаване на ефективността и скоростта на работните натоварвания за бизнес разузнаване и анализ на данни: Складовете за данни съкращават времето, необходимо за подготовка и анализ на данните. Те могат лесно да се свържат с инструментите за анализ на данни и бизнес разузнаване, тъй като данните от хранилището на данни са надеждни и последователни. Освен това складовете за данни спестяват времето, необходимо за събиране на данни, и предоставят на екипите възможността да използват данни за отчети, табла за управление и други изисквания за анализ.
- Повишаване на последователността, качеството и стандартизацията на данните: Организациите събират данни от различни източници, включително данни за потребители, продажби и транзакции. Фирмата може да се довери на данните за бизнес изискванията, тъй като складирането на данни компилира корпоративните данни в единен, стандартизиран формат, който може да действа като единствен източник на верни данни.
- Подобряване на вземането на решения като цяло: Складирането на данни улеснява по-доброто вземане на решения, като предлага централизирано съхранение както за скорошни, така и за стари данни. Чрез обработка на данни в хранилища за данни за прецизни прозрения, вземащите решения могат да оценят рисковете, да разберат желанията на клиентите и да подобрят стоките и услугите.
- Осигуряване на по-добро бизнес разузнаване: Складирането на данни преодолява празнината между масивните необработени данни, които често се събират рутинно като нещо естествено, и подбраните данни, които предоставят прозрения. Те действат като основа за съхранение на данни на организацията, като й позволяват да отговаря на сложни въпроси относно своите данни и да използва отговорите, за да вземе оправдани бизнес решения.
Ограничения на Data Warehouse
- Липса на гъвкавост на данните: Въпреки че хранилищата за данни се отличават с обработката на структурирани данни, полуструктурираните и неструктурирани формати на данни като анализ на регистрационни файлове, стрийминг и данни от социални медии могат да бъдат предизвикателство за тях. Това прави препоръчването на хранилища за данни за случаи на употреба, включващи машинно обучение и изкуствен интелект трудно.
- Скъп за инсталиране и поддръжка: Инсталирането и поддръжката на хранилищата за данни може да бъде скъпо. Освен това хранилището на данни често не е статично; остарява и има нужда от честа поддръжка, която е скъпа.
Професионалисти
- Данните са лесни за намиране, извличане и търсене.
- Докато данните вече са чисти, подготовката на SQL данни е проста.
Против
- Вие сте принудени да използвате само един доставчик на анализи.
- Анализирането и съхраняването на неструктурирани или текущи данни е доста скъпо.
Какво е езерото на данните?
Всеки тип данни е обещан и възможен чрез езера от данни. Полезно е да имате данни по достъпен начин, централно разположени и достъпни за четене.
Езерото от данни е централизирано, изключително адаптивно пространство за съхранение, където се съхраняват масивни обеми от организирани и неструктурирани данни в техните необработени, непроменени и неформатирани форми.
Езерото от данни използва плоска архитектура и обекти, съхранявани в необработено състояние, за да съхранява данни, за разлика от хранилищата за данни, които запазват релационни данни, които преди това са били „почистени“.
Езерата от данни, за разлика от хранилищата за данни, които имат трудности при обработката на данни в този формат, са адаптивни, надеждни и достъпни и позволяват на предприятията да получат подобрена представа от неструктурирани данни.
В езерата от данни данните се извличат, зареждат и трансформират (ELT) за аналитични цели, вместо схемата или данните да са установени по време на събирането на данни.
Използвайки технологии за много видове данни от IoT устройства, социална медияи поточно предаване на данни, езерата от данни позволяват машинно обучение и предсказуем анализ.
Освен това специалист по данни, който може да обработва необработени данни, може да използва езерото от данни. От друга страна, складът за данни е по-лесен за използване от бизнеса. Той е идеален за потребителско профилиране, предсказуем анализ, машинно обучение и други задачи.
Въпреки че езерата от данни адресират няколко проблема със складовете за данни, тяхното качество на данните е лошо и скоростта на заявките им е недостатъчна. Освен това са необходими допълнителни инструменти за бизнес потребителите за извършване на SQL заявки. Езеро от данни, което е лошо структурирано, може да изпита проблем със стагнация на данни.
Предимства на Data Lake
- Поддръжка за широка гама от случаи на приложение на машинно обучение и наука за данни По-лесно е да се използва различна машина и алгоритми за дълбоко обучение за обработка на данните в езерата от данни, тъй като данните се съхраняват по отворен, необработен начин.
- Гъвкавостта на езерата с данни, която ви позволява да съхранявате данни във всякакъв формат или носител без изискване за предварително зададена схема, е голямо предимство. Могат да се поддържат бъдещи случаи на използване на данни и повече данни могат да бъдат анализирани, ако данните бъдат оставени в първоначалното си състояние.
- За да се избегне необходимостта от съхраняване на двата типа данни в различни контексти, езерата от данни могат да съдържат както структурирани, така и неструктурирани данни. За съхранение на различни видове организационни данни те предлагат едно място.
- В сравнение с традиционните хранилища за данни, езерата от данни са по-евтини, защото са изградени да се съхраняват на евтин стоков хардуер, като например съхранение на обекти, което често е насочено към по-ниска цена на съхранен гигабайт.
Ограничения на Data Lake
- Случаите на използване на анализа на данни и бизнес разузнаването се оценяват слабо: Езерата от данни могат да станат неорганизирани, ако не се поддържат адекватно, което затруднява свързването им с инструментите за бизнес разузнаване и анализ. Освен това, когато е необходимо за случаи на използване на отчети и анализи, липса на последователност структури от данни и транзакционната поддръжка на ACID (атомарност, последователност, изолация и издръжливост) може да доведе до неоптимална производителност на заявките.
- Несъответствието на езерата с данни прави невъзможно налагането на надеждност и сигурност на данните, което води до липса и на двете. Може да е трудно да се разработят подходящи стандарти за сигурност и управление на данните, за да се погрижат за чувствителните типове данни, тъй като езерата от данни могат да обработват всяка форма на данни.
Професионалисти
- Решения, които са достъпни за всички видове данни.
- Способен да обработва данни, които са едновременно организирани и полуструктурирани.
- Идеален за сложна обработка на данни и поточно предаване.
Против
- Нуждае се от изграждане на сложен тръбопровод.
- Дайте известно време на данните, за да станат достъпни за запитване.
- Отнема време, за да се гарантира надеждност и качество на данните.
Какво е Data Lakehouse?
Нова архитектура за съхранение на големи данни, наречена „data lakehouse“, съчетава най-добрите аспекти на езерата с данни и хранилищата за данни. Всички ваши данни, независимо дали са структурирани, полуструктурирани или неструктурирани, могат да се съхраняват на едно място с възможно най-добрите възможности за машинно обучение, бизнес разузнаване и стрийминг благодарение на хранилището за данни.
Езерата с данни от всякакъв вид често са отправна точка за езера с данни; след това данните се трансформират във формат Delta Lake (слой за съхранение с отворен код, който осигурява надеждност на езерата с данни).
Езера от данни с делта езера позволяват ACID транзакционни процедури от конвенционалните хранилища за данни. По същество системата lakehouse използва евтино съхранение, за да поддържа огромни количества данни в оригиналните им форми, подобно на езерата с данни.
Добавянето на слоя с метаданни в горната част на магазина също дава структура на данните и дава възможност на инструменти за управление на данни като тези, които се намират в хранилищата за данни.
Това дава възможност на много екипи да имат достъп до всички данни на компанията чрез една система за различни инициативи, като наука за данни, машинно обучение и бизнес разузнаване.
Предимства на Data Lakehouse
- Поддръжка за по-голям набор от работни натоварвания: За да улеснят сложните анализи, хранилищата за данни дават на потребителите директен достъп до някои от най-популярните инструменти за бизнес разузнаване (Tableau, PowerBI). Освен това учените по данни и инженерите по машинно обучение могат лесно да използват данните, тъй като хранилищата за данни използват формати с отворени данни (като Parquet) заедно с API и рамки за машинно обучение, като Python/R.
- Ефективност на разходите: Data lakehouses използват евтини решения за съхранение на обекти, за да внедрят икономически ефективни характеристики за съхранение на data lakes. Предлагайки едно единствено решение, хранилищата за данни премахват разходите и времето, свързани с управлението на различни системи за съхранение на данни.
- Дизайнът на хранилището за данни гарантира целостта на схемата и данните, което улеснява изграждането на ефективна сигурност на данните и системи за управление. Лекота на версия на данните, управление и сигурност.
- Data lakehouses предлагат единна, многофункционална платформа за съхранение на данни, която може да поеме всички фирмени изисквания за данни, което намалява дублирането на данни. Повечето фирми избират хибридно решение поради предимствата както на хранилището на данни, така и на езерото от данни. Междувременно тази стратегия може да доведе до скъпоструващо дублиране на данни.
- Поддръжка на отворени формати. Отворените формати са типове файлове, които могат да се използват от много софтуерни приложения и чиито спецификации са публично достъпни. Според докладите Lakehouses могат да съхраняват данни в общи файлови формати като Apache Parquet и ORC (Optimized Row Columnar).
Ограничения на Data Lakehouse
Най-големият недостатък на хранилището за данни е, че това е все още млада и развиваща се технология. Не е сигурно дали ще изпълни ангажиментите си в резултат на това. Преди хранилищата за данни да могат да се конкурират с установените системи за съхранение на големи данни, може да отнеме години.
Въпреки това, предвид скоростта, с която се появяват съвременните иновации, е трудно да се каже дали различна система за съхранение на данни няма в крайна сметка да я замени.
Професионалисти
- Една платформа има всички данни, което означава, че има по-малко имена на хостове за поддръжка.
- Атомичността, консистенцията, изолацията и здравината не са засегнати.
- Той е значително по-достъпен.
- Една платформа има всички данни, което означава, че има по-малко имена на хостове за поддръжка.
- Лесен за управление и бърз за отстраняване на всякакви проблеми
- Улеснете изграждането на тръбопровод
Против
- Настройката може да отнеме известно време.
- Тя е твърде млада и твърде далечна, за да се квалифицира като установена система за съхранение.
Data Warehouse срещу Data Lake срещу Data Lakehouse
Складът за данни има дълга история в приложенията за корпоративно разузнаване, отчитане и анализ и е първата технология за съхранение на големи данни.
От друга страна, хранилищата за данни са скъпи и имат проблеми с обработката на различни и неструктурирани данни, като например поточни данни. За натоварвания с машинно обучение и наука за данни са разработени езера от данни за управление на необработени данни в различни форми на достъпно хранилище.
Въпреки че езерата от данни са ефективни с неструктурирани данни, им липсват транзакционните възможности на ACID на хранилищата за данни, което прави предизвикателство да се гарантира последователност и надеждност на данните.
Най-новата архитектура за съхранение на данни, известна като „data lakehouse“, съчетава надеждността и последователността на хранилищата с данни с достъпността и адаптивността на езерата с данни.
Заключение
В заключение, изграждането на хранилище за данни от нулата може да е трудно. Освен това почти сигурно ще използвате платформа, предназначена да активира отворена архитектура на езерото с данни.
Затова внимавайте да проучите многото функции и реализации на всяка платформа, преди да направите покупка. Компаниите, които търсят зряло, структурирано решение за данни с акцент върху случаите на използване на бизнес разузнаване и анализ на данни, могат да обмислят склад за данни.
Предприятията обаче, които търсят мащабируемо, достъпно решение за големи данни за захранване на работни натоварвания за наука за данни и машинно обучение върху неструктурирани данни, трябва да обмислят езера от данни.
Помислете, че вашият бизнес се нуждае от повече данни, отколкото могат да осигурят хранилището на данни и технологиите за езеро от данни, или че търсите решение за интегриране на сложни операции за анализ и машинно обучение върху вашите данни. А data lakehouse е разумен вариант в ситуацията.
Оставете коментар