Data lakehouses съчетават концепциите за съхранение на данни и езеро за данни за бизнеса.
Тези инструменти ви позволяват да създавате рентабилни решения за съхранение на данни чрез комбиниране на възможностите за управление на езерата от данни с архитектурата на данни, намираща се в хранилищата за данни.
Освен това има намаление на миграцията и резервирането на данни, по-малко време се изразходва за администриране и по-кратките схеми и процедури за управление на данни всъщност стават реалност.
Един резервоар за данни има много предимства в сравнение със система за съхранение с няколко решения.
Тези инструменти все още се използват от учените за данни, за да подобрят разбирането си за процедурите за бизнес разузнаване и машинно обучение.
Тази статия ще направи бърз поглед върху data lakehouse, неговите възможности и наличните инструменти.
Въведение в Data Lakehouse
Нов вид архитектура на данни, наречена „data lakehouse” съчетава езеро от данни и хранилище за данни, за да се справи със слабостите на всеки един поотделно.
Системата lakehouse, подобно на езерата за данни, използва евтино хранилище, за да поддържа огромни количества данни в оригиналната им форма.
Добавянето на слой с метаданни в горната част на магазина също така осигурява структура на данните и дава възможност на инструменти за управление на данни, подобни на тези в хранилищата за данни.
Той съдържа огромни количества структурирани, полуструктурирани и неструктурирани данни, получени от различни бизнес приложения, системи и устройства, използвани в цялото предприятие.
В резултат на това, за разлика от езерата от данни, системата lakehouse може да управлява и оптимизира тези данни за SQL производителност.
Освен това има способността да съхранява и обработва големи количества разнообразни данни на по-евтина цена от хранилищата за данни.
Data lakehouse е полезен, когато трябва да осъществите достъп до данни или анализ срещу каквито и да е данни, но не сте сигурни в данните или препоръчаните анализи.
Архитектурата на Lakehouse ще функционира доста добре, ако производителността не е основна грижа.
Това не означава, че трябва да базирате цялата си структура върху езерна къща.
Повече информация за това как да изберете езеро с данни, езеро, склад за данни или специализирана аналитична база данни за всеки случай на употреба можете да намерите тук.
Характеристики на Data Lakehouse
- Едновременно четене и запис на данни
- Адаптивност и мащабируемост
- Помощ за схема с инструменти за управление на данни
- Едновременно четене и запис на данни
- Съхранение, което е достъпно
- Поддържат се всички типове данни и файлови формати.
- Достъп до инструменти за наука за данни и машинно обучение, който е оптимизиран
- Вашите екипи за данни ще се възползват от достъпа само до една система, за да прехвърлят натоварвания през нея по-бързо и точно.
- Възможности в реално време за инициативи в областта на науката за данни, машинното обучение и анализите
Топ 5 инструмента на Data Lakehouse
Датчици за данни
Databricks, която е основана от човека, който пръв разработи и направи Apache Spark с отворен код, предоставя управлявана услуга Apache Spark и е позиционирана като платформа за езера от данни.
Компонентите на Data lake, delta lake и delta engine на архитектурата Databricks lakehouse позволяват случаи на използване на бизнес разузнаване, наука за данни и машинно обучение.
Езерото с данни е публично хранилище за съхранение в облак.
С поддръжка за управление на метаданни, пакетна и поточна обработка на данни за многоструктурирани набори от данни, откриване на данни, контроли за безопасен достъп и SQL анализи.
Databricks предлага повечето от функциите за съхранение на данни, които може да очаквате да видите в платформата за съхранение на данни.
Databricks наскоро представи своя Auto Loader, който автоматизира ETL и въвеждането на данни и използва вземането на проби от данни, за да изведе схемата за различни типове данни, за да предостави основните компоненти на стратегията за съхранение на езерото от данни.
Като алтернатива, потребителите могат да изграждат ETL тръбопроводи между тяхното езеро с публични облачни данни и Delta Lake с помощта на Delta Live Tables.
На хартия изглежда, че Databricks има всички предимства, но настройването на решението и създаването на неговите канали за данни изисква много човешки труд от квалифицирани разработчици.
В мащаб отговорът също става по-сложен. По-сложно е отколкото изглежда.
Ahana
Езерото от данни е едно централно място, където можете да съхранявате произволен тип данни в мащаб, включително неструктурирани и структурирани данни. AWS S3, Microsoft Azure и Google Cloud Storage са три често срещани езера с данни.
Езерата с данни са изключително харесвани, защото са много достъпни и лесни за използване; по същество можете да съхранявате колкото желаете данни за много малко пари.
Но езерото с данни не предлага вградени инструменти като анализи, заявки и т.н.
Нуждаете се от машина за заявки и каталог с данни в горната част на езерото с данни (където идва Ahana Cloud), за да правите заявки за вашите данни и да ги използвате.
С най-доброто както от Data Warehouse, така и от Data Lake, е разработен нов дизайн на data lakehouse.
Това показва, че е прозрачен, адаптивен, има добра цена/производителност, мащабира се като езеро с данни, поддържа транзакции и има високо ниво на сигурност, сравнимо със склад за данни.
Вашата високопроизводителна SQL машина за заявки е мозъкът зад Data Lakehouse. Поради това можете да изпълнявате високоефективен анализ на вашите данни от езерото от данни.
Ahana Cloud за Presto е SaaS за Presto на AWS, което прави невероятно лесно да започнете да използвате Presto в облака.
За вашето базирано на S3 езеро от данни Ahana вече има вграден каталог с данни и кеширане. Ahana ви дава функциите на Presto, без да изисква от вас да се справяте с режийните разходи, защото го прави вътрешно.
AWS Lake Formation, Apache Hudi и Delta Lake са само някои от мениджърите на транзакции, които са част от стека и се интегрират с него.
Дремио
Организациите се стремят бързо, лесно и ефективно да оценяват огромни количества бързо нарастващи данни.
Dremio вярва, че езерото с отворени данни съчетава предимствата на езерата с данни и складовете за данни на отворена основа е най-добрият подход за постигане на това.
Платформата lakehouse на Dremio предоставя изживяване, което работи за всички, с лесен потребителски интерфейс, който позволява на потребителите да извършват анализи за част от времето.
Dremio Cloud, напълно управлявана платформа за езеро за данни, и стартирането на две нови услуги: Dremio Sonar, машина за заявки за езеро и Dremio Arctic, интелигентен мегамагазин за Apache Iceberg, който предоставя уникално подобно на Git изживяване за езерото.
Всички SQL работни натоварвания на една организация могат да се изпълняват на безпроблемната, безкрайно мащабируема платформа Dremio Cloud, която също автоматизира задачите за управление на данни.
Той е създаден за SQL, предлага изживяване, подобно на Git, е с отворен код и винаги е безплатен.
Те го създадоха, за да бъде платформата Lakehouse, която екипите за данни обожават.
Използвайки таблици с отворен код и файлови формати като Apache Iceberg и Apache Parquet, вашите данни са постоянни във вашето собствено хранилище на езеро от данни, когато използвате Dremio Cloud.
Бъдещите иновации могат лесно да бъдат възприети и правилният двигател може да бъде избран въз основа на вашето работно натоварване.
Снежинка
Snowflake е облачна платформа за данни и анализи, която може да отговори на нуждите на езерата с данни и складовете.
Започва като система за съхранение на данни, изградена върху облачна инфраструктура.
Платформата се състои от централизирано хранилище за съхранение, което се намира върху публичното облачно хранилище от AWS, Microsoft Azure или Google Cloud Platform (GCP).
След това е мултиклъстерен изчислителен слой, където потребителите могат да стартират виртуално хранилище за данни и да извършват SQL заявки към тяхното хранилище на данни.
Архитектурата позволява отделяне на ресурсите за съхранение и изчисления, което позволява на организациите да мащабират двете независимо, ако е необходимо.
И накрая, Snowflake предоставя сервизен слой с категоризация на метаданни, управление на ресурси, управление на данни, транзакции и други функции.
Конектори за BI инструменти, управление на метаданни, контроли за достъп и SQL заявки са само малка част от функционалността на хранилището на данни, която платформата предлага отлично.
Snowflake обаче е ограничен до една релационна SQL-базирана машина за заявки.
В резултат на това става по-просто за администриране, но по-малко адаптивно и визията за езерото от данни с множество модели не се реализира.
Освен това, преди данните от облачното хранилище да могат да бъдат търсени или анализирани, Snowflake изисква от бизнеса да ги зареди в централизиран слой за съхранение.
Ръчната процедура за конвейер на данни изисква предварително ETL, осигуряване и форматиране на данни, преди да могат да бъдат прегледани. Увеличаването на тези ръчни процеси ги прави разочароващи.
Друг вариант, който изглежда добре пасва на хартия, но всъщност се отклонява от принципа на езерото от данни за просто въвеждане на данни, е езерото на данни на Snowflake.
Оракул
Модерната, отворена архитектура, известна като „езеро за данни“, прави възможно съхраняването, разбирането и анализирането на всички ваши данни.
Ширината и гъвкавостта на най-харесваните решения за езера с отворен код с отворен код се комбинират със силата и дълбочината на хранилищата за данни.
Най-новите AI рамки и предварително създадени AI услуги могат да се използват с хранилище за данни в Oracle Cloud Infrastructure (OCI).
Възможно е да работите с допълнителни типове данни, докато използвате езеро с данни с отворен код. Но времето и усилията, необходими за управлението му, могат да бъдат постоянен недостатък.
OCI предлага напълно управлявани услуги на Lakehouse с отворен код на по-ниски цени и с по-малко управление, което ви позволява да предвидите по-ниски оперативни разходи, по-добра мащабируемост и сигурност и капацитет за консолидиране на всички ваши съществуващи данни на едно място.
Хранилище за данни ще повиши стойността на хранилищата и магазините за данни, които са от съществено значение за успешните предприятия.
Данните могат да бъдат извлечени с помощта на lakehouse от няколко места само с една SQL заявка.
Съществуващите програми и инструменти получават прозрачен достъп до всички данни, без да се налагат корекции или придобиване на нови умения.
Заключение
Въвеждането на решения за съхранение на данни е отражение на по-голяма тенденция в големите данни, която е интегрирането на анализи и съхранение на данни в унифицирани платформи за данни, за да се увеличи максимално бизнес стойността от данните, като същевременно се намалят времето, разходите и сложността на извличането на стойност.
Платформи, включително Databricks, Snowflake, Ahana, Dremio и Oracle, са свързани с идеята за „езеро от данни“, но всяка от тях има уникален набор от функции и тенденция да функционира повече като склад за данни, отколкото като истинско езеро от данни като цяло.
Когато едно решение се рекламира като „база за данни“, бизнесът трябва да внимава какво всъщност означава то.
Предприятията трябва да погледнат отвъд маркетинговия жаргон като „база за данни“ и вместо това да разгледат характеристиките на всяка платформа, за да изберат най-добрата платформа за данни, която ще се разшири с техния бизнес в бъдеще.
Оставете коментар