Talaan ng nilalaman[Tago][Ipakita]
Pinagsasama ng mga data lakehouse ang data warehouse at mga konsepto ng data lake para sa mga negosyo.
Hinahayaan ka ng mga tool na ito na bumuo ng mga solusyon sa pag-iimbak ng data na matipid sa gastos sa pamamagitan ng pagsasama-sama ng mga kakayahan sa pamamahala ng mga lawa ng data sa arkitektura ng data na makikita sa mga warehouse ng data.
Bukod pa rito, may pagbawas sa paglilipat at redundancy ng data, mas kaunting oras ang ginugugol sa pangangasiwa, at ang mas maikling schema at mga pamamaraan sa pamamahala ng data ay talagang nagiging katotohanan.
Ang isang data lakehouse ay may maraming pakinabang kumpara sa isang storage system na may ilang mga solusyon.
Ang mga tool na ito ay ginagamit pa rin ng mga data scientist para pahusayin ang kanilang pang-unawa sa business intelligence at mga pamamaraan ng machine learning.
Ang artikulong ito ay mabilis na titingnan ang data lakehouse, ang mga kakayahan nito, at ang mga magagamit na tool.
Panimula sa Data Lakehouse
Isang bagong uri ng arkitektura ng data na tinatawag na "data lakehouse” pinagsasama ang isang data lake at isang data warehouse upang matugunan ang mga kahinaan ng bawat isa nang nakapag-iisa.
Ang sistema ng lakehouse, tulad ng mga lawa ng data, ay gumagamit ng murang imbakan upang mapanatili ang malaking halaga ng data sa orihinal nitong anyo.
Ang pagdaragdag ng isang metadata layer sa itaas ng store ay nagbibigay din ng istraktura ng data at nagbibigay ng kapangyarihan sa mga tool sa pamamahala ng data na katulad ng mga makikita sa mga data warehouse.
Naglalaman ito ng napakaraming structured, semi-structured, at unstructured na data na nakuha mula sa iba't ibang business application, system, at device na ginagamit sa buong enterprise.
Bilang resulta, hindi tulad ng mga lawa ng data, ang sistema ng lakehouse ay maaaring pamahalaan at i-optimize ang data na iyon para sa pagganap ng SQL.
Mayroon din itong kakayahang mag-imbak at magproseso ng malalaking halaga ng magkakaibang data sa mas murang halaga kaysa sa mga warehouse ng data.
Ang isang data lakehouse ay madaling gamitin kapag kailangan mong magsagawa ng anumang data access o analytics laban sa anumang data ngunit hindi sigurado sa data o sa inirerekomendang analytics.
Ang arkitektura ng lakehouse ay gagana nang maayos kung ang pagganap ay hindi pangunahing alalahanin.
Hindi iyon nangangahulugan na dapat mong ibase ang iyong buong istraktura sa isang lakehouse.
Higit pang impormasyon kung paano pumili ng data lake, lakehouse, data warehouse, o espesyal na database ng analytics para sa bawat kaso ng paggamit ay matatagpuan dito.
Mga Tampok ng Data Lakehouse
- Kasabay na pagbasa at pagsulat ng datos
- Kakayahang umangkop at scalability
- Tulong sa schema sa mga tool sa pamamahala ng data
- Kasabay na pagbasa at pagsulat ng datos
- Imbakan na abot-kaya
- Lahat ng mga uri ng data at mga format ng file ay sinusuportahan.
- Access sa data science at machine learning tool na naka-optimize
- Makikinabang ang iyong mga data team sa pagkakaroon ng access sa isang system lang upang maglipat ng mga workload sa pamamagitan nito nang mas mabilis at tumpak.
- Mga real-time na kakayahan para sa mga inisyatiba sa data science, machine learning, at analytics
Nangungunang 5 tool sa Data Lakehouse
Mga Databrick
Databricks, na itinatag ng taong unang bumuo ng Apache Spark at ginawa ito open source, ay nagbibigay ng pinamamahalaang serbisyo ng Apache Spark at nakaposisyon bilang isang platform para sa mga lawa ng data.
Ang mga bahagi ng data lake, delta lake, at delta engine ng arkitektura ng Databricks lakehouse ay nagbibigay-daan sa business intelligence, data science, at mga kaso ng paggamit ng machine learning.
Ang data lake ay isang pampublikong imbakan ng cloud storage.
Sa suporta para sa pamamahala ng metadata, pagpoproseso ng batch at stream ng data para sa mga multi-structured na dataset, pagtuklas ng data, ligtas na mga kontrol sa pag-access, at SQL analytics.
Nag-aalok ang Databricks ng karamihan sa mga function ng data warehousing na maaaring asahan na makita sa isang platform ng data lakehouse.
Inilabas kamakailan ng Databricks ang Auto Loader nito, na nag-o-automate ng ETL at data input at gumagamit ng data sampling upang ipahiwatig ang schema para sa iba't ibang uri ng data, upang maihatid ang mahahalagang bahagi ng diskarte sa pag-iimbak ng data lake.
Bilang kahalili, ang mga user ay maaaring bumuo ng mga ETL pipeline sa pagitan ng kanilang pampublikong cloud data lake at Delta Lake gamit ang Delta Live Tables.
Sa papel, lumilitaw na ang Databricks ay may lahat ng mga pakinabang, ngunit ang pag-set up ng solusyon at paggawa ng mga pipeline ng data nito ay nangangailangan ng maraming paggawa ng tao mula sa mga dalubhasang developer.
Sa sukat, ang sagot ay nagiging mas kumplikado. Ito ay mas kumplikado kaysa sa tila.
Ahana
Ang data lake ay isang solong sentral na lokasyon kung saan maaari kang mag-imbak ng anumang uri ng data na pipiliin mo sa sukat, kabilang ang hindi nakabalangkas at nakabalangkas na data. Ang AWS S3, Microsoft Azure, at Google Cloud Storage ay tatlong karaniwang lawa ng data.
Ang mga lawa ng data ay lubos na nagustuhan dahil ang mga ito ay napaka-abot-kayang at simpleng gamitin; maaari kang mag-imbak ng halos anumang uri ng data hangga't gusto mo para sa napakaliit na pera.
Ngunit ang data lake ay hindi nag-aalok ng mga built-in na tool tulad ng analytics, query, atbp.
Kailangan mo ng query engine at data catalog sa itaas ng data lake (kung saan pumapasok ang Ahana Cloud) upang i-query ang iyong data at gamitin ito.
Gamit ang pinakamahusay na parehong Data Warehouse at Data Lake, isang bagong disenyo ng data lakehouse ang nabuo.
Ipinahihiwatig nito na ito ay transparent, madaling ibagay, may magandang presyo/pagganap, ang mga sukat tulad ng isang data lake ay sumusuporta sa mga transaksyon, at may mataas na antas ng seguridad na maihahambing sa isang data warehouse.
Ang iyong high-performance SQL query engine ay ang utak sa likod ng Data Lakehouse. Dahil dito, maaari kang magsagawa ng analytics na may mataas na pagganap sa iyong data lake ng data.
Ang Ahana Cloud para sa Presto ay SaaS para sa Presto sa AWS, na ginagawa itong hindi kapani-paniwalang simple upang simulan ang paggamit ng Presto sa cloud.
Para sa iyong S3-based na data lake, ang Ahana ay mayroon nang built-in na data catalog at caching. Binibigyan ka ni Ahana ng mga feature ni Presto nang hindi mo hinihiling na pangasiwaan ang overhead dahil ginagawa nito ito sa loob.
Ang AWS Lake Formation, Apache Hudi, at Delta Lake ay ilan lamang sa mga tagapamahala ng transaksyon na bahagi ng stack at isinasama dito.
Dremio
Sinisikap ng mga organisasyon na mabilis, simple, at mahusay na suriin ang napakalaking dami ng mabilis na pagtaas ng data.
Naniniwala si Dremio na ang isang open data lakehouse na pinagsasama ang mga benepisyo ng mga data lakes at data warehouse sa isang bukas na batayan ay ang pinakamahusay na diskarte para magawa ito.
Ang platform ng lakehouse ng Dremio ay nagbibigay ng karanasang gumagana para sa lahat, na may madaling UI na nagbibigay-daan sa mga user na kumpletuhin ang mga pagsusuri sa isang bahagi ng oras.
Dremio Cloud, isang ganap na pinamamahalaang data lakehouse platform, at ang paglulunsad ng dalawang bagong serbisyo: Dremio Sonar, isang lakehouse query engine, at Dremio Arctic, isang intelligent na megastore para sa Apache Iceberg na naghahatid ng kakaibang karanasang tulad ng Git para sa lakehouse.
Ang lahat ng SQL workload ng isang organisasyon ay maaaring patakbuhin sa walang alitan, walang katapusang nasusukat na platform ng Dremio Cloud, na nag-o-automate din ng mga gawain sa pamamahala ng data.
Ito ay binuo para sa SQL, nag-aalok ng karanasang tulad ng Git, open source, at palaging libre.
Nilikha nila ito upang maging platform ng lakehouse na hinahangaan ng mga data team.
Gamit ang open source na table at mga format ng file tulad ng Apache Iceberg at Apache Parquet, nananatili ang iyong data sa sarili mong storage ng data lake kapag gumagamit ng Dremio Cloud.
Ang mga inobasyon sa hinaharap ay madaling gamitin, at ang tamang makina ay maaaring piliin batay sa iyong workload.
Snowflake
Ang Snowflake ay isang cloud data at analytics platform na makakatugon sa mga pangangailangan ng mga data lakes at warehouse.
Nagsimula ito bilang isang data warehouse system na binuo sa cloud infrastructure.
Binubuo ang platform ng isang sentralisadong storage repository na nasa tuktok ng pampublikong cloud storage mula sa AWS, Microsoft Azure, o Google Cloud Platform (GCP).
Kasunod nito ay isang multi-cluster computation layer, kung saan ang mga user ay maaaring maglunsad ng virtual data warehouse at magsagawa ng mga SQL query laban sa kanilang data storage.
Ang arkitektura ay nagbibigay-daan para sa decoupling storage at computation resources, na nagpapahintulot sa mga organisasyon na i-scale ang dalawa nang independyente kung kinakailangan.
Panghuli, nagbibigay ang Snowflake ng isang layer ng serbisyo na may pagkakategorya ng metadata, pamamahala ng mapagkukunan, pamamahala ng data, mga transaksyon, at iba pang mga tampok.
Ang mga BI tool connectors, metadata management, access controls, at SQL query ay ilan lamang sa functionality ng data warehouse na mahusay na inaalok ng platform.
Ang Snowflake, gayunpaman, ay pinaghihigpitan sa iisang relational SQL-based na query engine.
Bilang resulta, nagiging mas simple ang pangangasiwa ngunit hindi gaanong madaling ibagay, at ang multi-modelo na data lake vision ay hindi natanto.
Bukod pa rito, bago mahanap o masuri ang data mula sa cloud storage, hinihiling ng Snowflake sa mga negosyo na i-load ito sa isang sentralisadong storage layer.
Ang manu-manong pamamaraan ng pipelining ng data ay nangangailangan ng paunang ETL, provisioning, at pag-format ng data bago ito masuri. Ang pag-scale ng mga manu-manong prosesong ito ay nakakadismaya sa kanila.
Ang isa pang opsyon na mukhang angkop sa papel ngunit sa katunayan, lumilihis sa prinsipyo ng data lake ng simpleng data input ay ang data lakehouse ng Snowflake.
Orakulo
Ginagawang posible ng moderno at bukas na arkitektura na kilala bilang isang "data lakehouse" na iimbak, maunawaan, at suriin ang lahat ng iyong data.
Ang pinaka-nagustuhang open source data lake solutions ay ang lawak at flexibility ay pinagsama sa lakas at lalim ng mga data warehouse.
Ang pinakabagong AI frameworks at prebuilt AI services ay maaaring gamitin sa isang data lakehouse sa Oracle Cloud Infrastructure (OCI).
Posibleng magtrabaho kasama ang mga karagdagang uri ng data habang gumagamit ng open-source na data lake. Ngunit ang oras at pagsisikap na kinakailangan upang pamahalaan ito ay maaaring maging isang patuloy na disbentaha.
Nag-aalok ang OCI ng ganap na pinamamahalaang mga serbisyo ng open source na lakehouse sa mas mababang mga rate at may mas kaunting pamamahala, na nagbibigay-daan sa iyong mahulaan ang mas mababang gastos sa pagpapatakbo, mas mahusay na scalability at seguridad, at ang kapasidad na pagsamahin ang lahat ng iyong umiiral na data sa isang lokasyon.
Ang isang data lakehouse ay magtataas ng halaga ng mga data warehouse at mart, na mahalaga sa matagumpay na mga negosyo.
Maaaring makuha ang data gamit ang isang lakehouse mula sa ilang lokasyon gamit ang isang query sa SQL.
Ang mga kasalukuyang programa at tool ay tumatanggap ng transparent na access sa lahat ng data nang hindi nangangailangan ng mga pagsasaayos o pagkuha ng mga bagong kasanayan.
Konklusyon
Ang pagpapakilala ng mga solusyon sa data lakehouse ay salamin ng isang mas malaking trend sa malaking data, na kung saan ay ang pagsasama ng analytics at data storage sa pinag-isang mga platform ng data upang i-maximize ang halaga ng negosyo mula sa data habang binabawasan ang oras, gastos, at pagiging kumplikado ng pagkuha ng halaga.
Ang mga platform kabilang ang Databricks, Snowflake, Ahana, Dremio, at Oracle ay lahat ay na-link sa ideya ng isang "data lakehouse," ngunit ang bawat isa sa kanila ay may natatanging hanay ng mga tampok at isang tendensyang gumana nang mas katulad ng isang data warehouse kaysa sa isang tunay na data lake sa kabuuan.
Kapag ang isang solusyon ay ibinebenta bilang isang "data lakehouse," ang mga negosyo ay dapat mag-ingat sa kung ano talaga ang ibig sabihin nito.
Kailangang tingnan ng mga negosyo ang higit pa sa marketing jargon tulad ng “data lakehouse” at sa halip ay tingnan ang mga feature ng bawat platform para piliin ang pinakamahusay na platform ng data na lalawak kasama ng kanilang mga negosyo sa hinaharap.
Mag-iwan ng Sagot