Gihiusa sa mga data lakehouse ang data warehouse ug mga konsepto sa data lake para sa mga negosyo.
Gitugotan ka niini nga mga himan nga maghimo mga solusyon sa pagtipig sa datos nga epektibo sa gasto pinaagi sa paghiusa sa mga katakus sa pagdumala sa mga lawa sa datos sa arkitektura sa datos nga makita sa mga bodega sa datos.
Dugang pa, adunay pagkunhod sa data migration ug redundancy, gamay nga oras ang gigugol sa pagdumala, ug ang mas mubo nga schema ug data governance nga mga pamaagi sa aktuwal nga nahimong usa ka kamatuoran.
Ang usa ka data lakehouse adunay daghang mga bentaha kung itandi sa usa ka sistema sa pagtipig nga adunay daghang mga solusyon.
Kini nga mga himan gigamit gihapon sa mga siyentipiko sa datos aron mapauswag ang ilang pagsabut sa paniktik sa negosyo ug mga pamaagi sa pagkat-on sa makina.
Kini nga artikulo magsusi dayon sa data lakehouse, mga kapabilidad niini, ug ang mga magamit nga himan.
Pasiuna sa Data Lakehouse
Usa ka bag-ong matang sa arkitektura sa datos nga gitawag og "data lakehouse” naghiusa sa usa ka data lake ug usa ka data warehouse aron matubag ang mga kahuyang sa matag usa nga independente.
Ang sistema sa lakehouse, sama sa mga lawa sa datos, naggamit sa barato nga pagtipig aron matipigan ang daghang mga datos sa orihinal nga porma niini.
Ang pagdugang sa usa ka metadata layer sa ibabaw sa tindahan naghatag usab sa istruktura sa datos ug naghatag gahum sa mga himan sa pagdumala sa datos nga parehas sa nakit-an sa mga bodega sa datos.
Naglangkob kini og daghang gidaghanon sa structured, semi-structured, ug unstructured data nga nakuha gikan sa lain-laing mga aplikasyon sa negosyo, sistema, ug mga himan nga gigamit sa tibuok negosyo.
Ingon usa ka sangputanan, dili sama sa mga lawa sa datos, ang sistema sa lakehouse mahimo’g madumala ug ma-optimize ang datos alang sa pasundayag sa SQL.
Kini usab adunay katakus sa pagtipig ug pagproseso sa daghang mga lainlain nga datos sa mas barato nga gasto kaysa mga bodega sa datos.
Ang usa ka data lakehouse magamit kung kinahanglan nimo nga ipatuman ang bisan unsang pag-access sa datos o analytics batok sa bisan unsang datos apan dili sigurado sa datos o girekomenda nga analytics.
Ang arkitektura sa lakehouse molihok nga maayo kung ang pasundayag dili usa ka panguna nga kabalaka.
Wala kana magpasabot nga kinahanglan nimong ibase ang imong tibuok nga estraktura sa usa ka lakehouse.
Dugang nga impormasyon kon unsaon pagpili og data lake, lakehouse, data warehouse, o espesyal nga database sa analytics alang sa matag kaso sa paggamit makita. dinhi.
Mga bahin sa Data Lakehouse
- Duyog nga pagbasa ug pagsulat sa datos
- Pag-adapt ug scalability
- Tabang sa eskema sa mga himan sa pagdumala sa datos
- Duyog nga pagbasa ug pagsulat sa datos
- Pagtipig nga barato
- Ang tanan nga mga tipo sa datos ug mga format sa file gisuportahan.
- Pag-access sa data science ug mga himan sa pagkat-on sa makina nga na-optimize
- Makabenepisyo ang imong mga data team gikan sa pag-access sa usa lang ka sistema aron mabalhin ang mga workloads pinaagi niini nga mas paspas ug tukma.
- Real-time nga kapabilidad alang sa mga inisyatibo sa data science, machine learning, ug analytics
Top 5 nga mga gamit sa Data Lakehouse
Mga Databricks
Databricks, nga gitukod sa tawo nga unang nagpalambo sa Apache Spark ug naghimo niini Bukas nga tinubdan, naghatag usa ka gidumala nga serbisyo sa Apache Spark ug gipahimutang ingon usa ka plataporma alang sa mga lawa sa datos.
Ang data lake, delta lake, ug delta engine nga mga component sa Databricks lakehouse architecture makapahimo sa business intelligence, data science, ug machine learning use cases.
Ang data lake kay usa ka publikong cloud storage repository.
Uban ang suporta alang sa pagdumala sa metadata, pagproseso sa datos sa batch ug stream alang sa daghang istruktura nga mga dataset, pagdiskobre sa datos, luwas nga mga kontrol sa pag-access, ug SQL analytics.
Gitanyag sa Databricks ang kadaghanan sa mga gimbuhaton sa warehousing sa datos nga mahimo’g mapaabut nga makita sa usa ka platform sa data lakehouse.
Bag-o lang gipadayag sa Databricks ang Auto Loader niini, nga nag-automate sa ETL ug input sa data ug naggamit sa sampling sa datos aron mahibal-an ang schema alang sa lainlaing mga tipo sa datos, aron mahatag ang hinungdanon nga mga sangkap sa estratehiya sa pagtipig sa data lake.
Sa laing bahin, ang mga tiggamit makahimo og mga ETL pipeline tali sa ilang public cloud data lake ug Delta Lake gamit ang Delta Live Tables.
Sa papel, ang Databricks makita nga adunay tanan nga mga bentaha, apan ang pagpahimutang sa solusyon ug paghimo sa mga pipeline sa datos niini nanginahanglan daghang trabaho sa tawo gikan sa mga batid nga developer.
Sa sukod, ang tubag nahimong mas komplikado. Kini mas komplikado kay sa daw.
Ahana
Ang usa ka data lake usa ka usa, sentral nga lokasyon diin mahimo nimong tipigan ang bisan unsang klase sa datos nga imong pilion sa sukod, lakip ang wala’y istruktura ug istruktura nga datos. Ang AWS S3, Microsoft Azure, ug Google Cloud Storage mao ang tulo ka komon nga data lake.
Ang mga linaw sa datos hilabihan ka ganahan tungod kay kini barato kaayo ug yano nga gamiton; mahimo nimong tipigan ang bisan unsang matang sa datos nga gusto nimo alang sa gamay nga salapi.
Apan ang data lake wala nagtanyag mga built-in nga himan sama sa analytics, pangutana, ug uban pa.
Kinahanglan nimo ang usa ka query engine ug data catalog sa ibabaw sa data lake (diin mosulod ang Ahana Cloud) aron mapangutana ang imong datos ug gamiton kini.
Uban sa kinamaayohan sa Data Warehouse ug sa Data Lake, usa ka bag-ong disenyo sa data lakehouse ang naugmad.
Kini nagpakita nga kini mao ang transparent, adaptable, adunay maayo nga presyo/performance, timbangan sama sa usa ka data lake nagsuporta sa mga transaksyon, ug adunay usa ka taas nga lebel sa seguridad nga ikatandi sa usa ka data bodega.
Ang imong high-performance nga SQL query engine mao ang utok sa likod sa Data Lakehouse. Tungod niini, mahimo nimong ipatuman ang high-performance analytics sa imong data lake data.
Ang Ahana Cloud alang sa Presto mao ang SaaS alang sa Presto sa AWS, nga naghimo niini nga labi ka yano nga magsugod sa paggamit sa Presto sa panganod.
Para sa imong S3-based nga data lake, ang Ahana aduna nay built-in nga data catalog ug caching. Gihatagan ka ni Ahana sa mga bahin ni Presto nga wala kinahanglana ang pagdumala sa overhead tungod kay kini sa sulod.
Ang AWS Lake Formation, Apache Hudi, ug Delta Lake maoy pipila lang sa mga transaction managers nga kabahin sa stack ug apil niini.
Dremio
Ang mga organisasyon naninguha sa paspas, yano, ug episyente nga pagtimbang-timbang sa daghang gidaghanon sa paspas nga pagtaas sa datos.
Nagtuo si Dremio nga ang usa ka bukas nga data lakehouse naghiusa sa mga benepisyo sa mga linaw sa datos ug mga bodega sa datos sa bukas nga sukaranan mao ang labing kaayo nga pamaagi aron matuman kini.
Ang platform sa lakehouse sa Dremio naghatag usa ka kasinatian nga magamit alang sa tanan, nga adunay usa ka dali nga UI nga nagtugot sa mga tiggamit sa pagkompleto sa pag-analisar sa usa ka bahin sa oras.
Dremio Cloud, usa ka bug-os nga pagdumala sa data lakehouse platform, ug ang paglunsad sa duha ka bag-ong mga serbisyo: Dremio Sonar, usa ka lakehouse query engine, ug Dremio Arctic, usa ka intelihenteng megastore alang sa Apache Iceberg nga naghatod sa usa ka talagsaon nga sama sa Git nga kasinatian alang sa lakehouse.
Ang tanan nga SQL workloads sa usa ka organisasyon mahimong ipadagan sa walay friction, walay katapusan nga scalable nga Dremio Cloud nga plataporma, nga nag-automate usab sa mga buluhaton sa pagdumala sa datos.
Gitukod kini alang sa SQL, nagtanyag usa ka kasinatian nga sama sa Git, bukas nga gigikanan, ug kanunay nga libre.
Gihimo nila kini aron mahimong platform sa lakehouse nga gisimba sa mga data team.
Ang paggamit sa open source nga lamesa ug mga format sa file sama sa Apache Iceberg ug Apache Parquet, ang imong data nagpadayon sa imong kaugalingong data lake storage kung naggamit sa Dremio Cloud.
Ang umaabot nga mga inobasyon dali nga madawat, ug ang husto nga makina mahimong mapili base sa imong workload.
snowflake
Ang Snowflake usa ka platform sa data sa panganod ug analytics nga makatubag sa mga panginahanglanon sa mga lawa sa datos ug mga bodega.
Nagsugod kini isip usa ka sistema sa bodega sa datos nga gitukod sa imprastraktura sa panganod.
Ang plataporma naglangkob sa usa ka sentralisadong storage repository nga nahimutang sa ibabaw sa public cloud storage gikan sa AWS, Microsoft Azure, o Google Cloud Platform (GCP).
Pagkahuman niana usa ka multi-cluster computation layer, diin ang mga tiggamit mahimo’g maglansad usa ka virtual nga bodega sa datos ug magpahigayon mga pangutana sa SQL batok sa ilang pagtipig sa datos.
Gitugotan sa arkitektura ang pag-decoupling sa pagtipig ug mga kahinguhaan sa pag-compute, nga gitugotan ang mga organisasyon sa pag-scale sa duha nga independente kung gikinahanglan.
Sa kataposan, ang Snowflake naghatag ug service layer nga adunay metadata categorization, resource management, data governance, transactions, ug uban pang feature.
Ang mga koneksyon sa tool sa BI, pagdumala sa metadata, mga kontrol sa pag-access, ug mga pangutana sa SQL pipila ra sa mga gamit sa bodega sa data nga labi ka maayo sa plataporma nga gitanyag.
Ang snowflake, bisan pa, limitado sa usa ka relational nga SQL-based query engine.
Ingon nga resulta, kini nahimong mas simple sa pagdumala apan dili kaayo mapahiangay, ug ang multi-modelo nga data lake nga panan-awon wala matuman.
Dugang pa, sa dili pa ang data gikan sa cloud storage mahimong pangitaon o analisahon, ang Snowflake nagkinahanglan sa mga negosyo sa pagkarga niini ngadto sa usa ka sentralisadong storage layer.
Ang manual data pipelining procedure nanginahanglan ug una nga ETL, provisioning, ug data formatting sa dili pa kini masusi. Ang pag-scale sa kini nga mga manual nga proseso naghimo kanila nga makapahigawad.
Ang laing kapilian nga makita nga usa ka maayo nga angay sa papel apan sa pagkatinuod, nagtipas gikan sa data lake nga prinsipyo sa yano nga data input mao ang Snowflake's data lakehouse.
pulong sa Dios
Ang moderno, bukas nga arkitektura nga nailhan nga "data lakehouse" nagpaposible sa pagtipig, pagsabut, ug pag-analisar sa tanan nimong datos.
Ang labing ganahan nga open source data lake nga mga solusyon sa gilapdon ug pagka-flexible gihiusa sa kusog ug giladmon sa mga bodega sa datos.
Ang pinakabag-o nga AI frameworks ug prebuilt AI services mahimong magamit sa usa ka data lakehouse sa Oracle Cloud Infrastructure (OCI).
Posible nga magtrabaho uban ang dugang nga mga tipo sa datos samtang naggamit sa usa ka open-source data lake. Apan ang panahon ug paningkamot nga gikinahanglan sa pagdumala niini mahimong usa ka padayon nga disbentaha.
Ang OCI nagtanyag sa hingpit nga pagdumala sa open source nga mga serbisyo sa lakehouse sa mas mubu nga mga presyo ug adunay gamay nga pagdumala, nga nagtugot kanimo sa pagpaabut sa mas ubos nga mga galastuhan sa operasyon, mas maayo nga scalability ug seguridad, ug ang kapasidad sa pagkonsolida sa tanan nimong kasamtangan nga datos sa usa ka lokasyon.
Ang usa ka data lakehouse magpataas sa kantidad sa mga data warehouse ug mart, nga hinungdanon sa malampuson nga mga negosyo.
Mahimong makuha ang datos gamit ang usa ka lakehouse gikan sa daghang mga lokasyon nga adunay usa lang ka pangutana sa SQL.
Ang kasamtangan nga mga programa ug mga himan makadawat og transparent nga pag-access sa tanang datos nga wala magkinahanglan og mga kausaban o pagbaton og bag-ong mga kahanas.
Panapos
Ang pagpaila sa mga solusyon sa data lakehouse usa ka pagpamalandong sa usa ka mas dako nga uso sa dagkong datos, nga mao ang paghiusa sa analytics ug pagtipig sa datos sa hiniusa nga mga plataporma sa datos aron mapadako ang bili sa negosyo gikan sa datos samtang gipaubos ang oras, gasto, ug pagkakomplikado sa pagkuha sa bili.
Ang mga plataporma nga naglakip sa Databricks, Snowflake, Ahana, Dremio, ug Oracle tanan nalambigit sa ideya sa usa ka "data lakehouse," apan ang matag usa kanila adunay usa ka talagsaon nga hugpong sa mga bahin ug usa ka kalagmitan nga molihok nga mas sama sa usa ka data warehouse kay sa usa ka tinuod nga data lake. sa kinatibuk-an.
Kung ang usa ka solusyon gipamaligya ingon usa ka "data lakehouse," ang mga negosyo kinahanglan nga mabinantayon kung unsa gyud ang gipasabut niini.
Ang mga negosyo kinahanglan nga motan-aw lapas pa sa marketing jargon sama sa “data lakehouse” ug hinoon tan-awon ang matag feature sa matag plataporma aron mapili ang pinakamaayong data platform nga molapad uban sa ilang mga negosyo sa umaabot.
Leave sa usa ka Reply