Data lakehouses dia manambatra ny trano fanatobiana data sy ny foto-kevitra momba ny farihy data ho an'ny orinasa.
Ireo fitaovana ireo dia mamela anao hanangana vahaolana fitahirizana angon-drakitra mahomby amin'ny fampifangaroana ny fahaiza-mitantana ny farihy data miaraka amin'ny maritrano angon-drakitra hita ao amin'ny trano fanatobiana data.
Fanampin'izany, misy ny fihenan'ny fifindran'ny angon-drakitra sy ny fandroahana, ny fotoana lany amin'ny fitantanana, ary ny schema sy ny fomba fitantanana angon-drakitra fohy kokoa dia lasa zava-misy.
Ny lakehouse data iray dia manana tombony maro raha oharina amin'ny rafitra fitahirizana misy vahaolana maromaro.
Ireo fitaovana ireo dia mbola ampiasain'ny mpahay siansa momba ny angona mba hanatsarana ny fahatakarany ny faharanitan-tsaina momba ny fandraharahana sy ny fomba fianarana milina.
Ity lahatsoratra ity dia hijery haingana ny data lakehouse, ny fahaizany ary ny fitaovana misy.
Fampidirana ny Data Lakehouse
Karazana rafitra data vaovao antsoina hoe "data lakehouse” dia manambatra farihy data sy trano fitehirizam-baovao mba hamahana ny fahalemen'ny tsirairay tsy miankina.
Ny rafitra lakehouse, toy ny farihy data, dia mampiasa fitahirizana mora vidy mba hitazonana angon-drakitra be dia be amin'ny endriny voalohany.
Ny fanampiana sosona metadata eo an-tampon'ny fivarotana dia manome firafitry ny angon-drakitra ary manome hery ny fitaovan'ny fitantanana angona mitovy amin'ireo hita ao amin'ny trano fanatobiana angona.
Izy io dia misy angon-drakitra be dia be, semi-structured ary tsy voarafitra azo avy amin'ny rindranasa, rafitra ary fitaovana isan-karazany ampiasaina manerana ny orinasa.
Vokatr'izany, tsy toy ny farihy data, ny rafitra lakehouse dia afaka mitantana sy manatsara izany data izany ho an'ny fahombiazan'ny SQL.
Izy io koa dia manana fahafahana mitahiry sy manodina angon-drakitra maro isan-karazany amin'ny vidiny mora kokoa noho ny trano fanatobiana data.
Ny lakehouse data dia azo ampiasaina rehefa mila manatanteraka ny fidirana angon-drakitra na analyse amin'ny angon-drakitra rehetra ianao fa tsy azonao antoka ny angon-drakitra na ny fanadihadiana natolotra.
Ny maritrano lakehouse dia hiasa tsara raha tsy ny zava-bita no zava-dehibe indrindra.
Tsy midika akory izany fa tokony hametraka ny rafitrao manontolo amin'ny lakehouse ianao.
Misy fampahalalana bebe kokoa momba ny fomba hifidianana lake data, lakehouse, trano fitehirizam-bokatra, na angona famakafakana manokana ho an'ny tranga fampiasana tsirairay. Eto.
Toetran'ny Data Lakehouse
- Famakiana sy fanoratana angon-drakitra miaraka
- Adapability sy scalability
- Fanampiana schema amin'ny fitaovana fitantanana data
- Famakiana sy fanoratana angon-drakitra miaraka
- Fitehirizam-bokatra mora vidy
- Ny karazana data rehetra sy ny endrika rakitra dia tohanana.
- Fidirana amin'ny siansa angona sy fitaovana fianarana milina izay natao ho tsara
- Ny ekipanao data dia hahazo tombony amin'ny fananana rafitra iray monja mba handefasana enta-mavesatra amin'ny alalan'izany haingana sy marina kokoa.
- Fahaizana ara-potoana ho an'ny hetsika amin'ny siansa data, fianarana milina ary analyse
Top 5 Data Lakehouse fitaovana
biriky data
Databricks, izay naorin'ilay olona namolavola voalohany an'i Apache Spark ary nanao izany loharano misokatra, dia manome serivisy Apache Spark mitantana ary napetraka ho sehatra ho an'ny farihy data.
Ny farihy data, farihy delta, ary singa motera delta ao amin'ny maritrano Databricks lakehouse dia ahafahan'ny faharanitan-tsaina momba ny fandraharahana, ny siansa momba ny angona, ary ny fampiasana milina fianarana.
Ny farihy data dia fitahirizana rahona ho an'ny daholobe.
Miaraka amin'ny fanohanana ny fitantanana metadata, ny fanodinana angon-drakitra sy ny fandefasana angon-drakitra ho an'ny angon-drakitra misy rafitra maro, ny fitadiavana angon-drakitra, ny fanaraha-maso ny fidirana azo antoka ary ny analytics SQL.
Databricks dia manolotra ny ankamaroan'ny fiasa fitahirizana angon-drakitra izay mety ho andrasana ho hita ao amin'ny sehatra data lakehouse.
Databricks vao haingana no namoaka ny Auto Loader, izay manara-maso ny ETL sy ny fampidirana angon-drakitra ary mampiasa santionany angon-drakitra mba hamaritana ny skema ho an'ny karazana data isan-karazany, mba hanomezana ireo singa manan-danja amin'ny paikady fitahirizana ny farihy data.
Raha tsy izany, ny mpampiasa dia afaka manangana fantsona ETL eo anelanelan'ny farihy angon-drakitra ho an'ny daholobe sy ny Farihy Delta amin'ny alàlan'ny Delta Live Tables.
Amin'ny taratasy, toa manana ny tombony rehetra i Databricks, fa ny fametrahana ny vahaolana sy ny famoronana ny fantsona data dia mitaky asa be dia be avy amin'ny mpamorona mahay.
Amin'ny ambaratonga, ny valiny dia lasa sarotra kokoa. Sarotra kokoa noho ny hita izany.
Ahana
Ny farihy data dia toerana tokana sy afovoany ahafahanao mitahiry izay karazana angona fidinao amin'ny ambaratonga, ao anatin'izany ny angona tsy voarindra sy voarafitra. AWS S3, Microsoft Azure, ary Google Cloud Storage dia farihy telo mahazatra.
Ny farihy data dia tena tian'ny olona satria tena mora ampiasaina sy mora ampiasaina; azonao atao ny mitahiry karazana data betsaka araka izay tianao amin'ny vola kely.
Saingy ny farihy data dia tsy manolotra fitaovana namboarina toy ny analytics, query, sns.
Mila motera famotopotorana sy katalaogin'ny angona ianao eo an-tampon'ny farihy data (izay idiran'i Ahana Cloud) mba hanontaniana ny angonao sy hampiasana azy.
Miaraka amin'ny tsara indrindra amin'ny Data Warehouse sy ny Data Lake, novolavolaina ny famolavolana trano fitehirizam-bokatra vaovao.
Izany dia manondro fa mangarahara, azo ampifanarahana, manana vidiny/fahombiazana tsara, mizana toy ny farihy data dia manohana ny fifampiraharahana, ary manana fiarovana avo lenta azo oharina amin'ny trano fanatobiana data.
Ny motera fangatahana SQL anao dia ny atidoha ao ambadiky ny Data Lakehouse. Noho izany, azonao atao ny manatanteraka famakafakana mahomby amin'ny angon-drakitra farihy data.
Ahana Cloud ho an'ny Presto dia SaaS ho an'ny Presto amin'ny AWS, ka mahatonga azy ho mora ny manomboka mampiasa Presto amin'ny rahona.
Ho an'ny farihy data mifototra amin'ny S3 anao, Ahana dia efa manana katalaogin'ny angon-drakitra sy cache. Ahana dia manome anao ny endri-javatra an'i Presto nefa tsy mitaky anao hikarakara ny overhead satria manao izany ao anatiny.
AWS Lake Formation, Apache Hudi, ary Delta Lake dia vitsivitsy amin'ireo mpitantana ny varotra izay tafiditra ao anatin'ny stack ary mitambatra aminy.
Dremio
Ny fikambanana dia mikatsaka ny hanombantombana haingana sy tsotra ary mahomby ireo angon-drakitra miakatra haingana be.
Dremio dia mino fa ny trano fitehirizam-bokatra misokatra dia manambatra ny tombotsoan'ny farihy data ary ny trano fanatobiana data amin'ny sehatra misokatra no fomba tsara indrindra hanatanterahana izany.
Ny sehatra lakehouse an'i Dremio dia manome traikefa miasa ho an'ny rehetra, miaraka amin'ny UI mora ahafahan'ny mpampiasa mamita famakafakana ao anatin'ny ampahany kely.
Dremio Cloud, sehatra fitahirizana data lakehouse feno, ary ny fandefasana tolotra vaovao roa: Dremio Sonar, motera famakiam-boky momba ny farihy, ary Dremio Arctic, fivarotana mega intelligent ho an'ny Apache Iceberg izay manome traikefa mitovy amin'ny Git ho an'ny trano farihy.
Ny enta-miasa SQL rehetra an'ny fikambanana dia azo atao amin'ny sehatra Dremio Cloud tsy misy korontana sy tsy misy fiafarana, izay manara-maso ny asa fitantanana angon-drakitra.
Namboarina ho an'ny SQL izy io, manolotra traikefa mitovy amin'ny Git, loharano misokatra, ary maimaim-poana foana.
Noforonin'izy ireo ho sehatra lakehouse izay tian'ny ekipa data.
Mampiasa latabatra loharano misokatra sy endrika rakitra toa an'i Apache Iceberg sy Apache Parquet, ny angon-drakitrao dia maharitra amin'ny fitahirizana ny farihy angon-drakitrao manokana rehefa mampiasa Dremio Cloud.
Ny fanavaozana amin'ny ho avy dia azo raisina mora foana, ary ny motera mety dia azo fidina araka ny enta-mavesatrao.
Bohabohan'orampanala
Snowflake dia sehatra angona rahona sy analyse izay afaka mahafeno ny filan'ny farihy data sy ny trano fanatobiana entana.
Nanomboka toy ny rafitra fanatobiana angon-drakitra natsangana tamin'ny fotodrafitrasa rahona.
Ny sehatra dia misy tahiry fitahirizana afovoany izay mipetraka eo an-tampon'ny fitahirizana rahona ho an'ny daholobe avy amin'ny AWS, Microsoft Azure, na Google Cloud Platform (GCP).
Manaraka izany dia sosona computation multicluster, izay ahafahan'ny mpampiasa manomboka trano fanatobiana data virtoaly ary manao fanontaniana SQL manohitra ny fitahirizana angon-dry zareo.
Ny maritrano dia mamela ny fanalefahana ny fitahirizana sy ny loharanon-karena kajy, ahafahan'ny fikambanana manara-maso ny roa tsy miankina araka izay ilaina.
Farany, Snowflake dia manome sosona serivisy misy fanasokajiana metadata, fitantanana ny loharanon-karena, fitantanana angon-drakitra, fifampiraharahana ary endri-javatra hafa.
Ny mpampitohy fitaovana BI, ny fitantanana metadata, ny fanaraha-maso ny fidirana, ary ny fangatahana SQL dia vitsivitsy amin'ireo fampiasa trano fanatobiana data izay tsara indrindra amin'ny sehatra.
Snowflake, na izany aza, dia voafetra ho an'ny motera fanontaniana miorina amin'ny SQL mifandray.
Vokatr'izany dia lasa mora kokoa ny mitantana fa tsy azo ampifanarahana, ary tsy tanteraka ny fahitana ny farihy misy angon-drakitra marobe.
Fanampin'izany, alohan'ny hikatsahana na hamakafaka ny angona avy amin'ny fitahirizana rahona, ny Snowflake dia mitaky ny orinasa hampiditra azy ao anaty sosona fitahirizana afovoany.
Mila ETL, famatsiana ary fandrafetana angon-drakitra alohan'ny handinihana azy ny fomba fizotry ny fantsona data amin'ny manual. Ny fanamafisam-peo ireo dingana tanana ireo dia mahasorena azy ireo.
Safidy iray hafa izay toa mety tsara amin'ny taratasy fa raha ny marina, miala amin'ny fitsipiky ny farihy angon-drakitra momba ny fampidirana data tsotra dia ny tranokalan'ny data Lakehouse an'i Snowflake.
Oracle
Ny maritrano maoderina sy misokatra fantatra amin'ny anarana hoe "data lakehouse" dia ahafahana mitahiry, mahazo ary mamakafaka ny angonao rehetra.
Ny sakany sy ny fahafaha-manatsara ny vahaolana amin'ny loharano misokatra malalaka indrindra dia mitambatra amin'ny tanjaka sy ny halalin'ny trano fanatobiana angona.
Ny rafitra AI vaovao indrindra sy serivisy AI efa namboarina dia azo ampiasaina miaraka amin'ny trano fitehirizam-bokatra ao amin'ny Oracle Cloud Infrastructure (OCI).
Azo atao ny miasa miaraka amin'ireo karazana angona fanampiny rehefa mampiasa farihy angon-drakitra misokatra. Saingy ny fotoana sy ny ezaka ilaina amin'ny fitantanana izany dia mety ho tsy fahampiana maharitra.
OCI dia manolotra serivisy loharano misokatra malalaka amin'ny sarany ambany kokoa ary amin'ny fitantanana kely kokoa, ahafahanao maminavina ny fandaniana amin'ny fampandehanana ambany kokoa, ny fampitomboana sy ny fiarovana tsara kokoa, ary ny fahafahana manambatra ny angon-drakitra misy anao amin'ny toerana iray.
Ny lakehouse data dia hampitombo ny sandan'ny trano fitehirizam-bokatra sy fivarotana, izay tena ilaina amin'ny orinasa mahomby.
Ny angon-drakitra dia azo alaina amin'ny fampiasana lakehouse avy amin'ny toerana maromaro miaraka amin'ny fangatahana SQL iray monja.
Ny programa sy fitaovana efa misy dia mahazo fidirana mangarahara amin'ny angona rehetra tsy mila fanitsiana na fahazoana fahaiza-manao vaovao.
Famaranana
Ny fampidirana ny data lakehouse solutions dia taratry ny fironana lehibe kokoa amin'ny angon-drakitra lehibe, izay ny fampidirana ny analyse sy ny fitahirizana angon-drakitra amin'ny sehatra data mitambatra mba hampitomboana ny sandan'ny orinasa amin'ny angon-drakitra ary mampihena ny fotoana, ny vidiny ary ny fahasarotan'ny fitrandrahana sanda.
Ny sehatra misy ny Databricks, Snowflake, Ahana, Dremio, ary Oracle dia samy nampifandraisina tamin'ny hevitra hoe "trano fitehirizam-bokatra", saingy samy manana endri-javatra miavaka izy ireo ary manana fironana hiasa bebe kokoa toy ny trano fanatobiana data fa tsy farihy data marina. amin'ny ankapobeny.
Rehefa amidy toy ny "data lakehouse" ny vahaolana iray, ny orinasa dia tokony hitandrina ny tena dikan'izany.
Ny orinasa dia mila mijery mihoatra ny jargon marketing toy ny "data lakehouse" fa kosa mijery ny endrik'ireo sehatra tsirairay mba hisafidianana ny sehatra data tsara indrindra izay hivelatra miaraka amin'ny orinasany amin'ny ho avy.
Leave a Reply