Mety ho sarotra kely ny mandinika ny serivisy rehetra misy sy ny safidy momba ny maritrano rehefa mieritreritra momba ny sehatra angon-drakitra.
Ny sehatra angon-drakitra momba ny orinasa dia matetika ahitana trano fanatobiana data, maodely data, farihy data, ary tatitra, izay samy manana tanjona manokana sy fahaiza-manao ilaina. Mifanohitra amin'izany, nisy endrika vaovao antsoina hoe data lakehouse nipoitra tao anatin'ny taona vitsivitsy.
Ny fahaiza-manaon'ny farihy data sy ny fitantanana angon-drakitra trano fanatobiana entana dia mitambatra ao anaty rafitra fitahirizana data revolisionera antsoina hoe "data lakehouse."
Handinika lalina ny lakehouse data ato amin'ity lahatsoratra ity isika, ao anatin'izany ny singany, ny endri-javatra, ny maritrano ary ny lafiny hafa.
Inona no atao hoe Data Lakehouse?
Araka ny hevitr'ilay anarana, ny data lakehouse dia karazana rafitra data vaovao izay manambatra ny farihy data miaraka amin'ny trano fanatobiana data hamahana ny tsy fahampian'ny tsirairay.
Amin'ny ankapobeny, ny rafitra lakehouse dia mampiasa fitahirizana tsy lafo mba hitazonana angon-drakitra marobe amin'ny endriny voalohany, toy ny farihy data. Ny fampidirana ny sosona metadata eo an-tampon'ny fivarotana dia manome firafitry ny angon-drakitra ary manome hery ny fitaovan'ny fitantanana angona toy ny hita ao amin'ny trano fanatobiana angona.
Izy io dia mitahiry ireo angon-drakitra voalamina sy semi-rafitra ary tsy voarafitra be dia be azony avy amin'ireo rindranasa, rafitra ary gadget samihafa ampiasaina manerana ny fikambanany.
Amin'ny ankamaroan'ny fotoana, ny farihy data dia mampiasa fotodrafitrasa fitahirizana mora vidy miaraka amin'ny interface programan'ny rindrambaiko (API) mba hitehirizana angon-drakitra amin'ny endrika fisie malalaka.
Izany dia ahafahan'ny ekipa maro miditra amin'ny angon-drakitra rehetra amin'ny orinasa amin'ny alàlan'ny rafitra tokana ho an'ny hetsika isan-karazany, toy ny siansa data, fianarana milina, ary faharanitan-tsaina momba ny fandraharahana.
Toetoetra
- Fitehirizana mora vidy. Ny lakehouse data dia tsy maintsy afaka mitahiry angona amin'ny fitahirizana zavatra mora, toy ny Google Cloud Fitehirizana, Azure Blob Storage, Amazon Simple Storage Service, na mampiasa ORC na Parquet.
- Fahaizana ho an'ny fanatsarana ny angona: Ny fanatsarana ny fandrindrana angon-drakitra, ny caching ary ny fanondroana dia ohatra vitsivitsy amin'ny fomba tsy maintsy ahafahan'ny tranokalan'ny data lakehouse hanatsara ny angon-drakitra nefa mitazona ny endrika tany am-boalohany.
- Soson'ny metadata ara-barotra: Eo an-tampon'ny fitahirizana mora vidy tena ilaina, izany dia mamela ny fahaiza-mitantana angon-drakitra manan-danja amin'ny fahombiazan'ny trano fanatobiana data.
- Fanohanana ny Declarative DataFrame API: Ny ankamaroan'ny fitaovana AI dia afaka mampiasa DataFrames mba haka angon-drakitra fivarotana zavatra manta. Ny fanohanana ny Declarative DataFrame API dia mampitombo ny fahafahana manatsara ny famelabelarana sy ny firafitry ny angon-drakitra ho setrin'ny siansa data manokana na asa AI.
- Fanohanana ny fifanakalozana ACID: Ny fanafohezan-teny ACID, izay midika hoe atomika, tsy miovaova, mitoka-monina ary maharitra, dia singa manan-danja amin'ny famaritana ny fifampiraharahana sy ny fiantohana ny tsy fitoviana sy ny fahatokisana ny angona. Tany amin'ny trano fanatobiana angona ihany no azo natao teo aloha, fa ny Lakehouse dia manolotra safidy hampiasa azy ireo amin'ny farihy data koa. Miaraka amin'ny fantsona angon-drakitra maromaro ao anatin'izany ny famakiana sy fanoratana angon-drakitra miaraka, dia mamaha ny olan'ny kalitaon'ny data ambany ity farany.
Elements of Data Lakehouse
Ny maritrano ao amin'ny data lakehouse dia mizara roa lehibe amin'ny ambaratonga avo. Ny fidiran'ny angon-drakitra momba ny fitehirizana dia fehezin'ny sehatra Lakehouse (izany hoe ny farihy data).
Raha tsy mila mampiditra ny angon-drakitra ao amin'ny trano fanatobiana angona na manova azy ho endrika fananan-tany, ny sosona fanodinana dia afaka manontany mivantana ny angona ao amin'ny sosona fitahirizana mampiasa fitaovana isan-karazany.
Avy eo, ny fampiharana BI, ary koa ny teknolojia AI sy ML, dia afaka mampiasa ny angon-drakitra. Ny toekaren'ny farihy data dia omen'ity famolavolana ity, saingy satria ny maotera fanodinana rehetra dia afaka mamaky ity angon-drakitra ity, ny orinasa dia manana fahalalahana hanao ny angon-drakitra voaomana ho an'ny fanadihadiana amin'ny alàlan'ny rafitra isan-karazany. Ny fahombiazan'ny processeur sy ny vidiny dia azo hatsaraina amin'ny fampiasana an'io fomba io amin'ny fanodinana sy famakafakana.
Noho ny fanohanany ny fifampiraharahana amin'ny angon-drakitra izay manaraka ireto fepetra ACID (atomicity, consistency, isolation, and durability) manaraka ireto, ny maritrano dia ahafahan'ny antoko maro miditra sy manoratra data miaraka amin'ny rafitra:
- Atomisialy manondro ny zava-misy fa na ny fifampiraharahana feno na tsy misy amin'izany, dia mahomby eo am-panatanterahana ny fifampiraharahana. Raha toa ka tapaka ny dingana iray, dia manampy amin'ny fisorohana ny fahaverezan'ny angona na ny kolikoly izany.
- tapaka miantoka ny fifampiraharahana mitranga amin'ny fomba azo vinavinaina sy tsy miovaova. Izy io dia mitazona ny fahamendrehan'ny angon-drakitra amin'ny alàlan'ny fiantohana fa ny angon-drakitra tsirairay dia ara-dalàna mifanaraka amin'ny fitsipika efa voafaritra mialoha.
- fitokana-monina miantoka fa, mandra-pahavitan'izany, dia tsy misy fifampiraharahana mety hisy fiantraikany amin'ny fifampiraharahana hafa ao anatin'ny rafitra. Izany dia ahafahan'ny antoko maro mamaky sy manoratra avy amin'ny rafitra iray ihany miaraka tsy misy fitsabahana.
- Faharetana miantoka fa mbola hisy ny fiovana amin'ny angona ao anaty rafitra iray rehefa vita ny fifampiraharahana, na dia misy aza ny tsy fahombiazan'ny rafitra. Ny fanovana rehetra ateraky ny fifampiraharahana dia voatahiry ao anaty rakitra mandrakizay.
Data Lakehouse Architecture
Databricks (mpamorona sy mpamorona ny foto-kevitry ny Delta Lake) ary AWS no mpisolovava roa lehibe amin'ny foto-kevitry ny trano fitehirizam-bokatra. Noho izany dia hiantehitra amin'ny fahalalany sy ny fahiratan-tsainy isika mba hamaritana ny firafitry ny maritrano amin'ny lakehouses.
Ny rafitra data lakehouse dia matetika manana sosona dimy:
- sosona ingestion
- Sarona fitahirizana
- Lay metadata
- API layer
- Lay fanjifana
sosona ingestion
Ny sosona voalohany amin'ny rafitra dia miandraikitra ny fanangonana angon-drakitra avy amin'ny loharano samihafa ary mandefa izany any amin'ny sosona fitahirizana. Ny sosona dia afaka mampiasa protocols maromaro mba hifandraisana amin'ny loharano anatiny sy ivelany maro, ao anatin'izany ny fampifangaroana ny fahaiza-manao fanodinana angon-drakitra, toy ny
- Databases NoSQL,
- fizarana rakitra
- CRM fampiharana,
- tranonkala,
- IoT sensors,
- media sosialy,
- Software as a Service (SaaS), ary
- rafitra fitantanana ny angon-drakitra relational, sns.
Amin'izao fotoana izao, ny singa toa an'i Apache Kafka ho an'ny fandefasana data sy ny Amazon Data Migration Service (Amazon DMS) amin'ny fanafarana angona avy amin'ny angona RDBMS sy NoSQL dia azo ampiasaina.
Sarona fitahirizana
Ny maritrano lakehouse dia natao ahafahana mitahiry karazana angona isan-karazany ho toy ny zavatra ao amin'ny fivarotana zavatra mora, toy ny AWS S3. Amin'ny fampiasana endrika rakitra misokatra, ny fitaovana mpanjifa dia afaka mamaky ireo entana ireo mivantana avy amin'ny fivarotana.
Izany dia ahafahan'ny API maro sy ny singa fanjifàna miditra sy mampiasa ny angona mitovy. Ny sosona metadata dia mitahiry ny schemas ho an'ny angona voarafitra sy semi-structured mba ahafahan'ny singa mampihatra azy ireo amin'ny angona rehefa mamaky izany izy ireo.
Ny sehatra Hadoop Distributed File System (HDFS), ohatra, dia azo ampiasaina hanamboarana serivisy fitahirizana rahona izay manasaraka ny informatika sy fitahirizana eo an-toerana. Lakehouse dia mety amin'ireo serivisy ireo.
Lay metadata
Ny sosona metadata no singa fototra amin'ny trano fitehirizam-bokatra iray izay mampiavaka an'io endrika io. Izy io dia katalaogy tokana izay manolotra metadata (fampahalalana momba ny angona hafa) ho an'ny entana rehetra voatahiry ao amin'ny farihy ary ahafahan'ny mpampiasa mampiasa ny fahaiza-mitantana toy ny:
- Ny dikan-teny mifanaraka amin'ny angon-drakitra dia hita amin'ny fifampiraharahana miaraka noho ny fifanakalozana ACID;
- caching mba hitahiry rakitra fitehirizana zavatra rahona;
- manampy fanondroana firafitry ny angon-drakitra amin'ny fampiasana fanondroana mba hanafainganana ny fanodinana fanontaniana;
- mampiasa klôna tsy misy kopia hanodinana zavatra angon-drakitra; SY
- mba hitahiry ny dikan-teny sasany amin'ny angona, sns., ampiasao ny famoahana angona.
Fanampin'izany, ny sosona metadata dia ahafahan'ny fampiharana ny fitantanana ny schema, ny fampiasana ny topologie DW schema toy ny kintana/snowflake schemas, ary ny fanomezana ny fitantanana angon-drakitra sy ny fahaiza-manara-maso mivantana amin'ny farihy data, manatsara ny fahamendrehan'ny fantsona data manontolo.
Ny endri-javatra momba ny fivoaran'ny skema sy ny fampiharana dia tafiditra ao anatin'ny fitantanana ny skema. Amin'ny fandavana ny fanoratana tsy mifanaraka amin'ny skema an'ny latabatra, ny fampiharana ny schema dia ahafahan'ny mpampiasa mitazona ny fahamendrehana sy ny kalitaon'ny angona.
Ny fivoaran'ny skéma dia mamela ny kitika ankehitriny an'ny latabatra mba hifanaraka amin'ny angon-drakitra miova. Noho ny interface fitantanana tokana eo an-tampon'ny farihy data dia misy ihany koa ny fanaraha-maso ny fidirana sy ny fanaraha-maso.
API layer
Misy sosona manan-danja iray hafa amin'ny maritrano ankehitriny, mampiantrano API maromaro izay azon'ny mpampiasa farany ampiasaina hanatanterahana asa haingana kokoa sy hahazoana antontan'isa be pitsiny kokoa.
Ny fampiasana metadata API dia manamora ny famantarana sy ny fidirana amin'ireo singa data ilaina amin'ny fampiharana iray.
Raha ny momba ny tranomboky fianarana milina, ny sasany amin'izy ireo, toa an'i TensorFlow sy Spark MLlib, dia afaka mamaky ireo endrika rakitra misokatra toy ny Parquet ary miditra mivantana amin'ny sosona metadata.
Mandritra izany fotoana izany, ny DataFrame API dia manome fahafahana lehibe kokoa ho an'ny fanatsarana, ahafahan'ny mpandrindra fandaharana mandamina sy manova angona miparitaka.
Lay fanjifana
Ny Power BI, Tableau, ary fitaovana sy fampiharana hafa dia apetraka eo ambanin'ny sosona fanjifana. Miaraka amin'ny famolavolana lakehouse, ny metadata rehetra sy ny angon-drakitra rehetra voatahiry ao anaty farihy dia azo idirana amin'ny fampiharana mpanjifa.
Ny lakehouse dia azo ampiasaina amin'ny mpampiasa rehetra ao anatin'ny orinasa iray hanao ny karazana rehetra asa fanadihadiana, ao anatin'izany ny famoronana dashboard faharanitan-tsaina momba ny fandraharahana sy ny fampandehanana ny fanontaniana SQL sy ny asa fianarana milina.
Ny tombony amin'ny Data Lakehouse
Ny fikambanana dia afaka mamorona lakehouse data hanambatra ny sehatra angon-dry zareo amin'izao fotoana izao ary hanatsara ny fizotran'ny fitantanana angon-drakitra manontolo. Amin'ny famongorana ireo sakana silo mampifandray ireo loharano isan-karazany, ny lakehouse data dia afaka manolo ny filana vahaolana miavaka.
Raha ampitahaina amin'ny loharanom-baovao voarindra, ity fampidirana ity dia miteraka fomba fiasa faran'izay mandaitra kokoa. Manana tombony maromaro izany:
- Kely ny fitantanana: Raha tokony haka angon-drakitra avy amin'ny angona manta sy manomana azy hampiasaina ao anatin'ny trano fitehirizam-baovao iray, dia mamela izay loharano mifandray aminy ny tranokalan'ny data lakehouse mba hanana ny angonany ho azo ampiasaina.
- Nitombo ny fahombiazan'ny vidiny: Ny trano fitehirizana data dia amboarina amin'ny alalan'ny fotodrafitrasa ankehitriny izay mampizarazara ny kajy sy ny fitahirizana, ka mahatonga azy ho mora ny fanitarana ny fitahirizana nefa tsy mampitombo ny herin'ny kajy. Ny fampiasana fitahirizana angon-drakitra mora vidy fotsiny dia miteraka scalability izay mandaitra.
- Fitantanana angon-drakitra tsara kokoa: Namboarina miaraka amin'ny maritrano misokatra manara-penitra ny trano fonenan'ny data, ahafahana mifehy bebe kokoa ny fiarovana, ny metrika, ny fidirana mifototra amin'ny andraikitra, ary ireo singa fitantanana manan-danja hafa. Amin'ny fampiraisana ny loharanon-karena sy ny loharanom-baovao dia manatsotra sy manatsara ny fitantanana izy ireo.
- Fenitra notsorina: Koa satria noferana mafy ny fifandraisana tamin'ny taona 1980, rehefa novolavolaina voalohany ny trano fanatobiana angona, dia matetika no novolavolaina tao anatin'ny orinasa, eny fa na dia ny sampana. Data lakehouses dia mampiasa ny zava-misy fa karazana angon-drakitra maro ankehitriny no manana fenitra misokatra ho an'ny skema amin'ny alàlan'ny fampidirana loharano angon-drakitra maro miaraka amin'ny tetika fanamiana mifanindry mba hanamafisana ny fomba fiasa.
Ny tsy fahampian'ny Data Lakehouse
Na dia eo aza ny hoopla rehetra manodidina ny data lakehouses, zava-dehibe ny mitadidy fa mbola tena vaovao ilay hevitra. Aza hadino ny mandanjalanja ny tsy fahampiana alohan'ny hanolorany tanteraka an'ity famolavolana vaovao ity.
- Firafitry ny monolithic: Manolotra tombony maro ny endrika isan-karazany an'ny lakehouse, nefa miteraka olana ihany koa. Ny maritrano monolitika matetika dia mitarika amin'ny serivisy ratsy ho an'ny mpampiasa rehetra ary mety ho henjana sy sarotra ny fikojakojana. Amin'ny ankapobeny, ny architects sy ny mpamorona dia tia maritrano modular kokoa izay azon'izy ireo amboarina amin'ny tranga fampiasana isan-karazany.
- Tsy mbola tonga ny teknolojia: Ny tanjona farany dia mitaky fianarana milina sy faharanitan-tsaina artifisialy. Alohan'ny hahavitan'ny lakehouses araka ny noeritreretina dia tsy maintsy mivoatra bebe kokoa ireo teknolojia ireo.
- Tsy fandrosoana lehibe noho ireo rafitra efa misy: Mbola misy ny fisalasalana momba ny habetsahan'ny sandan'ny lakehouses. Ny mpanakiana sasany dia milaza fa ny famolavolana trano fanatobiana farihy miaraka amin'ny fitaovana mandeha ho azy dia mety hahatratra fahombiazana mitovy.
Fanambin'ny Data Lakehouse
Mety ho sarotra ny mampiasa ny teknika lakehouse data. Noho ny hasarotan'ny singa singa ao aminy, dia tsy mety ny mijery ny data lakehouse ho toy ny rafitra tsara indrindra na "sehatra iray ho an'ny zava-drehetra", ho an'ny iray.
Ho fanampin'izay, noho ny fitomboan'ny fampiasana ireo farihy data, ny orinasa dia tsy maintsy mamindra ny trano fanatobiana angon-drakitra misy azy ireo amin'izao fotoana izao, tsy miantehitra afa-tsy amin'ny fampanantenana fahombiazana tsy misy tombony ara-toekarena hita maso.
Raha toa ka misy olana amin'ny fahatarana na fahatapahan-jiro mandritra ny dingan'ny famindrana, dia mety hifarana ho lafo izany, mandany fotoana ary mety tsy azo antoka.
Ny mpampiasa orinasa dia tsy maintsy manaiky ny teknolojia manokana, araka ny filazan'ny mpivarotra sasany izay mivarotra mivantana na an-kolaka ny vahaolana ho toy ny data lakehouses. Mety tsy miasa miaraka amin'ireo fitaovana hafa mifandray amin'ny farihy data eo afovoan'ny rafitra ireo, manampy ireo olana.
Ho fanampin'izay, mety ho sarotra ny mamatsy analyse 24/7 mandritra ny fanatanterahana ny enta-mavesatra ara-barotra, izay mitaky fotodrafitrasa misy scalability mahomby.
Famaranana
Ny karazany vaovao amin'ny foibe data tato anatin'ny taona vitsivitsy dia ny data lakehouse. Izy io dia mampiditra sehatra isan-karazany, toy ny teknolojian'ny fampahalalam-baovao, rindrambaiko open-source, rahona computing, ary protocols fitehirizana mizara.
Izy io dia ahafahan'ny orinasa mitahiry ny karazana data rehetra amin'ny toerana rehetra, manamora ny fitantanana sy ny fanadihadiana. Data Lakehouse dia hevitra tena mahaliana.
Ny orinasa rehetra dia hanana tombony lehibe amin'ny fifaninanana raha toa ka afaka miditra amin'ny sehatra angon-drakitra rehetra izay haingana sy mahomby toy ny trano fanatobiana angon-drakitra ary mora miovaova toy ny farihy data.
Mbola mivoatra ny hevitra ary mbola vaovao ihany. Vokatr'izany dia mety ho elaela vao hamaritana raha mety hiparitaka na tsia ny zavatra iray.
Isika rehetra dia tokony ho liana amin'ny lalana alehan'ny maritrano Lakehouse.
Leave a Reply