Zai iya zama ɗan wahala a yi la'akari da duk sabis ɗin da ke akwai da zaɓuɓɓukan gine-gine yayin tunanin dandamalin bayanai.
Dandalin bayanan kasuwanci yakan ƙunshi rumbun adana bayanai, ƙirar bayanai, tafkunan bayanai, da rahotanni, kowanne yana da takamaiman manufa da saitin ƙwarewar da ake buƙata. Sabanin haka, wani sabon zane mai suna data lakehouse ya fito a cikin ƴan shekarun da suka gabata.
An haɗa nau'ikan tafkunan bayanai da sarrafa bayanan ma'ajiyar bayanai a cikin tsarin gine-ginen adana bayanai na juyin juya hali wanda aka yiwa lakabi da "lakehouse data."
Za mu bincika zurfin gidan ruwa na bayanai a cikin wannan post ɗin, gami da abubuwan haɗin sa, fasali, gine-gine, da sauran fannoni.
Menene Data Lakehouse?
Kamar yadda sunan ke nunawa, gidan ajiyar bayanai wani sabon nau'in gine-ginen bayanai ne wanda ke hada tafkin bayanai da ma'ajiyar bayanai don magance gazawar kowannensu daban.
A taƙaice, tsarin tafkin yana amfani da ma'auni mara tsada don kula da ɗimbin bayanai a cikin ainihin nau'ikan su, kamar tafkunan bayanai. Ƙara Layer na metadata a saman kantin kuma yana ba da tsarin bayanai kuma yana ƙarfafa kayan aikin sarrafa bayanai kamar waɗanda aka samu a ɗakunan ajiya na bayanai.
Yana adana ɗimbin ɗimbin ɗimbin tsari, tsararru, da bayanan da ba a tsara su ba waɗanda suke samu daga aikace-aikacen kasuwanci daban-daban, tsarin, da na'urori da ake amfani da su a cikin ƙungiyarsu.
Yawancin lokaci, tafkunan bayanai suna amfani da kayan aikin ajiya mai rahusa tare da aikace-aikacen shirye-shiryen shirye-shiryen fayil (API) don adana bayanai a buɗe, tsarin fayil iri ɗaya.
Wannan yana ba da damar ƙungiyoyi da yawa don samun damar duk bayanan kamfanin ta hanyar tsari guda ɗaya don ayyuka daban-daban, kamar kimiyyar bayanai, injin inji, da basirar kasuwanci.
Features
- Ma'ajiyar kuɗi mara tsada. Gidan tafkin bayanai dole ne ya iya adana bayanai a cikin ma'ajiyar abu mara tsada, kamar Google Cloud Ma'aji, Azure Blob Storage, Amazon Sauƙaƙan Ma'ajiya Sabis, ko na asali ta amfani da ORC ko Parquet.
- Iyawa don inganta bayanai: Ƙirƙirar shimfidar bayanai, caching, da indexing ƴan misalan yadda gidan tafkin bayanai dole ne ya iya inganta bayanan yayin da yake kiyaye ainihin tsarin bayanan.
- Layer na metadata na ma'amala: A saman mahimmin ma'ajiya mai ƙarancin farashi, wannan yana ba da damar sarrafa bayanai masu mahimmanci don aikin ajiyar bayanai.
- Taimako don Bayanin Bayanin Bayanin API: Mafi yawan kayan aikin AI na iya amfani da DataFrames don dawo da bayanan kantin kayan daki. Taimako don Bayyana DataFrame API yana ƙara ƙarfin haɓaka gabatarwa da tsarin bayanai don mayar da martani ga takamaiman kimiyyar bayanai ko aikin AI.
- Taimako don mu'amalar ACID: Acronym ACID, wanda ke tsaye ga atomity, daidaito, keɓewa, da karko, wani muhimmin sashi ne wajen ayyana ma'amala da tabbatar da daidaito da amincin bayanai. Irin waɗannan ma'amaloli sun kasance a baya kawai a cikin ɗakunan ajiya na bayanai, amma lakehouse yana ba da zaɓi don amfani da su tare da tabkunan bayanai haka nan. Tare da bututun bayanai da yawa gami da karantawa da rubuta bayanai na lokaci guda, wannan yana warware matsalar ƙarancin ingancin bayanan na ƙarshe.
Abubuwan da ke cikin Data Lakehouse
Gine-gine na gidan ajiyar bayanai ya kasu kashi biyu manyan matakai a babban mataki. Babban dandalin Lakehouse ne ke sarrafa bayanan Layer ɗin ajiya (watau tafkin bayanai).
Ba tare da buƙatar loda bayanan zuwa ma'ajin bayanai ko canza su zuwa tsarin mallakar mallaka ba, Layer ɗin sarrafawa zai iya tambayar bayanan da ke cikin ma'ajiyar bayanai kai tsaye ta amfani da kewayon kayan aiki.
Sannan, aikace-aikacen BI, da fasahar AI da ML, na iya amfani da bayanan. Tattalin arzikin tafkin bayanai yana samuwa ta wannan ƙirar, amma saboda kowane injin sarrafa bayanai na iya karanta wannan bayanan, 'yan kasuwa suna da 'yancin yin amfani da bayanan da aka shirya don bincike ta hanyar tsari daban-daban. Ana iya inganta aikin mai sarrafawa da farashi duka ta amfani da wannan hanyar don sarrafawa da bincike.
Saboda goyan bayan sa don ma'amalar bayanai wanda ke manne da ma'auni na ACID (atomicity, daidaito, keɓewa, da dorewa), tsarin gine-ginen yana ba da dama ga ɓangarorin da yawa don samun dama da rubuta bayanai lokaci guda a cikin tsarin:
- Atomity yana nufin gaskiyar cewa ko dai cikakkiyar ciniki ko kuma babu ɗaya daga ciki, yana yin nasara yayin kammala ciniki. A yayin da wani tsari ya katse, wannan yana taimakawa wajen guje wa asarar bayanai ko ɓarna.
- daidaito yana ba da garantin ma'amaloli a cikin abin da ake iya faɗi, daidaitaccen tsari. Yana kiyaye amincin bayanan ta hanyar tabbatar da cewa kowane bayanai na halal ne daidai da ƙayyadaddun ƙa'idodi.
- kadaici yana tabbatar da cewa, har sai an gama, babu wata ma'amala da za ta iya yin tasiri ta kowane ma'amala a cikin tsarin. Wannan yana bawa jam'iyyu da dama damar karantawa da rubutu daga tsarin guda lokaci guda ba tare da tsoma baki a juna ba.
- karko yana ba da garantin cewa canje-canje ga bayanai a cikin tsarin suna ci gaba da wanzuwa bayan an gama ciniki, ko da a yanayin gazawar tsarin. Duk wani sauye-sauyen da ciniki ya kawo ana adana shi a fayil har abada.
Data Lakehouse Architecture
Databricks (mai ƙirƙira kuma mai tsara ra'ayinsu na Delta Lake) da AWS sune manyan masu ba da shawara guda biyu don manufar gidan tafkin bayanai. Don haka za mu dogara da iliminsu da basirarsu don bayyana tsarin gine-gine na gidajen tafkin.
Tsarin lakehouse data yawanci yana da yadudduka biyar:
- Layer na ciki
- Layer ajiya
- Metadata Layer
- API Layer
- Layer na amfani
Layer na ciki
Layer na farko na tsarin shine ke kula da tattara bayanai daga wurare daban-daban da aika su zuwa ma'adanin ajiya. Layer na iya amfani da ka'idoji da yawa don haɗawa zuwa yawancin hanyoyin ciki da waje, gami da haɗa tsari da damar sarrafa bayanai, kamar su.
- NoSQL databases,
- fayil hannun jari
- CRM aikace-aikace,
- yanar gizo,
- Sensor IoT,
- kafofin watsa labarun,
- Software a matsayin Sabis (SaaS) aikace-aikace, da
- tsarin sarrafa bayanai na dangantaka, da sauransu.
A wannan gaba, ana iya amfani da abubuwa kamar Apache Kafka don watsa bayanai da Sabis na Hijira na Amazon (Amazon DMS) don shigo da bayanai daga RDBMSs da bayanan NoSQL.
Layer ajiya
Tsarin gine-ginen tafkin ana nufin ba da damar adana nau'ikan bayanai daban-daban azaman abubuwa a cikin shagunan abubuwa marasa tsada, kamar AWS S3. Yin amfani da buɗaɗɗen tsarin fayil, kayan aikin abokin ciniki na iya karanta waɗannan abubuwan kai tsaye daga shagon.
Wannan yana ba da damar APIs da yawa da abubuwan daɓar kayan amfani don samun dama da amfani da bayanai iri ɗaya. Layer na metadata yana adana tsare-tsare don tsararraki da tsararrun bayanai don abubuwan da aka gyara su iya amfani da su ga bayanan yayin da suke karanta shi.
Za a iya amfani da dandalin Hadoop Distributed File System (HDFS), alal misali, don gina ayyukan ma'ajin girgije wanda ke raba kwamfuta da adanawa a kan gidaje. Lakehouse ya dace da waɗannan ayyuka.
Metadata Layer
Layer metadata shine tushen tushen ginin tafkin bayanai wanda ke bambanta wannan ƙira. Katalogi guda ɗaya ne wanda ke ba da metadata (bayanai game da sauran sassan bayanai) don duk abubuwan da aka adana a cikin tafkin kuma yana ba masu amfani damar yin amfani da damar gudanarwa kamar:
- Ana ganin daidaitaccen sigar bayanan ta hanyar ma'amaloli na lokaci guda godiya ga ma'amalar ACID;
- caching don adana fayilolin ajiyar kayan girgije;
- ƙara fihirisar tsarin bayanai ta amfani da fihirisa don hanzarta sarrafa tambaya;
- amfani da sifili-kwafin cloning don kwafin abubuwan bayanai; kuma
- don adana wasu nau'ikan bayanan, da sauransu, yi amfani da sigar bayanai.
Bugu da ƙari, Layer na metadata yana ba da damar aiwatar da tsarin tsarin, yin amfani da tsarin tsarin DW kamar tsarin taurari / dusar ƙanƙara, da kuma samar da tsarin sarrafa bayanai da iya tantancewa kai tsaye akan tafkin bayanai, yana haɓaka amincin dukkan bututun bayanai.
Siffofin haɓakar ƙira da aiwatarwa an haɗa su cikin sarrafa tsari. Ta ƙin duk wani rubutun da bai dace da tsarin tebur ba, aiwatar da tsari yana bawa masu amfani damar kiyaye amincin bayanai da inganci.
Juyin halittar tsari yana ba da damar gyaggyara tsarin tebur ɗin yanzu don ɗaukar bayanan canji. Saboda tsarin gudanarwa guda ɗaya a saman tafkin bayanai, akwai kuma damar sarrafawa da damar tantancewa.
API Layer
Wani muhimmin Layer na gine-ginen yana nan a yanzu, yana karɓar adadin APIs waɗanda duk masu amfani da ƙarshen za su iya amfani da su don yin ayyuka da sauri da samun ƙarin ƙididdiga na yau da kullun.
Amfani da APIs na metadata yana sauƙaƙa ganowa da samun damar abubuwan bayanan da ake buƙata don aikace-aikacen da aka bayar.
Dangane da dakunan karatu na koyon injin, wasu daga cikinsu, kamar TensorFlow da Spark MLlib, suna iya karanta buɗaɗɗen tsarin fayil kamar Parquet kuma kai tsaye shiga Layer metadata.
A lokaci guda, API ɗin DataFrame yana ba da dama mafi girma don ingantawa, yana ba masu shirye-shirye damar tsarawa da canza bayanan da aka tarwatsa.
Layer na amfani
Power BI, Tableau, da sauran kayan aiki da ƙa'idodi ana shirya su a ƙarƙashin layin amfani. Tare da ƙirar lakehouse, duk metadata da duk bayanan da aka adana a cikin tafkin ana samun dama ga aikace-aikacen abokin ciniki.
Duk masu amfani da ke cikin kamfani na iya amfani da gidan tafkin don yin kowane nau'i ayyukan nazari, gami da ƙirƙirar dashboards na sirrin kasuwanci da gudanar da tambayoyin SQL da ayyukan koyon injin.
Amfanin Data Lakehouse
Ƙungiyoyi za su iya ƙirƙirar gidan ajiyar bayanai don haɗa kan dandamalin bayanan su na yanzu da inganta tsarin sarrafa bayanai gaba ɗaya. Ta hanyar tarwatsa shingen silo da ke haɗa maɓuɓɓuka daban-daban, ɗakin tafkin bayanai na iya maye gurbin buƙatar mafita daban-daban.
Idan aka kwatanta da tushen bayanan da aka keɓe, wannan haɗin kai yana samar da ingantaccen tsari na ƙarshe zuwa ƙarshe. Wannan yana da fa'idodi da yawa:
- Karancin gudanarwa: Maimakon fitar da bayanai daga danyen bayanai da kuma shirya su don amfani da su a cikin ma'ajiyar bayanai, tafkin data ba da damar duk wata hanyar da ke da alaƙa da ita don samun bayanansu kuma a tsara su don amfani.
- Ƙarfafa farashi-tasiri: Ana gina wuraren ajiyar bayanai ta hanyar amfani da kayan aikin zamani waɗanda ke rarraba ƙididdiga da ajiya, yana mai da sauƙi don faɗaɗa ajiya ba tare da ƙara ƙarfin lissafi ba. Yin amfani da ma'ajin bayanai mara tsada kawai yana haifar da ƙima wanda yake da tsada.
- Gudanar da bayanai mafi kyau: An gina wuraren tafkunan bayanai tare da daidaitattun gine-ginen buɗe ido, suna ba da damar ƙarin iko akan tsaro, awoyi, samun tushen rawar aiki, da sauran mahimman abubuwan gudanarwa. Ta hanyar haɗa albarkatu da tushen bayanai, suna sauƙaƙe da haɓaka tsarin mulki.
- Matsayin Sauƙaƙe: Tun da an taƙaita haɗin kai sosai a cikin 1980s, lokacin da aka fara haɓaka ɗakunan ajiya na bayanai, ƙayyadaddun ƙayyadaddun ƙayyadaddun ƙayyadaddun ƙayyadaddun ƙayyadaddun ƙayyadaddun ƙayyadaddun ƙayyadaddun ƙayyadaddun ƙayyadaddun ƙayyadaddun tsari sun kasance galibi cikin kasuwanci, har ma da sassa. Matsugunan ruwa na bayanai suna amfani da gaskiyar cewa nau'ikan bayanai da yawa yanzu suna da buɗaɗɗen ƙa'idodi don ƙima ta hanyar shigar da hanyoyin bayanai da yawa tare da madaidaicin tsarin tsari don daidaita hanyoyin.
Lalacewar Data Lakehouse
Duk da dukan hoopla kewaye data lakehouses, yana da muhimmanci a kiyaye cewa ra'ayin har yanzu sabon ne sosai. Tabbatar da auna rashin amfani kafin cika cikakkiyar wannan sabon ƙira.
- Tsarin monolithic: Tsarin da ya haɗa da lakehouse yana ba da fa'idodi da yawa, amma kuma yana haifar da wasu matsaloli. Tsarin gine-ginen monolithic sau da yawa yana haifar da ƙarancin sabis ga duk masu amfani kuma yana iya zama mai tsauri da wahalar kiyayewa. Yawanci, masu gine-gine da masu zanen kaya suna son tsarin gine-ginen zamani wanda za su iya keɓancewa don lokuta daban-daban na amfani.
- Fasaha ba ta isa ba tukuna: manufa ta ƙarshe ta ƙunshi adadi mai yawa na koyan injin da hankali na wucin gadi. Kafin gidajen lake su yi aiki kamar yadda aka tsara, dole ne waɗannan fasahohin su haɓaka gaba.
- Ba wani gagarumin ci gaba ba akan sifofin da ake dasu: Har yanzu akwai shakku kan ko nawa za a ba da gudummawar dakunan tafkin. Wasu masu cin zarafi sun yi iƙirarin cewa ƙirar tafki da aka haɗa tare da ingantattun kayan aiki mai sarrafa kansa zai iya samun kwatankwacin inganci.
Kalubalen Data Lakehouse
Yana iya zama da wahala a yi amfani da dabarar gidan ajiyar bayanai. Saboda ƙaƙƙarfan ɓangarori na sassansa, ba daidai ba ne don duba gidan tafkin bayanai a matsayin kyakkyawan tsari mai cike da tsari ko "dandali ɗaya don komai," na ɗaya.
Bugu da ƙari, saboda karuwar karɓar tafkunan bayanai, 'yan kasuwa za su tura ma'ajiyar bayanan da suke a yanzu zuwa gare su, tare da dogaro kawai da alkawarin nasara ba tare da wata fa'ida ta tattalin arziki ba.
Idan akwai wasu matsalolin latency ko ƙarewa a cikin tsarin canja wuri, wannan na iya zama mai tsada, mai ɗaukar lokaci, kuma wataƙila mara lafiya.
Masu amfani da kasuwanci dole ne su rungumi fasahohi na musamman, bisa ga wasu dillalai waɗanda ke ba da mafita ga kasuwa a bayyane ko a fakaice azaman wuraren ajiyar bayanai. Waɗannan ƙila ba koyaushe suna aiki tare da wasu kayan aikin da ke da alaƙa da tafkin bayanai a tsakiyar tsarin ba, suna ƙara batutuwan.
Bugu da ƙari, yana iya zama da wahala a samar da ƙididdigar 24/7 yayin gudanar da ayyuka masu mahimmanci na kasuwanci, wanda ke kira ga abubuwan more rayuwa tare da ƙima mai inganci.
Kammalawa
Sabbin nau'ikan cibiyoyin bayanai a cikin 'yan shekarun nan shine gidan ruwa na bayanai. Yana haɗa fannoni daban-daban, kamar fasahar bayanai, software mai buɗewa, girgije kwamfuta, da kuma rarraba ka'idojin ajiya.
Yana bawa 'yan kasuwa damar adana duk nau'ikan bayanai a tsakiya daga kowane wuri, sauƙaƙe gudanarwa da bincike. Data Lakehouse kyakkyawan ra'ayi ne mai ban sha'awa.
Duk wani kamfani zai sami gagarumin gasa idan yana da damar yin amfani da dandamali na bayanan gabaɗaya wanda ke da sauri da inganci kamar ma'ajin bayanai yayin da yake da sassauƙa kamar tafkin bayanai.
Har yanzu ra'ayin yana tasowa kuma ya kasance sababbi. A sakamakon haka, yana iya ɗaukar ɗan lokaci don sanin ko wani abu zai iya yaɗuwa ko a'a.
Ya kamata mu duka mu yi sha'awar alkiblar da gine-ginen Lakehouse ke kan gaba.
Leave a Reply