He mea paʻakikī paha ka noʻonoʻo ʻana i nā lawelawe āpau i loaʻa a me nā koho hoʻolālā i ka wā e noʻonoʻo ai i nā paepae ʻikepili.
Loaʻa pinepine ʻia kahi paepae ʻikepili ʻoihana i nā hale kūʻai ʻikepili, nā hiʻohiʻona ʻikepili, nā loko ʻikepili, a me nā hōʻike, kēlā me kēia me kahi kumu kikoʻī a me kahi hoʻonohonoho o nā mākau e pono ai. I ka hoʻohālikelike ʻana, ua puka mai kahi hoʻolālā hou i kapa ʻia ʻo ka data lakehouse i nā makahiki i hala iho nei.
Hoʻohui ʻia ka maʻalahi o nā loko data a me ka hoʻokele data warehouse data i loko o kahi hoʻolālā hoʻopaʻa ʻikepili kipi i kapa ʻia he "data lakehouse."
E nānā mākou i ka ʻikepili lakehouse i ka hohonu i kēia pou, me kāna mau ʻāpana, nā hiʻohiʻona, ka hoʻolālā, a me nā mea ʻē aʻe.
He aha ka Data Lakehouse?
E like me ka inoa e hōʻike nei, ʻo ka lakehouse data kahi ʻano hou o ka hoʻolālā ʻikepili e hoʻohui i kahi lake data me kahi waihona data e hoʻoponopono i nā hemahema o kēlā me kēia.
ʻO ke kumu, ke hoʻohana nei ka ʻōnaehana lakehouse i kahi mālama kūʻai ʻole no ka mālama ʻana i ka nui o nā ʻikepili i ko lākou ʻano kumu, e like me nā loko data. ʻO ka hoʻohui ʻana i ka papa metadata ma luna o ka hale kūʻai e hāʻawi pū i ka hoʻolālā ʻikepili a hoʻoikaika i nā mea hana hoʻokele ʻikepili e like me nā mea i loaʻa i nā hale kūʻai ʻikepili.
Mālama ia i ka nui o nā ʻikepili i hoʻonohonoho ʻia, semi-structured, a i hoʻonohonoho ʻole ʻia i loaʻa iā lākou mai nā noi ʻoihana like ʻole, nā ʻōnaehana, a me nā hāmeʻa i hoʻohana ʻia ma kā lākou hui.
ʻO ka hapa nui o ka manawa, hoʻohana nā loko ʻikepili i nā ʻōnaehana mālama haʻahaʻa me kahi file application programming interface (API) no ka mālama ʻana i ka ʻikepili ma nā ʻano faila maʻamau.
ʻO kēia ka mea e hiki ai i nā hui he nui ke komo i nā ʻikepili āpau o ka hui ma o kahi ʻōnaehana hoʻokahi no nā ʻano hana like ʻole, e like me ka ʻepekema data, aʻo aʻo, a me ka ʻike ʻoihana.
hiʻona
- Waihona kumu kūʻai haʻahaʻa. Pono e hiki i ka lakehouse ke mālama i ka ʻikepili i loko o kahi waihona mea kūʻai ʻole, e like me Google Kapua ʻO ka waiho ʻana, Azure Blob Storage, Amazon Simple Storage Service, a i ʻole ka hoʻohana ʻana i ka ORC a i ʻole Parquet.
- ʻO ka hiki ke hoʻopololei i ka ʻikepili: ʻO ka hoʻonohonoho hoʻonohonoho ʻikepili, ka hoʻopaʻa ʻana, a me ka helu helu ʻana he mau laʻana o ke ʻano e hiki ai i kahi lakehouse ke hoʻoikaika i ka ʻikepili me ka mālama ʻana i ke ʻano kumu mua o ka ʻikepili.
- ʻO kahi papa o nā metadata transactional: Ma luna o ka waihona haʻahaʻa haʻahaʻa koʻikoʻi, hiki i kēia ke hiki i nā mana hoʻokele data koʻikoʻi no ka hana hale waihona kālā.
- Kākoʻo no ka Declarative DataFrame API: Hiki i ka hapa nui o nā mea hana AI ke hoʻohana i ka DataFrames e kiʻi i ka ʻikepili hale kūʻai maka. Hoʻonui ke kākoʻo no Declarative DataFrame API i ka hiki ke hoʻomaikaʻi ikaika i ka hōʻike ʻana o ka ʻikepili a me ke ʻano o ka pane ʻana i ka ʻepekema data a i ʻole ka hana AI.
- Kākoʻo no nā kālepa ACID: ʻO ka acronym ACID, e kū nei no ka atomicity, consistency, isolation, and durability, he mea koʻikoʻi i ka wehewehe ʻana i kahi kālepa a me ka hōʻoia ʻana i ka paʻa a me ka hilinaʻi o ka ʻikepili. ʻO ia mau kālepa i hiki ma mua i nā hale waihona ʻikepili, akā ʻo ka Hāʻawi ʻo lakehouse i ke koho e hoʻohana iā lākou me nā loko data pū kekahi. Me kekahi mau paipu ikepili e pili ana i ka heluhelu a kākau ʻana i ka ʻikepili like, hoʻonā kēia i ka pilikia o ka maikaʻi o ka ʻikepili haʻahaʻa o ka hope.
Nā Elements of Data Lakehouse
Hoʻokaʻawale ʻia ka hoʻolālā o ka lakehouse data i ʻelua mau papa nui ma kahi kiʻekiʻe. Mālama ʻia ka waihona ʻikepili o ka waihona e ka Lakehouse platform (ʻo ia hoʻi, ka loko data).
Me ka ʻole o ka hoʻouka ʻana i ka ʻikepili i loko o kahi waihona ʻikepili a i ʻole e hoʻololi iā ia i loko o kahi ʻano proprietary, hiki i ka papa hana ke nīnau i ka ʻikepili i loko o ka waihona waihona me ka hoʻohana ʻana i nā mea hana.
A laila, hiki i nā polokalamu BI, a me nā ʻenehana AI a me ML, ke hoʻohana i ka ʻikepili. Hāʻawi ʻia ka ʻoihana waiwai o kahi loko data e kēia hoʻolālā, akā no ka mea hiki i kēlā me kēia mīkini hana ke heluhelu i kēia ʻikepili, loaʻa i nā ʻoihana ke kūʻokoʻa e hana i ka ʻikepili i hoʻomākaukau ʻia no ka nānā ʻana e nā ʻano ʻōnaehana. Hiki ke hoʻomaikaʻi ʻia ka hana o ka processor a me ke kumukūʻai ma o ka hoʻohana ʻana i kēia ala no ka hana ʻana a me ka nānā ʻana.
Ma muli o kāna kākoʻo ʻana i nā hana ʻikepili e pili ana i ka ACID (atomicity, consistency, isolation, and durability) ma lalo iho nei, hiki i ka hale hana ke hiki i nā ʻaoʻao he nui ke komo a kākau i ka ʻikepili i ka manawa like i loko o ka ʻōnaehana:
- ʻĀtoma pili i ka ʻoiaʻiʻo ʻo ke kālepa piha a i ʻole kekahi o ia mea, kūleʻa i ka wā e hoʻopau ana i kahi kālepa. Inā hoʻopau ʻia kahi kaʻina hana, kōkua kēia i ka pale ʻana i ka nalowale o ka ʻikepili a i ʻole ka palaho.
- Ke kūlike hōʻoiaʻiʻo i ka hana ʻana ma ke ʻano wānana a kūlike. Mālama ʻo ia i ka pono o ka ʻikepili ma ka hōʻoia ʻana he kūpono kēlā me kēia ʻikepili e like me nā lula i koho mua ʻia.
- 'īpale e hōʻoia ana, a hiki i ka pau ʻana, ʻaʻole hiki ke hoʻopilikia ʻia ke kālepa e kekahi hana ʻē aʻe i loko o ka ʻōnaehana. ʻAe kēia i nā ʻaoʻao he nui e heluhelu a kākau mai ka ʻōnaehana hoʻokahi i ka manawa like me ke keʻakeʻa ʻole kekahi i kekahi.
- Durability hōʻoia i ka hoʻololi ʻana i ka ʻikepili i loko o kahi ʻōnaehana ma hope o ka pau ʻana o kahi kūʻai, ʻoiai inā he hemahema ʻōnaehana. ʻO nā hoʻololi i lawe ʻia e kahi kālepa e mālama ʻia ma ka faila no ka manawa pau ʻole.
ʻIkepili Lakehouse Architecture
ʻO Databricks (ka mea hana hou a me ka mea hoʻolālā o kā lākou manaʻo Delta Lake) a ʻo AWS nā mea kākoʻo nui ʻelua no ka manaʻo o kahi lakehouse data. No laila, e hilinaʻi mākou i ko lākou ʻike a me ka ʻike e wehewehe i ka hoʻolālā hoʻolālā o nā hale loko.
He ʻelima mau papa ma kahi ʻōnaehana lakehouse data:
- Papa komo
- Papa waiho
- Papa ʻikepili metadata
- Papa API
- Papa hoʻohana
Papa komo
ʻO ka papa mua o ka ʻōnaehana ke kuleana o ka hōʻiliʻili ʻana i nā ʻikepili mai nā kumu like ʻole a hoʻouna ʻia i ka papa mālama. Hiki i ka papa ke hoʻohana i kekahi mau protocols e hoʻopili i nā kumu kūloko a me waho, me ka hoʻohui ʻana i ka pūʻulu a me ka hoʻoheheʻe ʻana i nā mana hoʻoili ʻikepili, e like me
- NoSQL waihona,
- mahele waihona
- Nā polokalamu CRM,
- pūnaewele, nā pūnaewele
- Nā mea ʻike IoT,
- nā pāʻoihana kaiapuni,
- Nā polokalamu polokalamu like a Service (SaaS), a
- nā ʻōnaehana hoʻokele waiwai pili, etc.
I kēia manawa, hiki ke hoʻohana ʻia nā ʻāpana e like me Apache Kafka no ka streaming data a me Amazon Data Migration Service (Amazon DMS) no ka lawe ʻana i ka ʻikepili mai RDBMSs a me NoSQL databases.
Papa waiho
ʻO ka hoʻolālā hale loko i manaʻo ʻia e hiki ke mālama i nā ʻano ʻikepili like ʻole e like me nā mea i loko o nā hale kūʻai mea kūʻai ʻole, e like me AWS S3. Me ka hoʻohana ʻana i nā ʻano faila wehe, hiki i nā mea kūʻai aku ke heluhelu pololei i kēia mau mea mai ka hale kūʻai.
ʻO kēia ka mea hiki i nā API he nui a me nā ʻāpana papa hoʻohana ke komo a hoʻohana i ka ʻikepili like. Mālama ka papa metadata i nā schema no nā ʻikepili i kūkulu ʻia a semi-structured i hiki i nā ʻāpana ke hoʻopili iā lākou i ka ʻikepili i ko lākou heluhelu ʻana.
ʻO ka Hadoop Distributed File System (HDFS), no ka laʻana, hiki ke hoʻohana ʻia e kūkulu i nā lawelawe waihona kapuaʻi e hoʻokaʻawale i ka helu helu a me ka mālama ʻana ma ka hale. Ua kūpono ʻo Lakehouse no kēia mau lawelawe.
Papa ʻikepili metadata
ʻO ka papa metadata ka mea koʻikoʻi o kahi lakehouse data e hoʻokaʻawale i kēia hoʻolālā. He papa helu hoʻokahi ia e hāʻawi ana i ka metadata (ʻike e pili ana i nā ʻāpana ʻikepili ʻē aʻe) no nā mea āpau i mālama ʻia i loko o ka loko a hiki i nā mea hoʻohana ke hoʻohana i nā mana hoʻokele e like me:
- ʻIke ʻia kahi ʻano like ʻole o ka waihona e nā hana like ʻole e hoʻomaikaʻi i nā kālepa ACID;
- caching no ka mālama ʻana i nā faila hale kūʻai mea ao;
- ka hoʻohui ʻana i nā kikoʻī hoʻonohonoho ʻikepili me ka hoʻohana ʻana i ka kuhikuhi ʻana e wikiwiki i ka hana nīnau;
- me ka hoʻohana ʻole ʻana i ke kope kope e hoʻopālua i nā mea ʻikepili; a
- e mālama i kekahi mau mana o ka ʻikepili, etc., e hoʻohana i ka hoʻololi ʻikepili.
Eia hou, hiki i ka papa metadata ke hoʻokō i ka hoʻokele schema, ka hoʻohana ʻana i nā topologies DW schema e like me ka star/snowflake schemas, a me ka hoʻolako ʻana i ka hoʻokele ʻikepili a me ka hiki ke hoʻoponopono pololei ma ka loko ʻikepili, e hoʻonui ai i ka pono o ka pipeline data holoʻokoʻa.
Hoʻokomo ʻia nā hiʻohiʻona no ka hoʻomohala ʻana a me ka hoʻokō ʻana i ka hoʻokele schema. Ma ka hōʻole ʻana i nā mea kākau i kū ʻole i ka schema o ka papaʻaina, hiki i ka hoʻokō ʻana i nā mea hoʻohana ke mālama i ka pono a me ka maikaʻi o ka ʻikepili.
Hiki ke hoʻololi ʻia ka schema i kēia manawa no ka hoʻokō ʻana i ka ʻikepili hoʻololi. Ma muli o kahi hoʻokele hoʻokele hoʻokahi ma luna o ka loko data, aia nō hoʻi nā mana ʻae a me nā hiki ke hoʻoponopono.
Papa API
Aia kekahi papa koʻikoʻi o ka hoʻolālā ʻana i kēia manawa, e hoʻokipa ana i kekahi mau API i hiki i nā mea hoʻohana āpau ke hoʻohana e hana wikiwiki i nā hana a loaʻa i nā helu helu ʻoi aku ka maʻalahi.
ʻO ka hoʻohana ʻana i nā API metadata e maʻalahi ka ʻike a me ke komo ʻana i nā mea ʻikepili e pono ai no kahi noi i hāʻawi ʻia.
Ma nā ʻōlelo o nā hale waihona puke aʻo mīkini, hiki i kekahi o lākou, e like me TensorFlow a me Spark MLlib, ke heluhelu i nā ʻano faila e like me Parquet a komo pololei i ka papa metadata.
Ma ka manawa like, hāʻawi nā DataFrame API i nā manawa kūpono no ka hoʻonui ʻana, e hiki ai i nā polokalamu polokalamu ke hoʻonohonoho a hoʻololi i ka ʻikepili i hoʻopuehu ʻia.
Papa hoʻohana
Mālama ʻia ka Power BI, Tableau, a me nā mea hana a me nā polokalamu ʻē aʻe ma lalo o ka papa hoʻohana. Me ka hoʻolālā lakehouse, hiki ke loaʻa nā metadata a me nā ʻikepili a pau i mālama ʻia i loko o ka loko i nā mea kūʻai aku.
Hiki ke hoʻohana ʻia ka lakehouse e nā mea hoʻohana āpau i loko o kahi hui e hana i nā ʻano like ʻole nā hana ʻikepili, me ka hana ʻana i nā dashboard naʻauao ʻoihana a me ka holo ʻana i nā nīnau SQL a me nā hana aʻo mīkini.
Pono o Data Lakehouse
Hiki i nā hui ke hana i kahi lakehouse data e hoʻohui i kā lākou kahua ʻikepili o kēia manawa a hoʻopaʻa i kā lākou kaʻina hoʻokele ʻikepili holoʻokoʻa. Ma ka wehe ʻana i nā pale silo e hoʻopili ana i nā kumu like ʻole, hiki i kahi lakehouse data ke hoʻololi i ka pono no nā hoʻonā ʻokoʻa.
Ke hoʻohālikelike ʻia me nā kumu ʻikepili i hoʻopaʻa ʻia, hoʻopuka kēia hoʻohui i kahi kaʻina hana hope-to-end ʻoi aku ka maikaʻi. He mau pono kēia:
- Hoʻoemi liʻiliʻi: Ma mua o ka unuhi ʻana i ka ʻikepili mai ka ʻikepili maka a me ka hoʻomākaukau ʻana iā ia no ka hoʻohana ʻana i loko o kahi waihona ʻikepili, ʻae ka lakehouse data i nā kumu i hoʻopili ʻia e loaʻa a hoʻonohonoho ʻia kā lākou ʻikepili no ka hoʻohana ʻana.
- Hoʻonui i ke kumukūʻai: Kūkulu ʻia nā hale loko ʻikepili me ka hoʻohana ʻana i nā ʻenehana hou e hoʻokaʻawale i ka helu a me ka waiho ʻana, e maʻalahi ai ka hoʻonui ʻana i ka waihona me ka hoʻonui ʻole i ka mana helu. ʻO ka hoʻohana wale ʻana i ka mālama ʻikepili inexpensive ka hopena i ka scalability i kūpono ke kumu kūʻai.
- ʻOi aku ka maikaʻi o ka hoʻomalu ʻikepili: Kūkulu ʻia nā hale loko ʻikepili me ka hoʻonaʻauao ākea ākea, e ʻae ai i ka mana hou aʻe ma luna o ka palekana, nā ana, ke komo ʻana i ke kuleana, a me nā mea hoʻokele koʻikoʻi ʻē aʻe. Ma ka hoʻohui ʻana i nā kumuwaiwai a me nā kumu ʻikepili, maʻalahi lākou a hoʻonui i ka hoʻokele.
- Nā kūlana maʻalahi: No ka mea, ua kapu loa ka pili ana i ka 1980s, i ka wa i kukulu mua ia ai na hale waihona waiwai, ua hooulu pinepine ia na kulana hoonaauao kūloko i loko o na oihana, a me na oihana. Hoʻohana ka ʻikepili lakehouses i ka ʻoiaʻiʻo he nui nā ʻano ʻikepili i kēia manawa i wehe ʻia no ka schema ma o ka hoʻokomo ʻana i nā kumu ʻikepili he nui me ka schema overlapping e hoʻoponopono i nā kaʻina hana.
Nā pōʻino o Data Lakehouse
ʻOiai ʻo ka hoopla a puni nā hale loko data, he mea nui e hoʻomanaʻo he mea hou loa ka manaʻo. E noʻonoʻo pono i nā hemahema ma mua o ka hoʻokō piha ʻana i kēia hoʻolālā hou.
- ʻAno monolithic: Hāʻawi ka hoʻolālā holoʻokoʻa o kahi lakehouse i nā mea maikaʻi, akā hoʻāla pū kekahi i kekahi mau pilikia. ʻO ka hoʻolālā monolithic e alakaʻi pinepine i ka lawelawe maikaʻi ʻole no nā mea hoʻohana āpau a hiki ke paʻakikī a paʻakikī hoʻi e mālama. ʻO ka mea maʻamau, makemake nā mea hoʻolālā a me nā mea hoʻolālā i kahi hoʻolālā modular i hiki iā lākou ke hana no nā hihia hoʻohana like ʻole.
- ʻAʻole loa i laila ka ʻenehana: ʻo ka pahuhopu hope loa ka nui o ka aʻo ʻana i ka mīkini a me ka naʻauao hana. Ma mua o ka hana ʻana o nā hale loko e like me ka mea i manaʻo ʻia, pono e hoʻomohala hou kēia mau ʻenehana.
- ʻAʻole kahi holomua nui ma mua o nā hale e kū nei: Aia nō ka manaʻo kānalua no ka nui o ka waiwai o nā lakehouse e hāʻawi maoli. Ke hoʻopaʻapaʻa nei kekahi poʻe hoʻohalahala e hiki ke hoʻokō ʻia kahi hoʻolālā hale kūʻai loko i hui pū ʻia me nā mea ʻenehana kūpono.
Nā pilikia o ka Data Lakehouse
He mea paʻakikī paha ka lawe ʻana i ka ʻenehana lakehouse data. Ma muli o ka paʻakikī o kāna mau ʻāpana, ʻaʻole pololei ke nānā ʻana i ka lakehouse ʻikepili ma ke ʻano he hoʻolālā kūpono e hoʻopuni ana a i ʻole "hoʻokahi kahua no nā mea āpau," no hoʻokahi.
Eia kekahi, ma muli o ka hoʻonui ʻia ʻana o nā loko data, pono nā ʻoihana e neʻe i kā lākou mau hale kūʻai ʻikepili o kēia manawa iā lākou, e hilinaʻi wale ana i ka ʻōlelo hoʻohiki no ka kūleʻa me ka ʻole o ka pōmaikaʻi waiwai.
Inā loaʻa nā pilikia o ka latency a i ʻole ka pau ʻana i ke kaʻina hana hoʻoili, hiki ke lilo kēia i mea pipiʻi, hoʻopau manawa, a palekana paha.
Pono nā mea hoʻohana pāʻoihana e ʻae i nā ʻenehana loea, e like me kekahi mau mea kūʻai aku e kūʻai pololei a kūʻai ʻole paha i nā hoʻonā e like me nā lakehouses data. ʻAʻole paha e hana mau kēia me nā mea hana ʻē aʻe i hoʻopili ʻia i ka loko data ma ke kikowaena o ka ʻōnaehana, me ka hoʻohui ʻana i nā pilikia.
Eia kekahi, paʻakikī paha ka hāʻawi ʻana i ka analytics 24/7 i ka wā e holo ana i nā hana koʻikoʻi ʻoihana, e koi ana i nā ʻōnaehana me ka scalability kūpono.
Panina
ʻO ke ʻano hou o nā kikowaena data i nā makahiki i hala iho nei ʻo ia ka lakehouse data. Hoʻohui ia i nā ʻano hana like ʻole, e like me ka ʻenehana ʻike, lako polokalamu open-source, ao Me, a puʻunaue ʻia nā protocol mālama.
Hiki i nā ʻoihana ke mālama i nā ʻano ʻikepili āpau mai kēlā me kēia wahi, e hoʻomaʻamaʻa i ka hoʻokele a me ka nānā ʻana. ʻO Data Lakehouse kahi manaʻo hoihoi.
Loaʻa i kēlā me kēia ʻoihana ka mea hoʻokūkū koʻikoʻi inā loaʻa iā ia kahi kahua ʻikepili holoʻokoʻa e like me ka wikiwiki a maikaʻi hoʻi e like me kahi waihona ʻikepili a ʻoiai ʻoi aku ka maʻalahi e like me ka loko data.
Ke ulu nei ka manaʻo a noho hou. ʻO ka hopena, hiki ke lōʻihi ka manawa e hoʻoholo ai inā hiki ke laha a i ʻole kekahi mea.
Pono kākou a pau e noʻonoʻo e pili ana i ke ala e hele ai ka hale hoʻolālā Lakehouse.
Waiho i ka Reply