Hoʻohui nā waihona lake ʻikepili i ka waihona ʻikepili a me nā manaʻo o ka loko data no nā ʻoihana.
Hāʻawi kēia mau mea hana iā ʻoe e kūkulu i nā hāʻina hoʻopaʻa ʻikepili koʻikoʻi ma o ka hoʻohui ʻana i nā mana hoʻokele o nā loko ʻikepili me ka hoʻolālā ʻikepili i loaʻa i nā hale kūʻai ʻikepili.
Eia hou, aia ka emi o ka neʻe ʻana o ka ʻikepili a me ka hoʻihoʻi hou ʻana, ʻoi aku ka liʻiliʻi o ka manawa i ka hoʻokele ʻana, a ʻoi aku ka pōkole o ka schema a me nā kaʻina hana hoʻokele data.
He nui nā pōmaikaʻi o kekahi lakehouse data i hoʻohālikelike ʻia me kahi ʻōnaehana mālama me nā ʻano hoʻonā.
Hoʻohana mau ʻia kēia mau mea hana e nā ʻepekema data e hoʻomaikaʻi i ko lākou ʻike ʻana i ka naʻauao ʻoihana a me nā kaʻina aʻo mīkini.
E nānā wikiwiki kēia ʻatikala i ka data lakehouse, kona hiki, a me nā mea hana i loaʻa.
Introduction to Data Lakehouse
ʻO kahi ʻano hoʻolālā ʻikepili hou i kapa ʻia he "lakehouse ʻikepili” hoʻohui i ka loko data a me kahi waihona ʻikepili e hoʻoponopono i nā nāwaliwali o kēlā me kēia me ke kūʻokoʻa.
ʻO ka ʻōnaehana lakehouse, e like me nā loko ʻikepili, hoʻohana i ka waihona haʻahaʻa haʻahaʻa e mālama i ka nui o ka ʻikepili i kona ʻano kumu.
ʻO ka hoʻohui ʻana i kahi papa metadata ma luna o ka hale kūʻai e hāʻawi pū i ka hoʻolālā ʻikepili a hāʻawi i nā mea hana hoʻokele data e like me nā mea i loaʻa i loko o nā hale kūʻai ʻikepili.
Loaʻa iā ia ka nui o nā ʻikepili i kūkulu ʻia, semi-structured, a i hoʻonohonoho ʻole ʻia i loaʻa mai nā noi ʻoihana like ʻole, nā ʻōnaehana, a me nā mea hana i hoʻohana ʻia i loko o ka ʻoihana.
ʻO ka hopena, ʻaʻole like me nā loko data, hiki i ka ʻōnaehana lakehouse ke hoʻokele a hoʻopaʻa i kēlā ʻikepili no ka hana SQL.
Loaʻa iā ia ka hiki ke mālama a hoʻoponopono i ka nui o nā ʻikepili like ʻole ma ke kumu kūʻai ʻoi aku ka liʻiliʻi ma mua o nā hale kūʻai ʻikepili.
Hiki i ka lakehouse ʻikepili ke hoʻokō i ka ʻikepili a i ʻole ka ʻikepili i kekahi ʻikepili akā ʻaʻole maopopo i ka ʻikepili a i ʻole ka ʻikepili i ʻōlelo ʻia.
E hana maikaʻi ka hale hoʻolālā lakehouse inā ʻaʻole ʻo ka hana ke kumu nui.
ʻAʻole ia he manaʻo pono ʻoe e hoʻokumu i kāu hale holoʻokoʻa ma kahi hale loko.
Hiki ke loaʻa ka ʻike hou aʻe e pili ana i ke koho ʻana i kahi loko data, lakehouse, hale waihona ʻikepili, a i ʻole ʻikepili ʻikepili kūikawā no kēlā me kēia hihia hoʻohana. maanei.
Nā hiʻohiʻona o Data Lakehouse
- Heluhelu a kākau ʻana i ka ʻikepili like
- Hiki ke hoʻololi a me ka scalability
- Kōkua hoʻolālā me nā mea hana hoʻomalu ʻikepili
- Heluhelu a kākau ʻana i ka ʻikepili like
- ʻO ka mālama ʻana i hiki ke hiki
- Kākoʻo ʻia nā ʻano ʻikepili āpau a me nā ʻano waihona.
- Loaʻa i ka ʻepekema ʻikepili a me nā mea hana aʻo mīkini i hoʻopaʻa ʻia
- E pōmaikaʻi kāu mau hui ʻikepili i ka loaʻa ʻana o hoʻokahi ʻōnaehana e hoʻoili i nā haʻahaʻa hana ma o ia mea me ka wikiwiki a pololei.
- Hiki i ka manawa maoli no nā hana i ka ʻepekema data, ke aʻo ʻana i ka mīkini, a me ka analytics
Nā mea hana kiʻekiʻe 5 Data Lakehouse
Nā Databricks
ʻO Databricks, i hoʻokumu ʻia e ka mea nāna i hoʻomohala mua iā Apache Spark a hana hamama kumu, hāʻawi i kahi lawelawe Apache Spark mālama ʻia a hoʻonoho ʻia ma ke ʻano he kahua no nā loko ʻikepili.
ʻO ka loko ʻikepili, ka loko delta, a me nā ʻāpana ʻenekini delta o ka hoʻolālā lakehouse ʻo Databricks e hiki ai ke ʻike i ka ʻoihana, ʻepekema ʻikepili, a me nā hihia hoʻohana aʻo mīkini.
ʻO ka loko ʻikepili kahi waihona waihona kapuaʻi lehulehu.
Me ke kākoʻo no ka hoʻokele metadata, pūʻulu a me ka hoʻoheheʻe ʻana i ka ʻikepili no nā ʻikepili i kūkulu ʻia he nui, ka ʻike ʻikepili, nā mana komo palekana, a me nā ʻikepili SQL.
Hāʻawi ʻo Databricks i ka hapa nui o nā hana hoʻopaʻa ʻikepili i manaʻo ʻia e ʻike ʻia ma kahi kahua lakehouse data.
Ua wehe koke ʻo Databricks i kāna Auto Loader, nāna e hoʻokaʻawale i ka ETL a me ka hoʻokomo ʻana i ka ʻikepili a hoʻohana i ka laʻana o ka ʻikepili e hoʻohālikelike ai i ka schema no nā ʻano ʻikepili like ʻole, i mea e hāʻawi ai i nā ʻāpana koʻikoʻi o ka hoʻolālā mālama wai loko.
ʻO kahi ʻē aʻe, hiki i nā mea hoʻohana ke kūkulu i nā pipelines ETL ma waena o kā lākou loko ʻikepili kapuaʻi ākea a me Delta Lake me ka hoʻohana ʻana i ka Delta Live Tables.
Ma ka pepa, ʻike ʻia ʻo Databricks i nā pono āpau, akā ʻo ka hoʻonohonoho ʻana i ka hopena a me ka hoʻokumu ʻana i kāna pipelines data e koi nui i ka hana kanaka mai nā mea hoʻomohala akamai.
Ma ka pālākiō, ʻoi aku ka paʻakikī o ka pane. ʻOi aku ka paʻakikī ma mua o ka mea i ʻike ʻia.
Ahana
ʻO ka loko data he wahi kikowaena hoʻokahi kahi e hiki ai iā ʻoe ke mālama i kēlā me kēia ʻano ʻikepili āu e koho ai ma ka pālākiō, me ka ʻikepili i kūkulu ʻole ʻia a i hoʻonohonoho ʻia. ʻO AWS S3, Microsoft Azure, a me Google Cloud Storage ʻekolu mau loko ʻikepili maʻamau.
ʻIke maikaʻi ʻia nā loko ʻikepili no ka mea hiki ke maʻalahi a maʻalahi hoʻi e hoʻohana; hiki iā ʻoe ke mālama i ka nui o nā ʻano ʻikepili āu e makemake ai no ke kālā liʻiliʻi.
Akā ʻaʻole hāʻawi ka loko data i nā mea hana i kūkulu ʻia e like me analytics, query, etc.
Pono ʻoe i ka ʻenekini hulina a me ka waihona ʻikepili ma luna o ka loko ʻikepili (kahi e komo ai ʻo Ahana Cloud) e nīnau i kāu ʻikepili a hoʻohana.
Me ka maikaʻi o ka Data Warehouse a me ka Data Lake, ua hoʻomohala ʻia kahi hoʻolālā lakehouse data hou.
Hōʻike kēia i ka maopopo, hiki ke hoʻololi, maikaʻi ke kumu kūʻai / hana, kākoʻo nā unahi e like me ka loko data i nā kālepa, a he kūlana kiʻekiʻe o ka palekana e like me kahi waihona ʻikepili.
ʻO kāu mīkini hulina SQL hana kiʻekiʻe ka lolo ma hope o ka Data Lakehouse. Ma muli o kēia, hiki iā ʻoe ke hoʻokō i nā ʻikepili hana kiʻekiʻe ma kāu ʻikepili loko data.
ʻO Ahana Cloud no Presto ʻo SaaS no Presto ma AWS, e maʻalahi loa ka hoʻomaka ʻana e hoʻohana iā Presto i ke ao.
No kāu lokoʻikepili S3, ua loaʻa iā Ahana kahi waihona ʻikepili i kūkulu ʻia a me ka hoʻopaʻa ʻana. Hāʻawi ʻo Ahana iā ʻoe i nā hiʻohiʻona o Presto me ka ʻole e koi iā ʻoe e hoʻokele i ke poʻo no ka mea hana ia i loko.
ʻO AWS Lake Formation, Apache Hudi, a me Delta Lake he mau mea liʻiliʻi wale nō o nā mea hoʻokele kālepa i ʻāpana o ka waihona a hoʻohui pū me ia.
ʻO Dremio
ʻImi nā hui e loiloi wikiwiki, maʻalahi, a me ka maikaʻi i ka nui o ka piʻi wikiwiki ʻana o ka ʻikepili.
Manaʻo ʻo Dremio ʻo kahi lakehouse data wehe e hui pū ai i nā pono o nā loko data a me nā hale waihona ʻikepili ma kahi ākea ke ala maikaʻi loa e hoʻokō ai i kēia.
Hāʻawi ʻo Dremio's lakehouse platform i kahi ʻike hana no kēlā me kēia, me kahi UI maʻalahi e hiki ai i nā mea hoʻohana ke hoʻopau i nā loiloi i kahi hapa o ka manawa.
ʻO Dremio Cloud, kahi kahua hoʻokele waiwai piha i ka ʻikepili, a me ka hoʻomaka ʻana o ʻelua mau lawelawe hou: Dremio Sonar, kahi ʻenekini nīnau lakehouse, a me Dremio Arctic, kahi hale kūʻai mega naʻauao no Apache Iceberg e hāʻawi ana i kahi ʻike like me Git no ka lakehouse.
Hiki ke holo ʻia nā haʻahaʻa hana SQL a pau ma luna o ka frictionless, endlessly scalable Dremio Cloud platform, nāna hoʻi e hoʻohana i nā hana hoʻokele data.
Kūkulu ʻia ia no SQL, hāʻawi i kahi ʻike like me Git, he kumu wehe, a manuahi mau.
Ua hana lākou iā ia e lilo i kahua lakehouse i mahalo ʻia e nā hui ʻikepili.
Me ka hoʻohana ʻana i ka papa ʻaina puna a me nā ʻano faila e like me Apache Iceberg a me Apache Parquet, hoʻomau kāu ʻikepili i kāu waihona loko ʻikepili i ka wā e hoʻohana ai iā Dremio Cloud.
Hiki ke hoʻohana maʻalahi i nā mea hou i ka wā e hiki mai ana, a hiki ke koho ʻia ke ʻenekini kūpono ma muli o kāu haʻahaʻa hana.
Snowflake
ʻO Snowflake kahi kahua ʻikepili ao a me ka ʻikepili e hiki ke hoʻokō i nā pono o nā loko ʻikepili a me nā hale kūʻai.
Ua hoʻomaka ʻia ma ke ʻano he ʻōnaehana waihona ʻikepili i kūkulu ʻia ma luna o ka ʻōnaehana kapua.
Aia ka paepae i kahi waihona waihona kikowaena kikowaena e noho ana ma luna o ka waihona kapuaʻi lehulehu mai AWS, Microsoft Azure, a i ʻole Google Cloud Platform (GCP).
Ma hope o ia mea he papa helu helu lehulehu, kahi e hiki ai i nā mea hoʻohana ke hoʻomaka i kahi waihona ʻikepili virtual a hana i nā nīnau SQL e kūʻē i kā lākou waihona ʻikepili.
Hiki i ka hale hana ke hoʻokaʻawale i ka waihona a me ka helu ʻana i nā kumuwaiwai, e ʻae ana i nā hui e hoʻonui i nā mea ʻelua e like me ka mea e pono ai.
ʻO ka mea hope loa, hāʻawi ʻo Snowflake i kahi papa lawelawe me ka hoʻokaʻawale metadata, hoʻokele waiwai, hoʻokele data, kālepa, a me nā hiʻohiʻona ʻē aʻe.
ʻO nā mea hoʻohui paʻahana BI, ka hoʻokele metadata, nā mana komo, a me nā nīnau SQL he mau mea liʻiliʻi wale nō ia o ka waihona waihona ʻikepili i ʻoi aku ka maikaʻi o ka paepae i ka hāʻawi ʻana.
Ua kaupalena ʻia ʻo Snowflake i kahi ʻenekini hulina pili SQL pili.
ʻO ka hopena, ua maʻalahi ka lawelawe ʻana akā ʻaʻole hiki ke hoʻololi ʻia, a ʻaʻole i ʻike ʻia ka hiʻohiʻona nui o ka lake data.
Eia hou, ma mua o ka huli ʻana a i ʻole ka nānā ʻana i ka ʻikepili mai ka mālama ʻana i ke ao, koi ʻo Snowflake i nā ʻoihana e hoʻouka iā ia i loko o kahi papa mālama kikowaena.
Pono ke kaʻina hana pipelining data ma mua o ka ETL, ka hoʻolako ʻana, a me ka hōpili ʻikepili ma mua o ka hiki ke nānā ʻia. ʻO ka hoʻonui ʻana i kēia mau kaʻina hana manual e hoʻonāukiuki iā lākou.
ʻO kahi koho ʻē aʻe i ʻike ʻia he kūpono maikaʻi ma ka pepa akā ʻo ka mea ʻoiaʻiʻo, e hoʻokaʻawale ʻia mai ka ʻikepili lake kumu o ka hoʻokomo ʻikepili maʻalahi ʻo Snowflake's data lakehouse.
kahi e'ōlelo ai
ʻO ka hale hoʻolālā o kēia wā a wehe ʻia i kapa ʻia ʻo "data lakehouse" hiki ke mālama, hoʻomaopopo a hoʻopaʻa ʻia i kāu ʻikepili āpau.
Hoʻohui ʻia ka laulā a me ka maʻalahi o ka loaʻa open source data lake solutions me ka ikaika a me ka hohonu o nā waihona ʻikepili.
Hiki ke hoʻohana ʻia nā ʻōnaehana AI hou a me nā lawelawe AI i kūkulu mua ʻia me kahi lakehouse data ma Oracle Cloud Infrastructure (OCI).
Hiki ke hana me nā ʻano ʻikepili ʻē aʻe i ka wā e hoʻohana ana i kahi loko ʻikepili open-source. Akā ʻo ka manawa a me ka hoʻoikaika e pono ai e hoʻokele iā ia he drawback mau.
Hāʻawi ʻo OCI i nā lawelawe lakehouse open source ma nā kumukūʻai haʻahaʻa a me ka hoʻokele liʻiliʻi, e ʻae iā ʻoe e manaʻo i ka haʻahaʻa o ka hoʻolimalima hana, ʻoi aku ka maikaʻi o ka scalability a me ka palekana, a me ka hiki ke hoʻohui i kāu ʻikepili āpau i kahi wahi.
E hoʻonui ka waihona lake data i ka waiwai o nā hale kūʻai data a me nā hale kūʻai, nā mea nui i nā ʻoihana kūleʻa.
Hiki ke kiʻi ʻia ka ʻikepili me ka hoʻohana ʻana i kahi lakehouse mai kekahi mau wahi me hoʻokahi nīnau SQL.
Loaʻa i nā polokalamu a me nā mea hana i kēia manawa ke ʻike maopopo i nā ʻikepili āpau me ka ʻole o ka hoʻoponopono ʻana a i ʻole ka loaʻa ʻana o nā mākau hou.
Panina
ʻO ka hoʻokomoʻana i nāʻikepili lakehouse solutions he hōʻailona ia o keʻano nui o kaʻikepili nui,ʻo ia ka hoʻohuiʻana o ka analytics a me ka mālamaʻana i nāʻikepili i nā pūnaeweleʻikepili i hui pūʻia e hoʻonui i ka waiwaiʻoihana mai kaʻikepili i ka wā e hoʻohaʻahaʻa ana i ka manawa, ke kumukūʻai, a me ka paʻakikī o ka unuhi waiwai.
ʻO nā paepae e like me Databricks, Snowflake, Ahana, Dremio, a me Oracle ua hoʻopili ʻia i ka manaʻo o kahi "data lakehouse," akā loaʻa iā lākou kēlā me kēia ʻano hiʻohiʻona kūʻokoʻa a me ka manaʻo e hana like me kahi waihona ʻikepili ma mua o ka loko ʻikepili maoli. holoʻokoʻa.
Ke kūʻai ʻia kahi hopena ma ke ʻano he "data lakehouse," pono e makaʻala nā ʻoihana i ke ʻano maoli.
Pono nā ʻoihana e nānā ma mua o nā jargon kūʻai aku e like me "data lakehouse" a ma kahi o ka nānā ʻana i nā hiʻohiʻona o kēlā me kēia kahua e koho i ka paepae ʻikepili maikaʻi loa e hoʻonui me kā lākou ʻoihana i ka wā e hiki mai ana.
Waiho i ka Reply