ʻEpekema ʻikepili a me nā loea aʻo mīkini e hana i kahi helu nui o nā ʻikepili o nā ʻano like ʻole i kahi papahana ʻepekema data maʻamau. Ua hoʻomohala ʻia nā hiʻohiʻona he nui me nā ʻano hoʻonohonoho like ʻole a me nā hiʻohiʻona, a me nā helu he nui o ka hoʻoponopono ʻana i nā parameter e loaʻa ai ka hana maikaʻi loa.
Ma ia ʻano hiʻohiʻona, pono e nānā a ana ʻia nā hoʻololi ʻikepili āpau a me ka hoʻoponopono ʻana i ke kaʻina hana hoʻohālike i mea e hoʻoholo ai i ka mea i hana a me ka mea i hana ʻole. He mea nui nō hoʻi e hiki ke hoʻi i kahi paʻi mua a nānā i nā hopena i hala.
ʻO ka Data Version Control (DVC), ka mea kōkua i ka mālama ʻana i ka ʻikepili, ke kumu hoʻohālike, a me ka holo ʻana i nā hopena reproducible, ʻo ia kekahi o ia ʻenehana e hiki ai iā mākou ke nānā i kēia mau mea a pau.
Ma kēia pou, e nānā pono mākou i ka Data Version Control, a me nā mea hana maikaʻi loa e hoʻohana ai. E hoʻomaka kākou.
He aha ka Mana Mana Mana?
Pono ka hoʻololi ʻana no nā ʻōnaehana hana āpau. ʻO kahi wahi o ka loaʻa ʻana o ka ʻikepili hou loa. ʻO nā kumuwaiwai i hoʻololi pinepine ʻia, ʻo ia hoʻi e kekahi mau mea hoʻohana i ka manawa like, pono e hana i kahi ala hoʻokele e mālama i nā loli āpau.
Aia ke kuleana o ka ʻōnaehana mana no ka hōʻoia ʻana i ka ʻaoʻao hoʻokahi o ka hui. Hōʻoiaʻiʻo ia e hana ana nā mea a pau o ka hui i ka mana hou loa o ka faila a, ʻoi aku ka mea nui, ke hana like nei nā mea a pau ma ka papahana hoʻokahi i ka manawa.
Inā loaʻa iā ʻoe nā lako kūpono, hiki iā ʻoe ke hoʻokō i kēia me ka hoʻoikaika liʻiliʻi!
Loaʻa iā ʻoe nā pūʻulu ʻikepili paʻa a me kahi waihona kikoʻī o kāu noiʻi āpau inā ʻoe e hoʻohana i kahi hoʻolālā hoʻokele mana o ka ʻikepili hilinaʻi. He mea koʻikoʻi nā mea hana hoʻololi ʻikepili no kāu kaʻina hana inā makemake ʻoe e pili ana i ka reproducibility, traceability, a me ka mōʻaukala kumu hoʻohālike ML.
Kōkua lākou iā ʻoe e kiʻi i kahi mana o kahi mea, e like me ka hash o kahi dataset a i ʻole ke kumu hoʻohālike, a laila hiki iā ʻoe ke hoʻohana e ʻike a hoʻohālikelike. Hoʻokomo pinepine ʻia kēia mana ʻikepili i kāu hoʻoponopono hoʻokele metadata e hōʻoiaʻiʻo i kāu hoʻomaʻamaʻa kumu hoʻohālike i hoʻololi ʻia a hiki ke hana hou ʻia.
ʻOi aku ka maikaʻi o ka ʻikepili mana mana
ʻO ka manawa kēia e nānā ai i nā hoʻonā mana hoʻoponopono ʻikepili maikaʻi loa i loaʻa, hiki iā ʻoe ke hoʻohana e mālama i kēlā me kēia ʻāpana o kāu code.
1. git-lfs
Hoʻohana manuahi ka papahana Git LFS. I loko o Git, ua hoʻololi ʻia nā faila nui e like me nā laʻana leo, nā wikiō, nā ʻikepili, a me nā kiʻi me nā kuhikuhi kikokikona, a mālama ʻia nā waihona ma kahi kikowaena mamao e like me GitHub.com a i ʻole GitHub Enterprise.
Hiki iā ʻoe ke hoʻohana iā Git i ka hoʻololi ʻana i nā faila nui-a hiki i ka nui o GB i ka nui-hoʻokipa hou aku i kāu mau waihona Git me ka hoʻohana ʻana i ka waiho waho, a clone a kiʻi hou i nā waihona waihona nui. I ka wā e pili ana i ka hoʻokele ʻikepili, he hopena māmā kēia. No ka hana pū me Git, ʻaʻole ʻoe e koi i nā kauoha ʻē aʻe, nā ʻōnaehana mālama, a i ʻole nā mea hana.
Hoʻopili ia i ka nui o ka ʻike āu e hoʻoiho ai. Hōʻike kēia e ʻoi aku ka wikiwiki o ka cloning a me ka lawe ʻana i nā faila nui mai nā waihona. Hana ʻia nā kuhikuhi i kahi mea māmā a kuhikuhi i ka LFS.
ʻO ka hopena, i ka wā e pana ai ʻoe i kāu repo i loko o ka waihona nui, hoʻonui koke ia a lawe i kahi liʻiliʻi.
Pros
- Hoʻohui maʻalahi i nā kaʻina hana hoʻomohala o ka hapa nui o nā ʻoihana.
- ʻAʻohe pono e mālama i nā kuleana ʻē aʻe no ka mea hoʻohana ia i nā ʻae like me ka waihona Git.
Con
- Pono ʻo Git LFS i ka hoʻohana ʻana i nā kikowaena hoʻolaʻa e mālama i kāu ʻikepili. ʻO ka hopena, e laka ʻia kāu mau hui ʻepekema data, a piʻi aʻe kāu hana ʻenehana.
- ʻIke kūikawā loa, a pono paha e hoʻohana i nā ʻano mea hana like ʻole no nā hana aʻe i ka workflow ʻepekema data.
kumu kūʻai
He manuahi ka hoʻohana ʻana no kēlā me kēia kanaka.
2. LakeFS
ʻO LakeFS kahi hoʻonā hoʻololi hoʻololi i ka ʻikepili e mālama ai i ka ʻikepili ma S3 a i ʻole GCS a loaʻa iā ia kahi lālā e like me Git a me ka hoʻokō ʻana i ka paradigm e kau ana i nā petabytes.
ʻO kēia hoʻolālā lālā e hoʻokō pono ai kāu lake data ACID ma o ka ʻae ʻana i nā hoʻololi e hana i nā lālā ʻokoʻa i hiki ke kūkulu ʻia, hoʻohui ʻia, a ʻōwili ʻia i hope a me ka manawa koke.
Hāʻawi ʻo LakeFS i nā hui e hana i nā hana lake data i hiki ke hana hou, atomic, a me ka versioned. He mea hou kēia i ke ʻano, akā he ikaika ia e helu ʻia.
Hoʻohana ʻo ia i kahi ala Git-like branching a me ka mana mana e launa pū me kāu loko ʻikepili, hiki ke hoʻonui ʻia a hiki i nā Petabytes o ka ʻikepili. Ma kahi pālākiō exabyte, hiki iā ʻoe ke nānā i ka mana mana.
Pros
- ʻO nā hana e like me Git e pili ana i ka lālā, ka hana, ka hoʻohui ʻana, a me ka hoʻihoʻi ʻana.
- Hoʻohana ʻia nā makau pre-commit/merge no ka ʻikepili CI/CD nānā.
- Hāʻawi i nā hiʻohiʻona paʻakikī e like me nā kālepa ACID no ka mālama ʻana i ke ao maʻalahi e like me S3 a me GCS, ʻoiai ke waiho nei i ke ʻano kūʻokoʻa.
- E hoʻihoʻi i nā hoʻololi i ka ʻikepili i ka manawa maoli.
- Hiki i nā unahi, hiki iā ia ke hoʻokipa i nā loko ʻikepili nui loa. Hiki ke hāʻawi ʻia ka mana mana no ka hoʻomohala ʻana a me nā hoʻonohonoho hana.
Con
- He huahana hou ʻo LakeFS, no laila hiki ke loli wikiwiki ka hana a me nā palapala ma mua o nā hoʻonā mua.
- No ka mea e pili ana ia i ka hoʻololi ʻana i ka ʻikepili, pono ʻoe e hoʻohana i nā ʻano mea hana ʻē aʻe no nā ʻāpana like ʻole o ke kahe hana ʻepekema data.
kumu kūʻai
He manuahi ka hoʻohana ʻana no kēlā me kēia kanaka.
3. DVC
ʻO ka Data Version Control kahi hoʻonā ʻikepili manuahi i hoʻolālā ʻia no ka ʻepekema data a me nā noi aʻo mīkini. He polokalamu ia e hiki ai iā ʻoe ke wehewehe i kāu paipu ma kekahi ʻōlelo.
Ma ka hoʻokele ʻana i nā faila nui, nā pūʻulu ʻikepili, nā hiʻohiʻona aʻo mīkini, code, a pēlā aku, hiki i ka mea hana ke hoʻokaʻawale i nā ʻano aʻo mīkini a hiki ke hana hou ʻia. Ke hahai nei ka papahana i ke alakaʻi o Git i ka hāʻawi ʻana i kahi laina kauoha maʻalahi i hiki ke hoʻonohonoho ʻia i nā ʻanuʻu liʻiliʻi wale nō.
E like me ka manaʻo o kona inoa, ʻaʻole pili wale ʻo DVC i ka hoʻololi ʻikepili. Hoʻomaʻamaʻa ia i ka hoʻokele ʻana i nā pipeline a me nā kumu hoʻohālike aʻo mīkini no nā hui.
ʻO ka hope, e kōkua ʻo DVC i ka hoʻomaikaʻi ʻana i ke kūlike o nā hiʻohiʻona o kāu hui a me kā lākou hana hou. Ma kahi o ka hoʻohana ʻana i nā suffix file paʻakikī a me nā manaʻo i ke code, e hoʻohana pono Nā lālā Git e hoao i na manao hou. No ka huakaʻi, hoʻohana i ka metric tracking automated ma kahi o ka pepa a me ka penikala.
E hoʻouna i nā pūʻolo paʻa o aʻo aʻo nā hiʻohiʻona, ka ʻikepili, a me ke code i ka hana ʻana, nā kamepiula mamao, a i ʻole ka pākaukau o kahi hoa hana, hiki iā ʻoe ke hoʻohana i nā kauoha pana/pull ma kahi o nā palapala ad-hoc.
Pros
- He māmā, he kumu hāmama, a hana pū me nā paepae ao nui a me nā ʻano waihona.
- Maʻalahi, agnostic o ke ʻano a me ka hoʻolālā, a maʻalahi hoʻi e hoʻokō.
- Hiki ke huli ʻia ka hoʻololi holoʻokoʻa o kēlā me kēia kumu hoʻohālike ML i kāna kumu kumu a me kāna ʻikepili.
Con
- Hoʻopili ʻia ka hoʻokele paipu a me ka mana mana DVC. Loaʻa ka hoʻopau ʻana inā ke hoʻohana nei kāu hui i kahi huahana pipeline data.
- Ma muli o ka maʻalahi o DVC, pono paha kāu hui e hoʻolālā i nā hiʻohiʻona hou me ka lima i mea e ʻoi aku ka maʻalahi o ka mea hoʻohana.
kumu kūʻai
He manuahi ka hoʻohana ʻana no kēlā me kēia kanaka.
4. DeltaLake
ʻO DeltaLake kahi waihona waihona waihona e hoʻonui i ka hilinaʻi o ka loko data. Kākoʻo ʻo Delta Lake i nā kālepa ACID a me ka hoʻokele metadata scalable me ka hoʻoheheʻe ʻana a me ka hoʻoili ʻana i ka ʻikepili.
Hana pū ʻo ia me Apache Spark API a noho ma kāu loko ʻikepili i loaʻa. ʻO Delta Sharing ka protocol wehe mua o ka honua no ka kaʻana like ʻana i ka ʻikepili palekana i ka ʻoihana, e maʻalahi ke hoʻololi ʻana i ka ʻikepili me nā ʻoihana ʻē aʻe kūʻokoʻa i kā lākou ʻōnaehana kamepiula.
Hiki i nā Delta Lakes ke mālama i nā petabytes o ka ʻikepili me ka maʻalahi. Mālama ʻia ka metadata ma ke ʻano like me ka ʻikepili, a hiki i nā mea hoʻohana ke loaʻa iā ia me ka hoʻohana ʻana i ke ʻano Describe Detail. Loaʻa iā Delta Lakes kahi hoʻolālā hoʻokahi e hiki ke heluhelu i nā kahawai a me nā ʻikepili pūʻulu.
He mea maʻalahi nā upserts e hana me Delta. Hoʻohālikelike ʻia kēia mau upserts a hui pū paha i ka papa Delta me SQL Merges. Hiki iā ʻoe ke hoʻohana ia mea no ka hoʻohui ʻana i ka ʻikepili mai kahi kiʻi ʻikepili ʻē aʻe i kāu papaʻaina a hana i nā mea hou, hoʻokomo, a holoi.
Pros
- Hiki ke loaʻa nā mana he nui, e like me ka ACID transactions a me ka hoʻokele metadata paʻa, i kāu hoʻonā mālama ʻikepili i kēia manawa.
- Hiki iā Delta Lake ke hoʻokele maʻalahi i nā papa ʻaina me nā piliona o nā ʻāpana a me nā faila ma kahi petabyte-scale.
- Hoʻemi i ka pono o ka mana mana ʻikepili manual a me nā hopohopo ʻikepili ʻē aʻe, e ʻae ana i nā mea hoʻomohala e noʻonoʻo i ka hoʻomohala ʻana i nā huahana ma luna o kā lākou mau loko ʻikepili.
Con
- E like me ka mea i hoʻolālā ʻia e hana me Spark a me ka ʻikepili nui, ʻoi aku ka nui o Delta Lake no ka hapa nui o nā hana.
- Pono ia i ka hoʻohana ʻana i kahi hōpili ʻikepili i hoʻolaʻa ʻia, e kaupalena ana i kona maʻalahi a hana ʻole ia me kāu mau palapala i kēia manawa.
kumu kūʻai
He manuahi ka hoʻohana ʻana no kēlā me kēia kanaka.
5. ʻO Dolt
ʻO Dolt kahi waihona SQL e hana ana i ka forking, cloning, branching, merged, pushing, a me ka huki ʻana ma ke ʻano like me kahi waihona git. No ka hoʻomaikaʻi ʻana i ka ʻike mea hoʻohana o kahi waihona mana mana, ʻae ʻo Dolt i ka ʻikepili a me ke ʻano e hoʻololi i ka sync.
He mea hana maikaʻi loa ia no ʻoe a me kāu mau hoa hana e hana pū ai. Hiki iā ʻoe ke hoʻohui iā Dolt ma ke ʻano like āu e makemake ai i kekahi waihona MySQL ʻē aʻe a holo i nā nīnau a hoʻololi paha i ka ʻikepili me ka hoʻohana ʻana i nā kauoha SQL.
I ka wā e pili ana i ka hoʻololi ʻana i ka ʻikepili, ʻo Dolt kahi ʻano hoʻokahi. He waihona ʻikepili ʻo Dolt, e kūʻē i kekahi o nā hoʻonā ʻē aʻe e hoʻololi wale i ka ʻikepili. ʻOiai ʻo ka polokalamu i kēia manawa i ka wā mua, aia nā manaʻolana e hoʻokō piha me Git a me MySQL i ka wā e hiki mai ana.
ʻO nā kauoha āpau āu i kamaʻāina ai me ka hoʻohana ʻana me Git e hana pū me Dolt. Nā waihona mana o Git, nā papaʻaina Dolt me ka hoʻohana ʻana i ka laina kauoha, e hoʻokomo i nā faila CSV, e hana i kāu mau hoʻololi, e paʻi iā lākou i kahi mamao, a hoʻohui i nā loli o kāu hoa hui.
Pros
- Māmā a me hamama kumu ma kahi hapa.
- I ka hoʻohālikelike ʻana i nā koho ʻē aʻe, loaʻa iā ia kahi kikowaena SQL, e ʻoi aku ka maʻalahi o nā mea loiloi ʻikepili.
Con
- I ka hoʻohālikelike ʻana i nā mea ʻē aʻe o ka hoʻololi ʻana i ka waihona, ʻo Dolt kahi huahana e ulu nei.
- No ka mea he waihona waihona ʻo Dolt, pono ʻoe e hoʻoili i kāu ʻikepili i loko e loaʻa ai nā pōmaikaʻi.
kumu kūʻai
Hoʻokipa ʻia nā mea a pau e hoʻohana i ka hālāwai kaiāulu. ʻAʻole hāʻawi ka paepae i ka uku kumukūʻai; akā, pono ʻoe e kelepona i ka mea hoʻolako.
6. Pachyderm
ʻO Pachyderm kahi ʻōnaehana mana mana ʻepekema data manuahi me ka nui o nā hiʻohiʻona. He kahua ʻepekema ʻikepili ikaika ʻo Pachyderm Enterprise i hoʻolālā ʻia no ka hui nui ʻana i nā wahi palekana.
ʻO Pachyderm kekahi o nā kahua ʻepekema data liʻiliʻi o ka papa inoa. ʻO ka pahuhopu o Pachyderm ka hāʻawi ʻana i kahi kahua e hoʻokele i ka pōʻaiapili ʻikepili piha a maʻalahi i ka hana kope ʻana i nā ʻike o nā kumu aʻo mīkini. ʻIke ʻia ʻo Pachyderm ʻo "ka Docker of Data" ma kēia ʻano. Hoʻopili ʻo Pachyderm i kāu wahi hoʻokō me ka hoʻohana ʻana i nā pahu Docker. He mea maʻalahi kēia i ka hana kope ʻana i nā hopena like.
Hiki i nā ʻepekema ʻikepili a me nā hui DevOps ke kau i nā hiʻohiʻona me ka hilinaʻi e hoʻomaikaʻi i ka hui ʻana o nā ʻikepili i hoʻololi ʻia me Docker. Mahalo i kahi ʻōnaehana mālama maikaʻi, hiki ke mālama ʻia nā petabytes o ka ʻikepili i kūkulu ʻia a i hoʻonohonoho ʻole ʻia ʻoiai e mālama ʻia nā kumukūʻai mālama i ka liʻiliʻi.
I loko o nā ʻāpana pipeline, hāʻawi ka hoʻololi ʻana i ka faila i kahi moʻolelo loiloi piha no nā ʻikepili āpau a me nā mea waiwai, me nā huahana waena. ʻO ka nui o nā mana o ka hāmeʻa e alakaʻi ʻia e kēia mau pou, e kōkua ana i nā hui e loaʻa i nā mea maikaʻi loa.
Pros
- Ma muli o nā ipu, hiki ke lawe ʻia kāu mau ʻikepili ʻikepili a maʻalahi hoʻi e hoʻoili ma waena o nā mea hāʻawi kapua.
- Paʻa, me ka hiki ke hoʻonui mai ka liʻiliʻi a hiki i nā ʻōnaehana nui loa.
Con
- Ma muli o ka nui o nā mea hoʻoneʻe, e like me ke kikowaena Kubernetes e pono ai e mālama i ka paʻi manuahi a Pachyderm, aia kahi ʻoi aʻe o ke aʻo ʻana.
- He mea paʻakikī paha ʻo Pachyderm e hoʻokomo i loko o kahi ʻoihana e kū nei ma muli o kāna mau ʻenehana ʻenehana.
kumu kūʻai
Hiki iā ʻoe ke hoʻomaka i ka hoʻohana ʻana i ke kahua me ka hālāwai kaiāulu a no ka paʻi ʻoihana, pono ʻoe e hoʻopili i ka mea kūʻai aku.
7. Neptune
Mālama ʻia ka metadata kūkulu hoʻohālike e ka hale kūʻai metadata ML, kahi mea koʻikoʻi o ka waihona MLOps. No kēlā me kēia kahe hana MLOps, lawelawe ʻo Neptune ma ke ʻano he waihona metadata kikowaena.
Hiki iā ʻoe ke mālama, nānā, a hoʻohālikelike i nā tausani o nā kumu hoʻohālike mīkini a pau ma kahi hoʻokahi. Loaʻa iā ia nā hiʻohiʻona e like me ka nānā ʻana i ka hoʻokolohua, ka hoʻopaʻa inoa hoʻohālike, a me ka nānā ʻana i nā hiʻohiʻona, a me kahi pilina hui pū. Aia ma luna o 25 mau mea hana like ʻole a me nā hale waihona puke i hoʻohui ʻia, me ka hoʻomaʻamaʻa kumu hoʻohālike a me nā mea hana hoʻokani hyperparameter.
Hiki iā ʻoe ke hui pū me Neptune me ka hoʻohana ʻole i kāu kāleka hōʻaiʻē. Ua lawa ka mooolelo Gmail ma kona wahi.
Pros
- He maʻalahi ka hoʻohui ʻana me kekahi pipeline, kahe, codebase, a i ʻole framework.
- ʻO nā hiʻohiʻona manawa maoli, ka API maʻalahi, a me ke kākoʻo wikiwiki
- Me Neptune, hiki iā ʻoe ke hana i kahi "backup" o nā ʻikepili a pau o kāu mau hoʻokolohua ma kahi wahi, hiki iā ʻoe ke hoʻihoʻi ma hope.
Con
- ʻOiai ʻaʻole i wehe ʻia ke kumu kumu, hiki paha i kahi mana hoʻokahi ke lawa no ka hoʻohana pilikino, ʻoiai ua kaupalena ʻia ke komo ʻana i hoʻokahi mahina.
- Aia kekahi mau hemahema hoʻolālā liʻiliʻi e ʻike ʻia.
kumu kūʻai
Hiki iā ʻoe ke hoʻomaka i ka hoʻohana ʻana i ka paepae me ka hoʻolālā pilikino i manuahi e hoʻohana no kēlā me kēia. Hoʻomaka ka ʻāpana kumu kūʻai mai $150 / mahina.
Panina
Ma kēia pou, ua kūkākūkā mākou i nā mea hana hoʻololi data maikaʻi loa. ʻO kēlā me kēia mea hana, e like me kā mākou i ʻike ai, loaʻa i kāna mau hiʻohiʻona ponoʻī. Ua noa kekahi, a ua koi kekahi i ka uku. Ua kūpono kekahi i keʻanoʻoihana liʻiliʻi, aʻo nā mea'ē aʻe iʻoi aku ka maikaʻi i kaʻoihanaʻoihana nui.
No laila, pono ʻoe e koho i ka polokalamu maikaʻi loa no kāu mau kumu ma hope o ke kaupaona ʻana i nā pono a me nā hemahema. Paipai mākou iā ʻoe e hoʻāʻo i ka mana hoʻāʻo manuahi ma mua o ke kūʻai ʻana i kahi huahana premium.
Waiho i ka Reply