Ndị ọkà mmụta sayensị data na ndị ọkachamara mmụta igwe na-arụkọ ọrụ ọnụ ọgụgụ dị ịrịba ama nke data nke ụdị dị iche iche na ọrụ sayensị data nkịtị. E mepụtala ọtụtụ ụdị nwere nhazi na njirimara dị iche iche, yana ọtụtụ iteration nke nlegharị anya parameter iji nweta arụmọrụ kacha mma.
N'ọnọdụ dị otú ahụ, a ga-enyocharịrị mgbanwe niile data na nhazi usoro ụlọ ihe atụ iji chọpụta ihe na-arụ ọrụ na ihe na-emeghị. Ọ dịkwa mkpa inwe ike ịlaghachi na mbipụta gara aga wee lelee nsonaazụ gara aga.
Njikwa Versiondị Data (DVC), nke na-enyere aka n'ịhazi data, ihe nlereanya dị n'okpuru, na ịrụpụta nsonaazụ enwere ike imepụtaghachi, bụ otu teknụzụ na-enyere anyị aka inyocha ihe ndị a niile.
Na post a, anyị ga-eleba anya na njikwa ụdị data, yana ngwa kachasị mma iji. Ka anyị malite.
Kedu ihe bụ njikwa ụdị data?
Achọrọ nsụgharị maka sistemu mmepụta niile. Otu isi ihe ịnweta data kachasị ọhụrụ. Akụrụngwa ọ bụla a na-agbanwekarị, ọkachasị site n'aka ọtụtụ ndị ọrụ n'otu oge, chọrọ imepụta ụzọ nyocha iji debe mgbanwe niile.
Usoro njikwa ụdị bụ ọrụ maka ịhụ na onye ọ bụla nọ n'otu egwuregwu nọ n'otu ibe. Ọ na-ekwe nkwa na onye ọ bụla n'ime otu ahụ na-arụ ọrụ na ụdị faịlụ kachasị ọhụrụ na, nke ka mkpa, na onye ọ bụla na-arụkọ ọrụ n'otu ọrụ ahụ n'otu oge.
Ọ bụrụ na ị nwere akụrụngwa kwesịrị ekwesị, ị nwere ike ime nke a na obere mbọ!
Ị ga-enwe usoro data na-agbanwe agbanwe yana ebe nchekwa nke nyocha gị niile ma ọ bụrụ na ị na-eji usoro njikwa ụdị data a pụrụ ịdabere na ya. Ngwá ọrụ nsụgharị data dị oke mkpa maka usoro ọrụ gị ma ọ bụrụ na ị na-eche maka nrụpụtagharị, traceability na akụkọ ihe mere eme ụdị ML.
Ha na-enyere gị aka inweta ụdị ihe, dị ka hash nke dataset ma ọ bụ ihe nlereanya, nke ị nwere ike iji chọpụta na atụnyere. A na-abanyekarị ụdị data a n'ime ngwọta njikwa metadata gị iji kwe nkwa na ọzụzụ nlereanya gị bụ mbipute na enwere ike ikwugharị ya.
Ngwa njikwa ụdị data kacha mma
Ugbu a ọ bụ oge ileba anya na ngwọta njikwa ụdị data kacha mma dị, nke ị nwere ike iji debe akụkụ ọ bụla nke koodu gị.
1. Inye LFS
Ọrụ Git LFS bụ n'efu iji. N'ime Git, faịlụ buru ibu dị ka nlele ọdịyo, vidiyo, ọdụ data na foto ka ejiri ntunye ederede dochie ya, echekwara ọdịnaya faịlụ na sava dịpụrụ adịpụ dị ka GitHub.com ma ọ bụ GitHub Enterprise.
Ọ na-enye gị ohere iji Git mbipute nnukwu faịlụ - ruo ọtụtụ GB n'ogo - na-anabata ndị ọzọ na ebe nchekwa Git gị na-eji nchekwa mpụga, na clone na weghachite nnukwu nchekwa faịlụ ngwa ngwa. A bịa na njikwa data, nke a bụ ezigbo ngwọta ọkụ. Iji na-arụ ọrụ na Git, ịchọghị iwu agbakwunyere, sistemu nchekwa ma ọ bụ ngwa ọrụ.
Ọ na-amachi ọnụọgụ ozi ị na-ebudata. Nke a pụtara na cloning na iweghachite nnukwu faịlụ site na ebe nchekwa ga-adị ngwa ngwa. A na-eji ihe dị mfe mee ihe nrịbama ma na-atụ aka na LFS.
N'ihi ya, mgbe ị na-agbanye repo gị n'ime ebe nchekwa, ọ na-emelite ngwa ngwa ma na-ewe obere ohere.
Uru
- Ọ dị mfe itinye aka na usoro mmepe nke ọtụtụ azụmaahịa.
- Ọ dịghị mkpa ijikwa ikike ndị ọzọ n'ihi na ọ na-eji otu ikike dị ka ebe nchekwa Git.
ọghọm
- Git LFS chọrọ iji sava raara onwe ya nye iji chekwaa data gị. N'ihi ya, a ga-akpọchi ndị otu sayensị data gị, na ọrụ injinia gị ga-ebili.
- Ọpụrụiche nke ukwuu, ma nwee ike ịchọ ka a na-eji ngwa ọrụ dị iche iche dị iche iche maka usoro ndị na-esote na usoro ọrụ sayensị data.
Ịnye ọnụahịa
Ọ bụ n'efu iji maka onye ọ bụla.
2. LakeFS
LakeFS bụ ngwọta nsụgharị data mepere emepe nke na-echekwa data na S3 ma ọ bụ GCS ma nwee alaka Git dị ka na ime paradaịm nke na-erute petabytes.
Usoro nke ngalaba a na-eme ka ọdọ data ACID kwekọọ site n'ikwe ka mgbanwe mee na alaka dị iche iche enwere ike ịrụ, jikọta ma tụgharịa azụ n'otu oge na ozugbo.
LakeFS na-enyere ndị otu aka ịmepụta ihe omume ọdọ mmiri data bụ nke enwere ike ikwugharị, atomic, na ụdịdị. Ọ bụ onye ọhụrụ n’ebe ihe ahụ mere, ma ọ bụ ike a ga-eji na-agụ ya.
Ọ na-eji usoro Git dị ka alaka na njikwa ụdị iji soro gị na-emekọrịta ihe ọdọ data, nwere ike ịgbatị ruo petabytes nke data. Na ọnụ ọgụgụ exabyte, ị nwere ike ịlele maka njikwa ụdị.
Uru
- Ọrụ ndị dị ka Git gụnyere ngalaba, ime ihe, ijikọ na ịtụgharịghachi.
- A na-eji nko-emebe/jikota maka nlele data CI/CD.
- Na-enye njiri dị mgbagwoju anya dị ka azụmahịa ACID maka nchekwa igwe ojii dị ka S3 na GCS, na-anọpụ iche na usoro.
- Weghachite mgbanwe na data ozugbo.
- Na-agbakọ ngwa ngwa, na-enye ya ohere ịnweta ọdọ mmiri data buru ibu. Enwere ike ịnye njikwa ụdị maka mmepe mmepe yana ntọala mmepụta.
ọghọm
- LakeFS bụ ngwaahịa ọhụrụ, ya mere ọrụ na akwụkwọ nwere ike ịgbanwe ngwa ngwa karịa na ngwọta ndị gara aga.
- Ebe ọ na-elekwasị anya na nsụgharị data, ị ga-achọ iji ngwaọrụ ndị ọzọ dị iche iche maka akụkụ dị iche iche nke ọrụ sayensị data.
Ịnye ọnụahịa
Ọ bụ n'efu iji maka onye ọ bụla.
3. DVC
Njikwa ụdịdị Data bụ ngwọta nsụgharị data efu emebere maka sayensị data na ngwa mmụta igwe. Ọ bụ mmemme na-enye gị ohere ịkọwa pipeline gị n'asụsụ ọ bụla.
Site na ijikwa nnukwu faịlụ, nhazi data, ụdị mmụta igwe, koodu, na ihe ndị ọzọ, ngwa ọrụ na-eme ka ụdị mmụta igwe na-ekekọrịta ma nwee ike imepụtaghachi ya. Mmemme ahụ na-eso ụzọ Git n'inye ahịrị iwu dị mfe nke enwere ike ịtọlite na naanị usoro ole na ole.
Dị ka aha ya pụtara, DVC abụghị naanị maka nsụgharị data. Ọ na-akwadokwa njikwa pipeline na ụdị mmụta igwe maka otu.
N'ikpeazụ, DVC ga-enye aka n'ịkwalite nkwụsi ike nke ụdị otu gị na nkwughachi ha. Kama iji suffixe faịlụ gbagwojuru anya na nkọwa na koodu, were ohere Git alaka ịnwale echiche ọhụrụ. Iji mee njem, were metric-tracking na-akpaghị aka kama ịbụ akwụkwọ na pensụl.
Iji nyefee ngwugwu na-agbanwe agbanwe nke ngwa igwe ụdị, data, na koodu n'ime mmepụta, kọmputa dị anya, ma ọ bụ desktọpụ onye ọrụ ibe, ị nwere ike iji push/ dọrọ iwu kama script ad-hoc.
Uru
- Ọ dị fechaa, isi mmalite mepere emepe ma na-arụ ọrụ na nyiwe igwe ojii niile na ụdị nchekwa.
- Mgbanwe, agnostic nke usoro na usoro, yana dị mfe iji mejuputa.
- Evolushọn ụdị ọ bụla nke ML nwere ike ị nwetaghachi na koodu isi mmalite ya na data ya.
ọghọm
- Njikwa pipeline na njikwa ụdị DVC nwere njikọ chiri anya. A ga-enwe nkwụghachi ụgwọ ma ọ bụrụ na ndị otu gị na-eji ngwaahịa pipeline data ọzọ.
- Ebe ọ bụ na DVC dị fechaa, ọ ga-adị mkpa ka ndị otu gị jiri aka chepụta atụmatụ ndị ọzọ iji mee ka ọ bụrụ enyi na enyi.
Ịnye ọnụahịa
Ọ bụ n'efu iji maka onye ọ bụla.
4. DeltaLake
DeltaLake bụ akwa nchekwa mepere emepe nke na-akwalite ntụkwasị obi ọdọ data. Ọdọ mmiri Delta na-akwado azụmahịa ACID na njikwa metadata nwere ike ịbelata na mgbakwunye na ntinye na nhazi data ogbe.
Ọ na-arụ ọrụ na Apache Spark API ma nọdụ ọdụ na ọdọ data gị dị. Ịkekọrịta Delta bụ ụkpụrụ mepere emepe izizi n'ụwa maka ikesa data echekwara na azụmaahịa, na-eme ka ọ dị mfe iji mgbanwe data na azụmaahịa ndị ọzọ na-adabereghị na sistemụ kọmputa ha.
Ọdọ mmiri Delta nwere ike ijikwa petabytes nke data n'ụzọ dị mfe. A na-echekwa metadata n'otu ụzọ ahụ dị ka data, ndị ọrụ nwere ike nweta ya site na iji usoro nkọwa nkọwa. Ọdọ mmiri Delta nwere otu ụkpụrụ ụlọ nke nwere ike ịgụ ma iyi na data batch.
Nkwalite dị mfe iji Delta. Nkwalite ndị a ma ọ bụ njikọ na tebụl Delta dị ka SQL Merges. Ị nwere ike iji ya jikọta data sitere na etiti data ọzọ n'ime tebụl gị wee mee mmelite, ntinye na ihichapụ.
Uru
- Ọtụtụ ikike, dị ka azụmahịa ACID na njikwa metadata siri ike, nwere ike ịdị na ngwọta nchekwa data gị ugbu a.
- Ọdọ mmiri Delta nwere ike ugbu a na-enweghị ike ijikwa tebụl nwere ọtụtụ ijeri nkebi na faịlụ na oke petabyte.
- Na-ebelata mkpa njikwa ụdị data akwụkwọ ntuziaka na nchegbu data ndị ọzọ, na-enye ndị mmepe ohere itinye uche na mmepe ngwaahịa n'elu ọdọ mmiri data ha.
ọghọm
- Dịka e mere ya ka ọ rụọ ọrụ na Spark na nnukwu data, Delta Lake na-enwekarị oke maka ọtụtụ ọrụ.
- Ọ na-achọ ka iji usoro data raara onwe ya nye, nke na-egbochi mgbanwe ya ma mee ka ọ ghara ikwekọ na ụdị gị ugbu a.
Ịnye ọnụahịa
Ọ bụ n'efu iji maka onye ọ bụla.
5. Dolt
Dolt bụ nchekwa data SQL nke na-eme mkpụkọ, cloning, branching, merging, pushing, and pulling n'otu ụzọ ahụ git repository si eme. Iji kwalite ahụmịhe onye ọrụ nke nchekwa data njikwa ụdị, Dolt na-enye ohere ka data na nhazi gbanwee na mmekọrịta.
Ọ bụ ngwá ọrụ magburu onwe ya maka gị na ndị ọrụ ibe gị imekọ ihe ọnụ. Ị nwere ike jikọọ na Dolt n'otu ụzọ ahụ ị ga-esi na nchekwa data MySQL ọ bụla wee mee ajụjụ ma ọ bụ mee mgbanwe na data site na iji iwu SQL.
A bịa na nsụgharị data, Dolt bụ otu ụdị. Dolt bụ nchekwa data, n'adịghị ka ụfọdụ ihe ngwọta ndị ọzọ na-dị nnọọ mbipute data. Ọ bụ ezie na ngwanro ahụ dị ugbu a na mmalite mmalite ya, enwere olile anya ime ka ọ dakọtara na Git na MySQL n'ọdịnihu dị nso.
Iwu niile ị maara na iji Git ga-arụkwa ọrụ na Dolt. Faịlụ ụdị Git, Tebụl ụdị Dolt Iji interface ahịrị iwu, bubata faịlụ CSV, mee mgbanwe gị, bipụta ha n'ime ime, wee jikọta mgbanwe ndị otu gị.
Uru
- Dị fechaa na Isi mmalite n'akụkụ.
- N'iji ya tụnyere nhọrọ ndị ọzọ na-adịghị ahụkebe, ọ nwere interface SQL, na-eme ka ọ dịkwuo mfe ịnweta ndị nyocha data.
ọghọm
- N'ịtụnyere usoro nsụgharị nchekwa data ndị ọzọ, Dolt ka bụ ngwaahịa na-emepe emepe.
- Ebe Dolt bụ nchekwa data, ị ga-ebufe data gị n'ime ya iji nweta uru.
Ịnye ọnụahịa
A na-anabata onye ọ bụla iji nnọkọ obodo. Ikpo okwu anaghị enye ọnụahịa adịchaghị; Kama, ị ga-akpọtụrụ onye na-eweta ya.
6. Pachyderm
Pachyderm bụ sistemụ njikwa ụdị sayensị data efu nwere ọtụtụ atụmatụ. Pachyderm Enterprise bụ usoro sayensị data siri ike emebere maka imekọ ihe ọnụ na gburugburu ebe nchekwa dị oke.
Pachyderm bụ otu n'ime usoro sayensị data ole na ole nke ndepụta ahụ. Ebumnuche Pachyderm bụ ịnye ikpo okwu na-ejikwa usoro data zuru oke ma mee ka ọ dị mfe ịmegharị nchoputa nke ụdị mmụta igwe. A maara Pachyderm dị ka "Docker of Data" na ọnọdụ a. Pachyderm na-eji igbe Docker chịkọta gburugburu ebe a ga-egbu gị. Nke a na-eme ka ọ dị mfe ịmegharị otu nsonaazụ ahụ.
Ndị ọkà mmụta sayensị data na ndị otu DevOps nwere ike ibuga ụdị na ntụkwasị obi ekele maka nchikota data mbipute ya na Docker. Ekele maka usoro nchekwa nchekwa nke ọma, petabytes nke data ahaziri na nke a na-ahazighị ya nwere ike idowe ya ebe a na-echekwa ego nchekwa na opekempe.
N'ime usoro pipeline niile, nsụgharị dabere na faịlụ na-enye ndekọ nyocha nke ọma maka data na ihe niile, gụnyere ntinye etiti. Ọtụtụ n'ime ike ngwá ọrụ bụ ogidi ndị a na-eduzi, nke na-enyere ndị otu aka inweta ihe kachasị na ya.
Uru
- Dabere na arịa, gburugburu data gị ga-adị obere ma dị mfe ịnyefe n'etiti ndị na-eweta igwe ojii.
- siri ike, na-enwe ike itolite site na obere ruo nnukwu nnukwu sistemu.
ọghọm
- Ebe ọ bụ na e nwere ọtụtụ ihe na-akpụ akpụ, dị ka sava Kubernetes dị mkpa iji jikwaa mbipụta n'efu nke Pachyderm, enwere usoro mmụta dị elu karịa.
- Pachyderm nwere ike isiri ike itinye n'ime akụrụngwa nke ụlọ ọrụ dị n'ihi ọtụtụ akụrụngwa teknụzụ ya.
Ịnye ọnụahịa
Ị nwere ike ịmalite iji ikpo okwu na nnọkọ obodo yana maka mbipụta ụlọ ọrụ, ị ga-akpọtụrụ onye na-ere ahịa.
7. Neptune
Ụlọ ahịa metadata ML na-achịkwa metadata ihe nlere anya, nke bụ akụkụ dị mkpa nke nchịkọta MLOps. Maka usoro ọrụ MLOps ọ bụla, Neptune na-eje ozi dị ka nchekwa metadata etiti.
Ị nwere ike idobe, were anya ya na atụnyere ọtụtụ puku igwe mmụta ụdị ihe niile n'otu ebe. Ọ gụnyere njiri mara dị ka nlebanya nnwale, ndebanye aha ụdị, na nlebanya ihe nleba anya, yana yana interface imekọ ihe ọnụ. Ọ gụnyere ihe karịrị 25 dị iche iche ngwaọrụ na ọba akwụkwọ agbakwunyere, gụnyere ọtụtụ ọzụzụ nlereanya na hyperparameter n'iji ya gee ntị.
Ị nwere ike isonyere Neptune na-ejighị kaadị kredit gị. Akaụntụ Gmail ga-ezuru ebe ya.
Uru
- Mmekọrịta na pipeline ọ bụla, eruba, codebase, ma ọ bụ kpuchie dị mfe.
- Ọhụụ nke ezigbo oge, API dị mfe, yana nkwado ngwa ngwa
- Site na Neptune, ị nwere ike ịme “ndabere” nke data nnwale gị niile n'otu ebe, nke ị nwere ike nwetaghachi ma emechaa.
ọghọm
- N'agbanyeghị na ọ bụghị isi mmalite mepere emepe, ụdị onye ọ bụla ga-ezuru oke maka ojiji nkeonwe, n'agbanyeghị na ohere dị otú ahụ bụ naanị otu ọnwa.
- Enwere mmejọ imewe ole na ole ka a ga-ahụ.
Ịnye ọnụahịa
Ị nwere ike ịmalite iji ikpo okwu na atụmatụ Onye ọ bụla nke nweere onwe ya iji mee ihe maka onye ọ bụla. Ngalaba ọnụahịa na-amalite site na $150 / ọnwa.
mmechi
Na post a, anyị tụlere ngwaọrụ nsụgharị data kacha mma. Ngwá ọrụ ọ bụla, dị ka anyị hụworo, nwere atụmatụ nke ya. Ụfọdụ nwere n'efu, ebe ndị ọzọ chọrọ ịkwụ ụgwọ. Ụfọdụ na-adabara nke ọma na ụdị obere azụmahịa, ebe ndị ọzọ na-adaba na nnukwu ụdị azụmahịa.
N'ihi nke a, ị ga-ahọrọ ngwanro kacha mma maka ebumnuche gị mgbe ị tụlechara uru na ọghọm ya. Anyị na-akwado ka ị nwalee ụdị nnwale ahụ tupu ịzụrụ ngwaahịa adịchaghị.
Nkume a-aza