Data siantifika ary ireo matihanina amin'ny fianarana milina dia miatrika angon-drakitra marobe isan-karazany amin'ny tetikasa siantifika data mahazatra. Modely maro no novolavolaina miaraka amin'ny fanamafisam-peo sy endri-javatra isan-karazany, ary koa ny famerimberenana maromaro amin'ny fanamafisam-peo mba hahazoana ny fampisehoana tsara indrindra.
Amin'ny toe-javatra toy izany, ny fanovana angon-drakitra rehetra sy ny fanitsiana ny fizotran'ny fananganana modely dia tsy maintsy araha-maso sy refesina mba hamaritana izay nandaitra sy tsy nahomby. Tena ilaina ihany koa ny fahafahana miverina amin'ny fanontana teo aloha ary mijery ireo vokatra teo aloha.
Data Version Control (DVC), izay manampy amin'ny fitantanana ny angon-drakitra, ny maodely fototra ary ny famoahana vokatra azo averina, dia teknolojia iray ahafahantsika manara-maso izany rehetra izany.
Ato amin'ity lahatsoratra ity, hijery akaiky ny Data Version Control, sy ny fitaovana tsara indrindra ampiasaina. Andeha isika hanomboka.
Inona no atao hoe Data Version Control?
Ilaina ny versioning ho an'ny rafitra famokarana rehetra. Toerana tokana ahafahana miditra amin'ny angona farany indrindra. Izay loharano ovaina matetika, indrindra fa ataon'ny mpampiasa maromaro miaraka amin'ny fotoana iray ihany, dia mila mamorona lalan'ny fanaraha-maso mba hanarahana ny fanovana rehetra.
Ny rafitra fanaraha-maso ny dikan-teny dia tompon'andraikitra amin'ny fiantohana fa ny olona rehetra ao amin'ny ekipa dia mitovy pejy. Izy io dia miantoka fa ny tsirairay ao amin'ny ekipa dia miasa amin'ny kinova farany indrindra amin'ny rakitra ary, ny tena zava-dehibe, dia miara-miasa amin'ny tetikasa iray ihany ny tsirairay.
Raha manana fitaovana mety ianao dia afaka manatanteraka izany amin'ny ezaka kely indrindra!
Hanana angon-drakitra tsy miovaova sy arisiva feno amin'ny fikarohanao rehetra ianao raha mampiasa paikady fitantanana dikan-drakitra azo ianteherana. Ny fitaovana famoahana angon-drakitra dia tena zava-dehibe amin'ny fizotran'ny asanao raha toa ianao ka miraharaha ny famerenana, ny traceability ary ny tantaran'ny maodely ML.
Izy ireo dia manampy anao hahazo dikan-javatra iray, toy ny hash amin'ny angon-drakitra na maodely, izay azonao ampiasaina hamantarana sy hampitahana. Ity kinova angona ity dia matetika ampidirina ao amin'ny vahaolana fitantanana metadata-nao mba hiantohana fa ny fanofanana maodely dia voadika sy azo averina.
Fitaovana fanaraha-maso ny dikan-teny tsara indrindra
Fotoana izao hijerena ny vahaolana tsara indrindra amin'ny fanaraha-maso ny dikan-teny misy, izay azonao ampiasaina hanaraha-maso ny ampahany rehetra amin'ny kaody.
1. git-lfs
Maimaim-poana ny fampiasana ny tetikasa Git LFS. Ao anatin'ny Git, ny rakitra lehibe toy ny santionany feo, horonan-tsary, angon-drakitra ary sary dia soloina amin'ny fanondro lahatsoratra, ary ny atiny rakitra dia voatahiry amin'ny mpizara lavitra toa an'i GitHub.com na GitHub Enterprise.
Mamela anao hampiasa Git amin'ny famoahana rakitra goavambe — hatramin'ny GB maromaro ny habeny — mampiantrano bebe kokoa ao amin'ny fitahirizanao Git mampiasa fitahirizana ivelany, ary manao clone sy maka ireo tahiry lehibe kokoa haingana kokoa. Raha mikasika ny fitantanana angon-drakitra dia vahaolana maivana ity. Raha hiasa amin'ny Git ianao dia tsy mila baiko fanampiny, rafitra fitahirizana, na fitaovana fitahirizana.
Mametra ny habetsaky ny fampahalalana alainao izany. Midika izany fa ho haingana kokoa ny cloning sy ny fakana rakitra lehibe avy amin'ny repositories. Ny tondro dia vita amin'ny fitaovana maivana kokoa ary manondro ny LFS.
Vokatr'izany, rehefa manosika ny repo anao ao amin'ny tahiry lehibe ianao dia manavao haingana ary maka toerana kely kokoa.
matihanina
- Ampidirina mora amin'ny fizotran'ny fampandrosoana ny ankamaroan'ny orinasa.
- Tsy ilaina ny mitantana zo fanampiny satria mampiasa fahazoan-dàlana mitovy amin'ny tahiry Git.
maharatsy ny mifampiresaka
- Git LFS dia mila mampiasa mpizara voatokana hitahirizana ny angonao. Vokatr'izany dia hihidy ao ny ekipan'ny siansa momba ny angona, ary hitombo ny enta-mavesatry ny injeniera.
- Tena manam-pahaizana manokana, ary mety hilaina ny fampiasana fitaovana isan-karazany ho an'ny dingana manaraka amin'ny fizotran'ny siansa data.
Pricing
Maimaim-poana ny fampiasana azy ho an'ny rehetra.
2. LakeFS
LakeFS dia vahaolana famoahana angon-drakitra misokatra izay mitahiry angon-drakitra ao amin'ny S3 na GCS ary manana paradigma sampana mitovitovy amin'ny Git sy manao izay mizana amin'ny petabytes.
Ity paikadin'ny sampana ity dia mampanaraka ny ACID ny farihy angon-drakitrao amin'ny alàlan'ny famelana ny fiovana hitranga amin'ny sampana miavaka izay azo amboarina, atambatra ary avadika ho atomika sy eo no ho eo.
Ny LakeFS dia ahafahan'ny ekipa mamorona hetsika farihy data izay azo averina, atomika ary misy dikan-teny. Zaza vao tonga any an-toerana, fa hery azo raisina.
Mampiasa fomba fanaraha-maso ny sampana toa an'i Git izy io mba hifaneraserana amin'ny anao data lake, azo ampitomboina hatramin'ny angon-drakitra Petabytes. Amin'ny ambaratonga exabyte, azonao atao ny manamarina ny fanaraha-maso ny dikan-teny.
matihanina
- Ny hetsika toa an'i Git dia ahitana ny sampana, ny fanolorana, ny fampifangaroana ary ny famerenana.
- Ny hooks alohan'ny commit/merge dia ampiasaina amin'ny fisavana data CI/CD.
- Manome endri-javatra sarotra toy ny fifanakalozana ACID ho an'ny fitahirizana rahona tsotra toa ny S3 sy GCS, raha mbola tsy miandany amin'ny endrika.
- Avereno ny fanovana amin'ny angona amin'ny fotoana tena izy.
- Mora mizana, mamela azy handraisana ireo farihy data tena lehibe. Ny fanaraha-maso ny dikan-teny dia azo omena ho an'ny firafitry ny fampandrosoana sy ny famokarana.
maharatsy ny mifampiresaka
- Ny LakeFS dia vokatra vaovao, noho izany ny fiasa sy ny antontan-taratasy dia mety hiova haingana kokoa noho ny vahaolana teo aloha.
- Satria mifantoka amin'ny famoahana angon-drakitra izy io, dia mila mampiasa fitaovana fanampiny isan-karazany ho an'ny faritra isan-karazany amin'ny fizotran'ny siansa data ianao.
Pricing
Maimaim-poana ny fampiasana azy ho an'ny rehetra.
3. DVC
Data Version Control dia vahaolana famoahana angon-drakitra maimaim-poana natao ho an'ny siansa angon-drakitra sy fampiharana fianarana milina. Izy io dia programa ahafahanao mamaritra ny fantsonao amin'ny fiteny rehetra.
Amin'ny fitantanana ny rakitra lehibe, ny angon-drakitra, ny maodely fianarana milina, ny code, sy ny sisa, ny fitaovana dia mahatonga ny maodely fianarana milina azo zaraina sy azo averina. Ny programa dia manaraka ny fitarihan'i Git amin'ny fanomezana baiko tsotra izay azo amboarina amin'ny dingana vitsivitsy.
Araka ny dikan'ny anarany, ny DVC dia tsy momba ny famoahana angon-drakitra fotsiny. Manamora ihany koa ny fitantanana ny fantsona sy ny maodely fianarana milina ho an'ny ekipa.
Farany, ny DVC dia hanampy amin'ny fanatsarana ny fitovian'ny maodelin'ny ekipanao sy ny famerenana azy ireo. Raha tokony hampiasa tovana sy fanehoan-kevitra amin'ny kaody sarotra, dia araraoty Sampana Git hanandrana hevitra vaovao. Raha te handeha dia mampiasa metric-tracking mandeha ho azy fa tsy taratasy sy pensilihazo.
Mampita amboara tsy miovaova ny fianarana milina modely, angona ary kaody ho amin'ny famokarana, solosaina lavitra, na biraon'ny mpiara-miasa, azonao ampiasaina ny baiko push/pull fa tsy script ad-hoc.
matihanina
- Maivana izy io, loharano misokatra, ary miasa miaraka amin'ireo sehatra rahona lehibe rehetra sy karazana fitahirizana.
- Flexible, agnostika amin'ny endrika sy rafitra, ary mora ampiharina.
- Ny fivoaran'ny maodely ML rehetra dia azo jerena amin'ny kaody loharanony sy ny angona.
maharatsy ny mifampiresaka
- Ny fitantanana fantsona sy ny fanaraha-maso ny dikan-DVC dia mifamatotra tsy azo sarahina. Hisy ny fihemorana raha toa ka efa mampiasa vokatra fantsona data hafa ny ekipanao.
- Satria maivana ny DVC, mety mila mamolavola endri-javatra fanampiny amin'ny tanana ny ekipanao mba hahatonga azy ho mora kokoa amin'ny mpampiasa.
Pricing
Maimaim-poana ny fampiasana azy ho an'ny rehetra.
4. DeltaLake
DeltaLake dia sosona fitehirizana loharano misokatra izay mampitombo ny fahatokisana ny farihy data. Ny Delta Lake dia manohana ny fifanakalozana amin'ny ACID sy ny fitantanana metadata azo scalable ho fanampin'ny fanodinana angon-drakitra sy ny batch.
Miara-miasa amin'ny Apache Spark API izy io ary mipetraka amin'ny farihy misy angona misy anao. Delta Sharing no protocol misokatra voalohany eran'izao tontolo izao ho an'ny fifampizaràna angon-drakitra azo antoka amin'ny fandraharahana, ka mahatonga azy ho mora ny mifanakalo angona amin'ny orinasa hafa tsy miankina amin'ny rafitry ny solosainany.
Ny Delta Lakes dia afaka mitantana angona petabytes mora foana. Ny metadata dia voatahiry amin'ny fomba mitovy amin'ny angona, ary azon'ny mpampiasa atao izany amin'ny alàlan'ny fomba Describe Detail. Ny Delta Lakes dia manana maritrano tokana izay afaka mamaky angon-drakitra mivantana sy batch.
Ny upserts dia mora atao amin'ny fampiasana Delta. Ireo fisondrotana na mitambatra ao amin'ny latabatra Delta dia azo oharina amin'ny SQL Merges. Azonao atao ny mampiasa azy io mba hampidirana angona avy amin'ny rafitra angon-drakitra hafa ao amin'ny latabatrao ary hanao fanavaozana, fampidirana ary famafana.
matihanina
- Ny fahaiza-manao maro, toy ny fifanakalozana amin'ny ACID sy ny fitantanana metadata matanjaka, dia azo alaina amin'ny vahaolana fitahirizana data misy anao.
- Ny Farihy Delta dia afaka mitantana mora foana latabatra misy fizarazarana sy rakitra an'arivony tapitrisa amin'ny ambaratonga petabyte.
- Mampihena ny filana fanaraha-maso ny dikan-teny amin'ny tanana sy ny olana hafa momba ny angona, ahafahan'ny mpamorona mifantoka amin'ny famolavolana vokatra eo ambonin'ny farihin'ny data.
maharatsy ny mifampiresaka
- Satria natao hiara-hiasa amin'ny Spark sy ny angon-drakitra lehibe, ny Delta Lake dia matetika be loatra amin'ny ankamaroan'ny asa.
- Ilaina ny fampiasana endrika angon-drakitra voatokana, izay mametra ny fahafaha-manaony ary mahatonga azy tsy hifanaraka amin'ny endrikao ankehitriny.
Pricing
Maimaim-poana ny fampiasana azy ho an'ny rehetra.
5. Dolt
Dolt dia angon-drakitra SQL izay manao forking, cloning, branching, merge, push, ary misintona mitovy amin'ny ataon'ny git repository. Mba hanatsarana ny traikefan'ny mpampiasa amin'ny angon-drakitra fanaraha-maso dikan-teny, Dolt dia mamela ny angona sy ny rafitra hiova amin'ny sync.
Fitaovana tena tsara ho anao sy ny mpiara-miasa aminao hiaraha-miasa izany. Azonao atao ny mifandray amin'ny Dolt amin'ny fomba mitovy amin'ny ataonao amin'ny angon-drakitra MySQL hafa ary mametraka fanontaniana na manova ny angon-drakitra mampiasa baiko SQL.
Raha ny momba ny famoahana angon-drakitra, Dolt dia iray amin'ny karazana. Dolt dia angon-drakitra, mifanohitra amin'ireo vahaolana hafa izay angon-drakitra fotsiny. Na dia eo am-piandohana aza ny rindrambaiko amin'izao fotoana izao, misy ny fanantenana ny hahatonga azy hifanaraka tanteraka amin'ny Git sy MySQL ato ho ato.
Ny baiko rehetra mahazatra anao amin'ny fampiasana Git dia hiasa amin'ny Dolt ihany koa. Git versions files, Dolt versions tables Mampiasa ny baikon'ny interface, manafatra rakitra CSV, ataovy ny fanovanao, avoahy amin'ny lavitr'ezaka, ary ampifandraiso ny fiovan'ny mpiara-miasa aminao.
matihanina
- Maivana ary loharano misokatra ampahany.
- Raha ampitahaina amin'ny safidy manjavozavo kokoa, dia manana interface SQL izy io, mahatonga azy ho mora kokoa amin'ny mpandinika angona.
maharatsy ny mifampiresaka
- Raha ampitahaina amin'ireo safidy hafa amin'ny famoahana angon-drakitra, Dolt dia mbola vokatra mivoatra.
- Satria i Dolt dia angon-drakitra, tsy maintsy mamindra ny angonao ao ianao mba hahazoana ny tombony.
Pricing
Ankasitrahana ny rehetra hampiasa ny fivoriana fiaraha-monina. Ny sehatra dia tsy manome vidiny premium; fa tsy maintsy mifandray amin'ny mpamatsy.
6. Pachyderm
Pachyderm dia rafitra fanaraha-maso ny dikan-teny siantifika maimaim-poana miaraka amin'ny endri-javatra maro. Pachyderm Enterprise dia sehatra siansa data matanjaka natao ho an'ny fiaraha-miasa midadasika amin'ny tontolo azo antoka.
Pachyderm dia iray amin'ireo sehatra siantifika data vitsivitsy ao amin'ny lisitra. Ny tanjon'i Pachyderm dia ny hanome sehatra iray mitantana ny tsingerin'ny angon-drakitra feno ary manamora ny fanaovana kopia ny valin'ny maodely fianarana milina. Pachyderm dia fantatra amin'ny anarana hoe "Docker of Data" amin'ity toe-javatra ity. Pachyderm dia mametraka ny tontolo famonoana anao amin'ny alàlan'ny kaontenera Docker. Izany dia manamora ny fanaovana kopia ireo vokatra mitovy.
Ny mpahay siansa momba ny data sy ny ekipa DevOps dia afaka mametraka modely amin'ny fahatokisana noho ny fampifangaroana angon-drakitra misy version miaraka amin'i Docker. Noho ny rafitra fitahirizana mahomby dia azo tazonina ny petabytes amin'ny angon-drakitra voarafitra sy tsy voarafitra raha tazonina ho faran'izay kely ny vidin'ny fitahirizana.
Manerana ny fizotran'ny fantsona, ny famoahana mifototra amin'ny rakitra dia manome firaketana fanaraha-maso feno ho an'ny angona sy ny artifacts rehetra, ao anatin'izany ny vokatra mpanelanelana. Maro amin'ireo fahaiza-manaon'ny fitaovana no entin'ireo andry ireo, izay manampy ny ekipa hahazo tombony betsaka amin'izany.
matihanina
- Miorina amin'ny kaontenera, ny tontolo iainanao angona dia ho azo entina ary mora afindra eo amin'ireo mpamatsy rahona.
- Mafy, miaraka amin'ny fahafaha-mitombo hatramin'ny rafitra kely ka hatramin'ny lehibe indrindra.
maharatsy ny mifampiresaka
- Satria misy singa mihetsika be dia be, toy ny mpizara Kubernetes ilaina amin'ny fitantanana ny fanontana maimaim-poana an'i Pachyderm, dia misy filaharana fianarana mideza kokoa.
- Pachyderm dia mety ho sarotra ny hampidirina ao amin'ny fotodrafitrasa efa misy ao amin'ny orinasa iray noho ireo singa ara-teknolojia maro ao aminy.
Pricing
Azonao atao ny manomboka mampiasa ny sehatra miaraka amin'ny fivoriana fiaraha-monina ary ho an'ny fanontana orinasa dia mila mifandray amin'ny mpivarotra ianao.
7. Neptune
Ny metadata fananganana modely dia tantanin'ny fivarotana metadata ML, izay lafiny manan-danja amin'ny stack MLOps. Ho an'ny fizotran'ny MLOps tsirairay, i Neptune dia mitahiry metadata afovoany.
Azonao atao ny manara-maso, mijery sary, ary mampitaha modely fianarana milina an'arivony amin'ny toerana iray. Ao anatin'izany ny endri-javatra toy ny fanaraha-maso andrana, ny rejisitra modely, ary ny fanaraha-maso modely, ary koa ny interface tsara. Ahitana fitaovana sy tranomboky 25 mahery izy io, anisan'izany ny fanofanana modely sy fitaovana fametahana hyperparameter.
Afaka miditra amin'ny Neptune ianao raha tsy mampiasa ny carte de crédit. Kaonty Gmail dia ampy hisolo azy.
matihanina
- Tsotra ny fampidirana amin'ny pipeline, flow, codebase, na framework.
- Ny sary an-tsary amin'ny fotoana tena izy, ny API mora ary ny fanohanana haingana
- Miaraka amin'i Neptune, azonao atao ny manao “backup” ny angona andrana rehetra ataonao amin'ny toerana iray, izay azonao averina any aoriana.
maharatsy ny mifampiresaka
- Na dia tsy loharano misokatra tanteraka aza, ny dikan-teny tsirairay dia mety ho ampy ho an'ny fampiasana manokana, na dia voafetra ho iray volana aza ny fidirana toy izany.
- Misy lesoka kely amin'ny famolavolana hita.
Pricing
Azonao atao ny manomboka mampiasa ny sehatra miaraka amin'ny drafitra manokana izay maimaim-poana ho an'ny rehetra. Manomboka amin'ny $150/volana ny fizarana vidiny.
Famaranana
Ato amin'ity lahatsoratra ity dia niresaka momba ny fitaovana famoahana data tsara indrindra izahay. Ny fitaovana tsirairay, araka ny hitantsika, dia manana ny endri-javatra manokana. Ny sasany dia maimaim-poana, fa ny hafa kosa nitaky vola. Ny sasany dia mifanentana tsara amin'ny modely fandraharahana kely, fa ny hafa kosa mifanentana kokoa amin'ny modely fandraharahana lehibe.
Vokatr'izany dia tsy maintsy misafidy rindrambaiko tsara indrindra ho an'ny tanjonao ianao rehefa avy nandanja ny tombony sy ny fatiantoka. Mamporisika anao izahay hizaha toetra ny kinova fitsapana maimaim-poana alohan'ny hividianana vokatra premium.
Leave a Reply