Научници за податоци а професионалците за машинско учење се занимаваат со значителен број на податоци од различни типови во типичен проект за наука за податоци. Развиени се бројни модели со различни конфигурации и карактеристики, како и повеќекратни повторувања на подесување на параметрите за да се добијат оптимални перформанси.
Во такво сценарио, сите модификации на податоците и прилагодувањата на процесот на градење модел мора да се следат и измерат со цел да се утврди што функционирало, а што не. Исто така, од витално значење е да можете да се вратите на претходното издание и да ги разгледате претходните резултати.
Контрола на верзии на податоци (DVC), која помага во управувањето со податоците, основниот модел и извршувањето на репродуктивните резултати, е една таква технологија што ни овозможува да го следиме сето ова.
Во овој пост, внимателно ќе ја разгледаме контролата на верзии на податоци и најдобрите алатки за користење. Да почнеме.
Што е контрола на верзии на податоци?
Потребна е верзија за сите производствени системи. Единствена точка за пристап до најсовремените податоци. Секој ресурс што често се менува, особено од неколку корисници во исто време, има потреба од создавање ревизорска трага за следење на сите промени.
Системот за контрола на верзии е одговорен да се осигура дека сите во тимот се на иста страница. Тоа гарантира дека сите во тимот работат на најновата верзија на датотеката и, уште поважно, дека сите соработуваат на истиот проект во исто време.
Ако имате соодветна опрема, можете да го постигнете ова со минимален напор!
Ќе имате конзистентни збирки на податоци и темелна архива на целото ваше истражување ако користите доверлива стратегија за управување со верзии на податоци. Алатките за верзии на податоци се клучни за вашиот работен тек ако се грижите за репродуктивноста, следливоста и историјата на ML моделите.
Тие ви помагаат да стекнете верзија на ставка, како хаш на база на податоци или модел, кои потоа можете да ги користите за да ги идентификувате и споредите. Оваа верзија на податоци често се внесува во вашето решение за управување со метаподатоци за да се гарантира дека обуката за вашиот модел е верзиирана и повторлива.
Најдобри алатки за контрола на верзии на податоци
Сега е време да ги погледнете најдобрите достапни решенија за контрола на верзии на податоци, кои можете да ги користите за да го следите секој дел од вашиот код.
1. Гит LFS
Проектот Git LFS е бесплатен за користење. Во Git, големите датотеки како аудио примероци, видеа, бази на податоци и фотографии се заменети со текстуални покажувачи, а содржината на датотеката се зачувува на оддалечен сервер како GitHub.com или GitHub Enterprise.
Тоа ви овозможува да користите Git за да верзирате огромни датотеки - со големина до неколку GB - да се вдомат повеќе во вашите складишта на Git користејќи надворешно складирање и побрзо да ги клонирате и повратите големите складишта на датотеки. Кога станува збор за управување со податоци, ова е прилично лесно решение. За да работите со Git, не ви се потребни дополнителни команди, системи за складирање или комплети со алатки.
Го ограничува количеството на информации што ги преземате. Ова имплицира дека клонирањето и преземањето големи датотеки од складиштата ќе биде побрзо. Покажувачите се направени од полесен материјал и укажуваат на АРС.
Како резултат на тоа, кога го туркате вашето складиште во главното складиште, тоа брзо се ажурира и зафаќа помалку простор.
Добрите
- Лесно се интегрира во развојните работни текови на повеќето бизниси.
- Нема потреба да се справувате со дополнителни права бидејќи ги користи истите дозволи како складиштето Git.
Конс
- Git LFS бара употреба на посветени сервери за складирање на вашите податоци. Како резултат на тоа, вашите тимови за наука за податоци ќе бидат заклучени и вашиот инженерски обем на работа ќе се зголеми.
- Многу специјализиран и може да бара употреба на различни различни алатки за следните фази во работниот тек на науката за податоци.
Цени
Бесплатна е за употреба за секого.
2. LakeFS
LakeFS е решение за верзии на податоци со отворен код што ги зачувува податоците во S3 или GCS и има парадигма на разгранување и обврзување слична на Git која се зголемува до петабајти.
Оваа стратегија за разгранување го прави вашето податочно езеро ACID усогласено со тоа што дозволува промените да се случат во различни гранки кои можат да се конструираат, спојат и да се вратат атомски и моментално.
LakeFS им овозможува на тимовите да креираат активности за езерата со податоци што се повторливи, атомски и верзии. Тоа е почетник на сцената, но тоа е сила со која треба да се смета.
Користи пристап сличен на Git за разгранување и контрола на верзијата за да комуницира со вашиот езерото на податоци, скалабилни до петабајти податоци. На скала од егзабајти, можете да проверите дали има контрола на верзијата.
Добрите
- Операциите слични на Git вклучуваат разгранување, обврзување, спојување и враќање.
- За проверки на податоци CI/CD се користат куки за пред-поврзување/спојување.
- Обезбедува сложени функции како ACID трансакции за едноставно складирање во облак како S3 и GCS, а сето тоа останува неутрален формат.
- Вратете ги промените на податоците во реално време.
- Лесно се скали, дозволувајќи му да се сместат многу огромни езера со податоци. Може да се обезбеди контрола на верзијата и за развојните и за поставките за производство.
Конс
- LakeFS е нов производ, така што функционалноста и документацијата може да се променат побрзо отколку со претходните решенија.
- Бидејќи е фокусиран на верзии на податоци, ќе треба да користите различни дополнителни алатки за различни делови од работниот тек на науката за податоци.
Цени
Бесплатна е за употреба за секого.
3. ДВЦ
Контрола на верзии на податоци е бесплатно решение за верзии на податоци дизајнирано за апликации за наука за податоци и машинско учење. Тоа е програма која ви овозможува да го дефинирате вашиот гасовод на кој било јазик.
Со управување со големи датотеки, збирки податоци, модели за машинско учење, код и слично, алатката ги прави моделите за машинско учење споделливи и репродуктивни. Програмата го следи водството на Git во обезбедувањето едноставна командна линија што може да се постави во само неколку чекори.
Како што имплицира неговото име, DVC не е само за верзии на податоци. Исто така, го олеснува управувањето со цевководи и модели за машинско учење за тимови.
Конечно, DVC ќе помогне во подобрувањето на конзистентноста на моделите на вашиот тим и нивната повторливост. Наместо да користите комплицирани суфикси на датотеки и коментари во кодот, искористете ги предностите Git гранки да испробаат нови идеи. За да патувате, користете автоматско метричко следење наместо хартија и молив.
За пренос на конзистентни снопови на машинско учење модели, податоци и код во производство, далечни компјутери или десктоп на колега, можете да користите команди push/pull наместо ад-хок скрипти.
Добрите
- Тој е лесен, со отворен код и работи со сите главни платформи за облак и видови складирање.
- Флексибилен, агностик по формат и рамка и едноставен за имплементација.
- Целата еволуција на секој ML модел може да се следи до неговиот изворен код и податоци.
Конс
- Управувањето со гасоводот и контролата на верзијата на DVC се нераскинливо поврзани. Ќе има технолошки вишок ако вашиот тим веќе користи друг производ за снабдување со податоци.
- Бидејќи DVC е лесен, вашиот тим можеби ќе треба рачно да дизајнира дополнителни функции за да го направи попријателски за корисникот.
Цени
Бесплатна е за употреба за секого.
4. Езерото Делта
DeltaLake е слој за складирање со отворен код кој ја зголемува доверливоста на податоците од езерото. Делта Лејк поддржува ACID трансакции и скалабилно управување со метаподатоци, покрај стриминг и сериска обработка на податоци.
Работи со Apache Spark API и се наоѓа на вашето постоечко езеро со податоци. Delta Sharing е првиот отворен протокол во светот за безбедно споделување податоци во бизнисот, што го прави едноставно размената на податоци со други бизниси независни од нивните компјутерски системи.
Делта Лејкс се способни лесно да ракуваат со петабајти податоци. Метаподатоците се складираат на ист начин како и податоците, а корисниците можат да ги добијат со помош на методот Describe Detail. Делта Лејкс има единствена архитектура која може да чита и преносни и сериски податоци.
Едноставно е да се прават нагорнини користејќи Delta. Овие вметнувања или спојувања во табелата Делта се споредливи со SQL Merges. Можете да го користите за да интегрирате податоци од друга рамка за податоци во вашата табела и да вршите ажурирања, вметнувања и бришења.
Добрите
- Многу способности, како ACID трансакции и робусно управување со метаподатоци, може да бидат достапни во вашето сегашно решение за складирање податоци.
- Делта Лејк сега може без напор да управува со табели со милијарди партиции и датотеки во размер петабајти.
- Ја намалува потребата за рачна контрола на верзии на податоци и други проблеми со податоците, дозволувајќи им на програмерите да се концентрираат на развивање производи на врвот на нивните езера за податоци.
Конс
- Бидејќи е дизајниран да работи со Spark и огромни податоци, Delta Lake е генерално презаситено за повеќето задачи.
- Потребна е употреба на посебен формат на податоци, што ја ограничува неговата флексибилност и го прави некомпатибилен со вашите сегашни форми.
Цени
Бесплатна е за употреба за секого.
5. Долт
Dolt е SQL база на податоци која врши форкирање, клонирање, разгранување, спојување, туркање и влечење на ист начин како што прави складиштето за git. За да се подобри корисничкото искуство на базата на податоци за контрола на верзии, Dolt дозволува синхронизирање на податоците и структурата да се менуваат.
Тоа е одлична алатка за да соработувате вие и вашите соработници. Може да се поврзете со Dolt на ист начин како што би се поврзале со која било друга MySQL база на податоци и да извршувате прашања или да правите промени во податоците користејќи SQL команди.
Кога станува збор за верзии на податоци, Dolt е единствен во еден вид. Dolt е база на податоци, за разлика од некои други решенија кои само ги верзираат податоците. Додека софтверот моментално е во раните фази, постојат надежи да се направи целосно компатибилен со Git и MySQL во блиска иднина.
Сите команди што сте запознаени со користењето со Git ќе работат и со Dolt. Датотеки со верзии на Git, табели со верзии на Dolt Користејќи го интерфејсот на командната линија, увезете CSV-датотеки, извршете ги вашите промени, објавувајте ги на далечински управувач и спојте ги промените на вашиот тимски колега.
Добрите
- Лесен и со отворен код во дел.
- Во споредба со понејасните избори, има SQL интерфејс, што го прави попристапен за аналитичарите на податоци.
Конс
- Во споредба со другите алтернативи за верзии на бази на податоци, Dolt сè уште е производ во развој.
- Бидејќи Dolt е база на податоци, мора да ги пренесете вашите податоци во неа за да ги добиете придобивките.
Цени
Секој е добредојден да ја користи сесијата на заедницата. Платформата не обезбедува премиум цени; наместо тоа, мора да го контактирате давателот.
6. Пахидерм
Pachyderm е бесплатен систем за контрола на верзијата на науката за податоци со многу функции. Pachyderm Enterprise е моќна научна платформа за податоци дизајнирана за голема соработка во високо безбедни средини.
Pachyderm е една од ретките платформи за наука за податоци на листата. Целта на Pachyderm е да обезбеди платформа која управува со целосниот циклус на податоци и го олеснува дуплирањето на наодите од моделите за машинско учење. Pachyderm е познат како „Докер на податоци“ во овој контекст. Pachyderm ја пакува вашата околина за извршување користејќи Docker контејнери. Ова го олеснува дуплирањето на истите резултати.
Научниците за податоци и тимовите на DevOps можат да распоредуваат модели со сигурност благодарение на комбинацијата на верзии на податоци со Docker. Благодарение на ефикасниот систем за складирање, петабајти структурирани и неструктурирани податоци може да се одржуваат додека трошоците за складирање се сведени на минимум.
Во текот на фазите на цевководот, верзијата базирана на датотеки обезбедува темелна ревизорска евиденција за сите податоци и артефакти, вклучувајќи ги и средните излези. Многу од способностите на алатката се водени од овие столбови, кои им помагаат на тимовите да извлечат максимум од неа.
Добрите
- Врз основа на контејнерите, вашите околини за податоци ќе бидат преносливи и лесни за пренос помеѓу давателите на облак.
- Робустен, со способност за размерување од мали до екстремно големи системи.
Конс
- Бидејќи има толку многу подвижни елементи, како што е серверот Kubernetes неопходен за ракување со бесплатното издание на Pachyderm, постои поостра крива на учење.
- Pachyderm може да биде предизвик да се вгради во постоечката инфраструктура на компанијата поради многуте технолошки компоненти.
Цени
Може да започнете да ја користите платформата со сесијата на заедницата, а за изданието на претпријатието, мора да контактирате со продавачот.
7. Нептун
Метаподатоците за градење модели се управувани од продавницата за метаподатоци ML, што е важен аспект на стекот MLOps. За секој работен тек на MLOps, Нептун служи како централизирано складирање на метаподатоци.
Можете да следите, визуелизирате и споредувате илјадници модели на машинско учење, сите на едно место. Вклучува функции како што се следење експеримент, регистар на модели и следење на модели, како и заеднички интерфејс. Вклучува повеќе од 25 различни алатки и интегрирани библиотеки, вклучително и неколку алатки за обука за модели и хиперпараметри за подесување.
Можете да се придружите на Нептун без да ја користите вашата кредитна картичка. На негово место ќе биде доволна сметка на Gmail.
Добрите
- Интеграцијата со кој било цевковод, проток, база на кодови или рамка е едноставна.
- Визуелизациите во реално време, лесното API и брзата поддршка
- Со Нептун, можете да направите „резервна копија“ на сите податоци од вашите експерименти на една локација, што ќе можете да ги вратите подоцна.
Конс
- Иако не е целосно со отворен код, поединечна верзија веројатно би била доволна за приватна употреба, иако таквиот пристап е ограничен на еден месец.
- Може да се најдат неколку мали недостатоци во дизајнот.
Цени
Може да започнете да ја користите платформата со Индивидуалниот план кој е бесплатен за секого. Делот за цени започнува од 150 долари месечно.
Заклучок
Во овој пост, разговаравме за најдобрите алатки за верзии на податоци. Секоја алатка, како што видовме, има свој сет на функции. Некои беа бесплатни, додека други бараа плаќање. Некои се добро прилагодени на моделот на мал бизнис, додека други се подобро прилагодени на моделот на голем бизнис.
Како последица на тоа, мора да го изберете најдобриот софтвер за вашите цели откако ќе ги измерите предностите и недостатоците. Ви препорачуваме да ја тестирате бесплатната пробна верзија пред да купите премиум производ.
Оставете Одговор