Werrej[Aħbi][Uri]
Ħafna jipprevedu robots bħal dawk fil-films tal-fantaxjenza li jimitaw jew saħansitra jaqbżu l-intellett uman meta jisimgħu t-termini intelliġenza artifiċjali, tagħlim fil-fond u tagħlim bil-magni.
Oħrajn jaħsbu li dawn l-apparati sempliċement jieħdu l-informazzjoni u jitgħallmu minnha waħedhom. Ukoll... Huwa xi ftit qarrieqi. It-tikkettjar tad-dejta huwa l-metodu użat biex iħarreġ il-kompjuters biex isiru "intelliġenti", peress li għandhom kapaċitajiet limitati mingħajr istruzzjoni umana.
Biex tħarreġ il-kompjuter biex jaġixxi "b'mod intelliġenti", aħna ndaħħlu d-dejta f'diversi forom u ngħallmuha diversi strateġiji bl-għajnuna tat-tikkettar tad-dejta.
Is-settijiet tad-dejta għandhom ikunu annotati jew ittikkettati b'diversi permutazzjonijiet tal-istess informazzjoni bħala parti mix-xjenza sottostanti t-tikkettar tad-dejta.
L-isforz u d-dedikazzjoni mqiegħda fil-prodott finali huma ta’ min ifaħħarhom, anke meta jissorprendi u jagħmel il-ħajja tagħna ta’ kuljum aktar faċli.
Tgħallem dwar it-tikkettar tad-dejta f'dan l-artikolu biex titgħallem x'inhu, kif jiffunzjona, tipi differenti ta 'tikkettjar tad-dejta, ostakli, u ħafna aktar.
Allura, x'inhu Tikkettjar tad-Data?
In tagħlim magna, il-kalibru u n-natura tad-dejta tal-input jiddettaw il-kalibru u n-natura tal-output. L-eżattezza tal-mudell AI tiegħek hija msaħħa bil-kalibru tad-dejta utilizzata biex titħarreġha.
F'termini oħra, it-tikkettar tad-dejta huwa l-att ta 'tittikkettjar jew annotazzjoni ta' settijiet ta 'dejta differenti mhux strutturati jew strutturati sabiex jgħallmu kompjuter biex jidentifika d-differenzi u l-mudelli bejniethom.
Illustrazzjoni tgħinek tifhem dan. Huwa meħtieġ li ttikketta kull dawl aħmar f'varjetà ta 'immaġini biex il-kompjuter jitgħallem li d-dawl aħmar huwa sinjal biex tieqaf.
Fuq il-bażi ta 'dan, AI tiżviluppa algoritmu li, f'kull sitwazzjoni, se jinterpreta dawl aħmar bħala indikazzjoni ta' waqfien. Illustrazzjoni oħra hija l-abbiltà li tikkategorizza settijiet ta' dejta differenti taħt l-intestaturi ta' jazz, pop, rock, klassiku, u aktar biex jiġu separati ġeneri mużikali differenti.
Fi kliem sempliċi, it-tikkettjar tad-dejta fit-tagħlim tal-magni jirreferi għall-proċess ta’ skoperta ta’ data mhux ittikkettata (bħal ritratti, fajls ta’ test, vidjows, eċċ.) u żżid tikketta rilevanti waħda jew aktar biex toffri kuntest sabiex mudell ta’ tagħlim bil-magni jkun jista’ jitgħallem minn dan.
It-tikketti jistgħu jgħidu, pereżempju, jekk raġġi-x jurix tumur jew le, liema kliem intqal f'klipp awdjo, jew jekk stampa ta' għasfur jew karozza.
It-tikkettar tad-dejta huwa essenzjali għal numru ta’ każijiet ta’ użu, inkluż ir-rikonoxximent tad-diskors, viżjoni tal-kompjuter, u l-ipproċessar tal-lingwa naturali.
Tikkettar tad-dejta: Għaliex huwa importanti?
L-ewwel, ir-raba 'rivoluzzjoni industrijali hija ċċentrata fuq il-ħila tal-magni tat-taħriġ. Bħala riżultat, tikklassifika fost l-aktar avvanzi sinifikanti tas-softwer tal-preżent.
Trid tinħoloq is-sistema tat-tagħlim tal-magni tiegħek, li tinvolvi t-tikkettar tad-dejta. Hija tistabbilixxi l-kapaċitajiet tas-sistema. M'hemm l-ebda sistema jekk id-data ma tkunx ittikkettata.
Il-possibbiltajiet bit-tikkettar tad-dejta huma limitati biss mill-kreattività tiegħek. Kwalunkwe azzjoni li tista' timmappa fis-sistema tirrepeti b'informazzjoni ġdida.
Jiġifieri li t-tip, il-kwantità, u d-diversità ta 'data li tista' tgħallem is-sistema se jiddeterminaw l-intelliġenza u l-kapaċità tagħha.
It-tieni hija li x-xogħol tat-tikkettar tad-dejta jiġi qabel ix-xogħol tax-xjenza tad-dejta. Għaldaqstant, it-tikkettar tad-dejta huwa meħtieġ għax-xjenza tad-dejta. Il-fallimenti u l-iżbalji fit-tikkettar tad-dejta jaffettwaw ix-xjenza tad-dejta. Inkella, biex tuża cliché aktar mhux raffinat, "trash in, rubbish out."
It-tielet, L-Arti tat-Tikkettar tad-Data tfisser bidla fil-mod kif in-nies jersqu lejn l-iżvilupp tas-sistemi tal-AI. Fl-istess ħin nirfinaw l-istruttura tat-tikkettar tad-dejta biex nilħqu aħjar l-għanijiet tagħna aktar milli nippruvaw intejbu t-tekniki matematiċi biss.
L-awtomazzjoni moderna hija bbażata fuq dan, u hija ċ-ċentru tat-Trasformazzjoni tal-AI li għaddejja bħalissa. Issa aktar minn qatt qabel, ix-xogħol tal-għarfien qed jiġi mekkanizzat.
Kif jaħdem it-tikkettar tad-dejta?
L-ordni kronoloġika li ġejja tiġi segwita matul il-proċedura tat-tikkettar tad-dejta.
Ġbir tad-dejta
Id-dejta hija l-pedament ta’ kull sforz ta’ tagħlim bil-magni. L-istadju inizjali fit-tikkettar tad-dejta jikkonsisti fil-ġbir tal-ammont xieraq ta' dejta mhux ipproċessata f'forom differenti.
Il-ġbir tad-dejta jista’ jieħu waħda minn żewġ forom: jew jiġi minn sorsi interni li n-negozju ilu juża, jew jiġi minn sorsi esterni aċċessibbli għall-pubbliku.
Peress li hija f'forma mhux maħduma, din id-dejta trid titnaddaf u tiġi pproċessata qabel ma jsiru t-tikketti tas-sett tad-dejta. Il-mudell imbagħad jiġi mħarreġ billi juża din id-dejta mnaddfa u pproċessata minn qabel. Is-sejbiet se jkunu aktar preċiżi iktar ma jkun kbir u varjat is-sett tad-dejta.
Annotazzjoni tad-dejta
Wara t-tindif tad-dejta, l-esperti tad-dominju jeżaminaw id-dejta u japplikaw tikketti billi jużaw diversi tekniki ta’ tikkettar tad-dejta. Il-mudell għandu kuntest sinifikanti li jista 'jintuża bħala verità tal-art.
Dawn huma l-varjabbli li trid li l-mudell ibassar, bħar-ritratti.
Assigurazzjoni tal-kwalità
Il-kwalità tad-dejta, li għandha tkun affidabbli, preċiża u konsistenti, hija kruċjali għas-suċċess tat-taħriġ tal-mudell ML. Għandhom jiġu implimentati testijiet regolari tal-QA sabiex jiggarantixxu dan it-tikkettar eżatt u korrett tad-dejta.
Huwa possibbli li tiġi vvalutata l-eżattezza ta 'dawn l-annotazzjonijiet billi tuża tekniki tal-QA bħall-Kunsens u t-test alfa ta' Cronbach. Il-korrettezza tar-riżultati titjieb b'mod konsiderevoli permezz ta' spezzjonijiet ta' QA ta' rutina.
Mudelli ta' taħriġ u ttestjar
Il-proċeduri msemmija hawn fuq jagħmlu sens biss jekk id-dejta tiġi ċċekkjata għall-korrettezza. It-teknika se titqiegħed għat-test billi tinkludi s-sett tad-dejta mhux strutturat biex jiċċekkja jekk tagħtix ir-riżultati mixtieqa.
Strateġiji tat-tikkettar tad-dejta
It-tikkettar tad-dejta huwa proċess impenjattiv li jitlob attenzjoni għad-dettall. Il-metodu użat biex tiġi annotata d-dejta se jvarja skont id-dikjarazzjoni tal-ħruġ, kemm trid tiġi ttikkettata dejta, kemm hija kkumplikata d-dejta, u l-istil.
Ejja ngħaddu minn xi wħud mill-għażliet li għandu n-negozju tiegħek, skont ir-riżorsi li għandu u l-ħin li għandu disponibbli.
Tikkettar tad-dejta internament
Kif jimplika l-isem, it-tikkettar tad-dejta intern isir minn esperti fi ħdan kumpanija. Meta jkollok biżżejjed ħin, persunal u riżorsi finanzjarji, hija l-aħjar għażla peress li tiżgura l-aktar tikkettar preċiż. Madankollu, jimxi bil-mod.
Esternalizzazzjoni
Għażla oħra biex isiru l-affarijiet hija li timpjega freelancers għal kompiti ta’ tikkettjar tad-dejta li jistgħu jiġu skoperti f’diversi swieq li jfittxu impjieg u freelance bħal Upwork.
L-esternalizzazzjoni hija għażla rapida biex tikseb servizzi ta 'tikkettar tad-dejta, madankollu, il-kwalità tista' tbati, simili għall-metodu preċedenti.
crowdsourcing
Tista' tidħol bħala applikant u tqassam diversi xogħlijiet ta' tikkettar lil kuntratturi disponibbli fuq pjattaformi speċjalizzati ta' crowdsourcing bħal Amazon mekkaniku tat-Turk (MTurk).
Il-metodu, filwaqt li kemmxejn veloċi u rħas, ma jistax jipprovdi dejta annotata ta 'kwalità tajba.
Tikkettjar tad-data awtomatikament.
Il-proċedura tista' tkun megħjuna minn softwer minbarra li titwettaq manwalment. Bl-użu tal-approċċ tat-tagħlim attiv, it-tikketti jistgħu jinstabu awtomatikament u jiżdiedu mas-sett tad-dejta tat-taħriġ.
Essenzjalment, speċjalisti umani jiżviluppaw mudell AI Auto-label biex jimmarkaw data mhux tikkettata u mhux ipproċessata. Imbagħad jiddeċiedu jekk il-mudell applikax it-tikkettar b'mod xieraq. Il-bnedmin jiffissaw l-iżbalji wara falliment u jħarrġu mill-ġdid l-algoritmu.
Żvilupp ta' data sintetika.
Minflok data tad-dinja reali, data sintetika huwa dataset ittikkettat li ġie mmanifatturat artifiċjalment. Huwa prodott minn algoritmi jew simulazzjonijiet tal-kompjuter u spiss jintuża mudelli tat-tagħlim tal-magni tal-ferrovija.
Id-dejta sintetika hija tweġiba eċċellenti għall-kwistjonijiet tal-iskarsezza u l-varjetà tad-dejta fil-kuntest tal-proċeduri tat-tikkettar. Il-ħolqien ta data sintetika mill-bidu joffri soluzzjoni.
Il-ħolqien ta 'settings 3D bl-oġġetti u madwar il-mudell għandu jkun kapaċi jagħraf mill-iżviluppaturi tas-sett tad-dejta. Id-data sintetika kemm hija meħtieġa għall-proġett tista' tingħata.
Sfidi tat-Tikkettar tad-Data
Jeħtieġ aktar ħin u sforz
Minbarra li huwa ta’ sfida biex tikseb ammonti kbar ta’ dejta (speċjalment għal industriji speċjalizzati ħafna bħall-kura tas-saħħa), it-tikkettar ta’ kull biċċa dejta bl-idejn huwa kemm xogħol intensiv kif ukoll impenjattiv, u jeħtieġ l-assistenza ta’ tikkettar umani.
Kważi 80% tal-ħin mgħoddi fuq proġett matul iċ-ċiklu kollu tal-iżvilupp tal-ML jintefaq fuq il-preparazzjoni tad-dejta, li tinkludi t-tikkettar.
Possibbiltà għal inkonsistenza
Ħafna drabi, it-tikkettjar inkroċjat, li jiġri meta ħafna nies jittikkettjaw l-istess settijiet ta 'dejta, jirriżulta fi preċiżjoni akbar.
Madankollu, minħabba li l-individwi kultant ikollhom gradi differenti ta 'kompetenza, l-istandards tat-tikkettar u t-tikketti nfushom jistgħu jkunu inkonsistenti, li hija kwistjoni oħra, Huwa possibbli li żewġ annotaturi jew aktar ma jaqblux fuq xi tikketti.
Pereżempju, espert wieħed jistaʼ jikklassifika reviżjoni taʼ lukanda bħala favorevoli filwaqt li ieħor iqisha bħala sarkastika u jassenjaha klassifikazzjoni baxxa.
Għarfien tad-dominju
Int ser tħoss il-ħtieġa li timpjega tikkettar b'għarfien speċjalizzat tal-industrija għal xi setturi.
L-annotaturi mingħajr l-għarfien meħtieġ tad-dominju, pereżempju, se jkollhom żmien diffiċli ħafna biex jimmarkaw b'mod xieraq l-oġġetti filwaqt li joħolqu app ML għas-settur tal-kura tas-saħħa.
Pronezza għall-iżbalji
It-tikkettjar manwali huwa suġġett għal żbalji umani, irrispettivament minn kemm ikunu infurmati u bir-reqqa l-labelers tiegħek. Minħabba l-fatt li l-annotaturi ta 'spiss jaħdmu b'settijiet enormi ta' dejta mhux ipproċessata, dan huwa inevitabbli.
Immaġina persuna li tinnota 100,000 immaġini b'sa 10 affarijiet differenti.
Tipi komuni ta' Tikkettar tad-Data
Kompjuter Viżjoni
Biex tiżviluppa s-sett tad-dejta tat-taħriġ tiegħek, l-ewwel trid ttikketta stampi, pixels, jew spots ewlenin, jew tistabbilixxi limitu li jagħlaq kompletament immaġini diġitali, magħrufa bħala kaxxa li tgħaqqad, meta tibni sistema ta' viżjoni bil-kompjuter.
Ir-ritratti jistgħu jiġu kategorizzati f'varjetà ta 'modi, inkluż bil-kontenut (dak li huwa fil-fatt fl-immaġini nnifisha) u l-kwalità (bħal ritratti tal-prodott vs. stil ta' ħajja).
L-immaġini jistgħu wkoll jinqasmu f'segmenti fil-livell tal-pixel. Il-mudell tal-viżjoni tal-kompjuter żviluppat bl-użu ta 'din id-dejta tat-taħriġ jista' sussegwentement jintuża biex jikklassifika awtomatikament l-immaġini, jiddetermina l-post tal-oġġetti, jenfasizza żoni ewlenin f'immaġni, u jsegmenta immaġini.
Ipproċessar Lingwa Naturali
Qabel ma tipproduċi s-sett tad-dejta tat-taħriġ tal-ipproċessar tal-lingwa naturali tiegħek, trid tagħżel manwalment frammenti testwali rilevanti jew tikklassifika l-materjal b'tikketti speċifikati.
Pereżempju, tista' tkun trid tagħraf ix-xejriet tad-diskors, tikklassifika n-nomi proprji bħal postijiet u nies, u tidentifika test f'immaġini, PDFs, jew midja oħra. Inti tista 'wkoll trid tiddetermina s-sentiment jew l-intenzjoni ta' blurb ta 'test.
Oħloq kaxxi tal-konfini madwar it-test fis-sett tad-dejta tat-taħriġ tiegħek biex twettaq dan, u mbagħad traskrivih manwalment.
Rikonoxximent ottiku tal-karattru, l-identifikazzjoni tal-isem tal-entità, u l-analiżi tas-sentiment huma kollha mwettqa bl-użu ta 'mudelli tal-ipproċessar tal-lingwa naturali.
Audio Ipproċessar
L-ipproċessar tal-awdjo jittrasforma kull tip ta’ ħsejjes f’format strutturat sabiex ikunu jistgħu jiġu utilizzati fit-tagħlim tal-magni, inkluż diskors, ħsejjes tal-annimali (barks, sfafar, jew chirps), u ħsejjes tal-bini (ħġieġ miksur, skanjar, jew sireni).
Ħafna drabi, qabel ma tkun tista 'timmaniġġja l-awdjo, trid taqlebha manwalment għal test. Wara mbagħad, billi tikkategorizza u żżid tikketti mal-awdjo, tista 'titgħallem aktar informazzjoni fil-fond dwarha. Tiegħek dataset tat-taħriġ huwa dan l-awdjo klassifikat.
konklużjoni
Bħala konklużjoni, l-identifikazzjoni tad-dejta tiegħek hija parti kruċjali tat-taħriġ ta 'kull mudell AI. Organizzazzjoni b'ritmu mgħaġġel, madankollu, sempliċement ma tistax taffordja li tqatta 'ħin tagħmel dan manwalment minħabba li tieħu ħafna ħin u tieħu ħafna enerġija.
Barra minn hekk, hija proċedura li hija suxxettibbli għal ineżattezza u ma twiegħedx preċiżjoni kbira. M'għandux għalfejn ikun daqshekk diffiċli, li hija aħbar eċċellenti.
It-teknoloġiji tat-tikkettar tad-dejta tal-lum jippermettu kollaborazzjoni bejn il-bnedmin u l-magni biex jipprovdu dejta preċiża u utli għal varjetà ta 'applikazzjonijiet ta' tagħlim bil-magni.
Ħalli Irrispondi