Table of Contents[Veşartin][Rêdan]
Gelek robotên mîna yên di fîlimên xeyalî yên zanistî de dibînin ku gava ku ew têgînên îstîxbarata sûnî, fêrbûna kûr, û fêrbûna makîneyê dibihîzin, aqilê mirovî dişibînin an jî jê derbas dikin.
Yên din difikirin ku van amûran tenê agahdarî digirin û bi serê xwe jê fêr dibin. Belê… hinekî xapînok e. Etîketkirina daneyan rêbazek e ku tê bikar anîn da ku komputeran perwerde bikin da ku bibin "aqilmend", ji ber ku bêyî talimata mirovan xwedan kapasîteyên tixûbdar in.
Ji bo ku kompîturê perwerde bikin da ku "aqilmend" tevbigerin, em daneyan bi cûrbecûr cûrbecûr derdixin û bi alîkariya nîşankirina daneyan stratejiyên cihêreng fêrî wê dikin.
Pêdivî ye ku berhevok bi gelek veguheztinên heman agahiyê wekî beşek ji zanista ku di bin etîketa daneyê de ye were şîrovekirin an binavkirin.
Hewl û xîreta ku di berhema dawîn de tê kirin pesindar e, hetta dema ku ew sosret dike û jiyana me ya rojane hêsantir dike.
Di vê gotarê de li ser nîşankirina daneyê fêr bibin ku fêr bibin ka ew çi ye, ew çawa kar dike, celebên cûda nîşankirina daneyê, astengî, û hêj bêtir.
Ji ber vê yekê, Nîşankirina Daneyê çi ye?
In fêrbûna makîneyê, qalib û cewherê daneya têketinê qalib û cewherê derketinê destnîşan dike. Rastiya modela AI-ya we ji hêla pîvana daneya ku ji bo perwerdekirina wê hatî bikar anîn zêde dibe.
Bi gotinên din, nîşankirina daneyê çalakiya etîketkirin an şîrovekirina komên daneyên cûda yên nesazkirî an birêkûpêk e da ku fêrî komputerê bibe ku cûdahî û şêwazên di navbera wan de nas bike.
Nîşanek dê ji we re bibe alîkar ku hûn vê yekê fam bikin. Pêdivî ye ku her ronahiya sor di gelek wêneyan de nîşan bide da ku komputer fêr bibe ku ronahiya sor nîşanek rawestandinê ye.
Li ser bingeha vê yekê, AI algorîtmayek pêş dixe ku, di her rewşê de, dê ronahiya sor wekî nîşanek rawestanê şîrove bike. Nîşanek din ev e ku meriv daneyên cihêreng di bin sernavên jazz, pop, rock, klasîk û hêj bêtir kategorîze bike da ku celebên muzîkê yên cihêreng veqetîne.
Ji bo ku bi hêsanî were gotin, nîşankirina daneyê di fêrbûna makîneyê de pêvajoya tespîtkirina daneya bê etîket (wek wêne, pelên nivîsê, vîdyoy, hwd.) û lê zêdekirina yek an çend etîketên têkildar ji bo pêşkêşkirina çarçoweyê vedibêje da ku modelek fêrbûna makîneyê dikare jê fêr bibe. ew.
Etîket dikarin bibêjin, bo nimûne, ger rontgen tumorek nîşan dide an na, kîjan peyv di klîbek dengî de hatine gotin, an wêneyek çûkek an otomobîlek heye.
Etîketkirina daneyan ji bo gelek rewşên karanîna, di nav de naskirina axaftinê, pêdivî ye, vîzyona computer, û pêvajoya zimanê xwezayî.
Nîşankirina daneyan: Çima girîng e?
Ya yekem, şoreşa pîşesaziyê ya çaremîn li ser jêhatîbûna makîneyên perwerdehiyê ye. Wekî encamek, ew di nav pêşkeftinên nermalava herî girîng ên heyî de cih digire.
Pêdivî ye ku pergala weya fêrbûna makîneyê were afirandin, ku tê de nîşankirina daneyê heye. Ew kapasîteyên pergalê destnîşan dike. Ger daneyan neyên nîşankirin sîstemek tune.
Derfetên bi nîşankirina daneyê tenê ji hêla afirîneriya we ve têne sînorkirin. Her kiryarek ku hûn dikarin di pergalê de nexşeyê bikin dê bi agahdariya nû dubare bibe.
Wateya ku celeb, hejmar û cihêrengiya daneyên ku hûn dikarin pergalê hîn bikin dê hişmendî û kapasîteya wê diyar bike.
Ya duyemîn ev e ku xebata nîşankirina daneyan berî xebata zanistiya daneyê tê. Li gorî vê yekê, nîşankirina daneyan ji bo zanistiya daneyê pêdivî ye. Di etîketkirina daneyan de têkçûn û xeletî bandorê li zanista daneyê dike. Wekî din, ji bo karanîna klîşeyek xavtir, "çopê, çopê derxin."
Sêyemîn, Hunera Nîşankirina Daneyê guhertinek di awayê ku mirov li pêşkeftina pergalên AI-ê nêzîk dibin destnîşan dike. Em di heman demê de strukturên nîşankirina daneyê safî dikin da ku çêtir bigihîjin armancên xwe û ne ku tenê hewl bidin ku teknîkên matematîkî zêde bikin.
Otomasyona nûjen li ser vê bingehê ye, û ew navenda Veguheztina AI-yê ye ku niha tê meşandin. Niha ji her demê bêhtir karê zanînê tê mekanîzekirin.
Etîketkirina daneyan çawa dixebite?
Di pêvajoya nîşankirina daneyan de rêza kronolojîk a jêrîn tê şopandin.
Komkirina daneyan
Dane kevirê bingehîn a her hewildana fêrbûna makîneyê ye. Qonaxa destpêkê di nîşankirina daneyan de ji berhevkirina mîqdara guncan a daneyên xav di formên cihêreng de pêk tê.
Komkirina daneyan dikare yek ji du awayan bigire: an ew ji çavkaniyên hundurîn ên ku karsazî bikar aniye tê, an jî ew ji çavkaniyên derveyî yên gihîştî yên gelemperî tê.
Ji ber ku ew di forma xav de ye, berî ku etîketên databas werin çêkirin pêdivî ye ku ev dane were paqij kirin û pêvajo kirin. Dûv re model bi karanîna vê daneya paqijkirî û pêş-pêvajokirî tê perwerde kirin. Vedîtin dê her ku mezin û cihêreng berhevoka daneyê rasttir bin.
Daneyên şîrovekirinê
Li dû paqijkirina daneyan, pisporên domainê daneyan lêkolîn dikin û bi karanîna gelek teknîkên nîşankirina daneyê ve etîketan bicîh dikin. Model xwedî çarçoveyek watedar e ku dikare wekî rastiya zemîn were bikar anîn.
Ev guhêrbarên ku hûn dixwazin model pêşbînî bike, wek wêne.
Piştrastkirina kalîteyê
Qalîteya daneyê, ku divê pêbawer, rast û hevgirtî be, ji bo serkeftina perwerdehiya modela ML-ê pir girîng e. Pêdivî ye ku ceribandinên QA-ya birêkûpêk bêne bicîh kirin da ku van nîşankirina daneya rast û rast garantî bikin.
Bi karanîna teknolojiyên QA yên mîna Testa Consensus û alpha ya Cronbach re meriv dikare rastbûna van şîroveyan binirxîne. Rastiya encaman ji hêla vekolînên rûtîn ên QA ve bi girîngî çêtir dibe.
Modelên perwerdehî û ceribandinê
Pêvajoyên jorîn tenê dema ku dane ji bo rastbûnê têne kontrol kirin watedar dibin. Teknîkî dê bi tevlêkirina databasa nesazkirî were ceribandin da ku were kontrol kirin ka ew encamên xwestî bidest dixe.
Stratejiyên nîşankirina daneyan
Etîketkirina daneyan pêvajoyek kedkar e ku bala xwe dide hûrguliyan. Rêbaza ku ji bo şîrovekirina daneyan tê bikar anîn dê li gorî daxuyaniya pirsgirêkê, çiqas daneya ku divê were nîşankirin, daneyên çiqas tevlihev e, û şêwazê ve girêdayî be.
Werin em hin vebijarkên ku karsaziya we hene, li gorî çavkaniyên wê û dema ku ew berdest heye, derbas bikin.
Etîketkirina daneyan di hundurê malê de
Wekî ku ji navê xwe diyar dike, nîşankirina daneya hundurîn ji hêla pisporên pargîdaniyek ve tê kirin. Dema ku we dem, karmend û çavkaniyên darayî têr hebe, ew vebijarka çêtirîn e ji ber ku ew nîşankirina herî rast piştrast dike. Lêbelê, ew hêdî hêdî dimeşe.
taşerontiyê
Vebijarkek din a ji bo pêkanîna tiştan ev e ku merivên serbixwe ji bo karên nîşankirina daneyê yên ku dikarin li cîhêreng ên li cîhê lêgerîna kar û bazarên serbixwe yên mîna Upwork werin kifş kirin, bikirin.
Jêdervekirin vebijarkek bilez e ku meriv karûbarên nîşankirina daneyê werbigire, lêbelê, qalîteyê dikare zirarê bibîne, mîna rêbaza berê.
Crowdsourcing
Hûn dikarin wekî daxwazkar têkevinê û karên cûrbecûr nîşankirinê li peykerên berdest ên li ser platformên girseyî yên pispor ên mîna Mekrokîkî Mîkrok Tirk (MTturk).
Rêbaz, her çend hinekî bilez û erzan be jî, nikare daneyên şîrovekirî yên bi kalîte peyda bike.
Etîketkirina daneyan bixweber.
Pêvajo dikare ji hêla nermalavê ve ji bilî ku bi destan were meşandin jî were arîkar kirin. Bi karanîna nêzîkatiya fêrbûna çalak, etîket dikarin bixweber werin dîtin û li daneya perwerdehiyê werin zêdekirin.
Di eslê xwe de, pisporên mirovî modelek AI-Etîketa Auto-yê pêşdixin da ku daneyên nenavkirî, xav nîşan bidin. Dûv re ew biryar didin ka gelo modela bi guncan etîketkirinê bicîh kiriye. Mirov piştî têkçûnê xeletiyan rast dikin û algorîtmayê ji nû ve perwerde dikin.
Pêşveçûna daneyên sentetîk.
Li şûna daneyên cîhana rastîn, daneyên sentetîk danehevek bi etîket e ku bi awayekî sûnî hatiye çêkirin. Ew ji hêla algorîtmayan an simulasyonên komputerê ve têne hilberandin û pir caran tê bikar anîn modelên fêrbûna makîneyê perwerde bikin.
Daneyên sentetîk ji bo pirsgirêkên kêmbûn û cûrbecûr daneyan di çarçoweya prosedurên nîşankirinê de bersivek hêja ye. Afirandina daneyên sentetîk ji sifirê çareseriyê pêşkêş dike.
Afirandina mîhengên 3D bi hêmanan û derdora modelê re pêdivî ye ku ji hêla pêşdebirên databasê ve were naskirin. Bi qasî ku ji bo projeyê hewce ye daneyên sentetîk dikarin werin pêşkêş kirin.
Zehmetiyên Etîketkirina Daneyên
Zêdetir dem û hewldan hewce dike
Digel ku girtina jimarek mezin a daneyan dijwar e (bi taybetî ji bo pîşesaziyên pir pispor ên mîna lênihêrîna tenduristiyê), nîşankirina her perçeyek daneyê bi destan hem kedkar û hem jî kedkar e, hewcedariya arîkariya nîşankerên mirovî heye.
Nêzîkî 80% ji dema ku li ser projeyek di tevahiya çerxa pêşkeftina ML-yê de derbas dibe, ji bo amadekirina daneyê, ku tê de nîşankirinê jî heye, derbas dibe.
Îhtîmala nerazîbûnê
Pir caran, nîşankirina xaçê, ya ku dema ku gelek kes heman berhevokên daneyan binav dikin, diqewime, di rastbûna mezintir de encam dide.
Lêbelê, ji ber ku kes carinan xwedan dereceyên cihêreng ên jêhatî ne, standardên etîketkirinê û etîket bi xwe dikarin nehevgirtî bin, ev jî mijarek din e, mimkun e ku du an bêtir şîroveker li ser hin etîketan li hev nekin.
Mînakî, pisporek dikare vekolînek otêlê wekî xweş binirxîne dema ku yekî din wê wekî sarkastîk bihesibîne û jê re nirxek nizm bide.
zanîna domain
Hûn ê hewcedariyê hîs bikin ku ji bo hin sektoran etîketkerên xwedan zanîna pîşesaziyê ya pispor bistînin.
Mînakî, annotator bêyî zanîna domainê ya pêwîst, dema ku ji bo sektora lênihêrîna tenduristî serîlêdanek ML-yê diafirînin, dê demek pir dijwar hebe ku bi guncan etîketan bikin.
Meyldariya ji bo xeletiyan
Etîketkirina destan bi xeletiyên mirovî ve girêdayî ye, bêyî ku etîketerên we çiqasî zana û baldar bin. Ji ber vê yekê ku annotator bi gelemperî bi komên daneya xav a mezin re dixebitin, ev neçar e.
Bifikirin ku kesek 100,000 wêneyan bi qasî 10 tiştên cûda şîrove dike.
Cûreyên hevpar ên nîşankirina daneyan
Vision Computer
Ji bo pêşdebirina databasa xweya perwerdehiyê, divê hûn pêşî wêne, pîxel, an deqên sereke binav bikin, an sînorek ku bi tevahî wêneyek dîjîtal, ku wekî qutiyek sînor tê zanîn, dema ku pergalek dîtina komputerê ava dikin, saz bikin.
Wêne dikarin bi awayên cûrbecûr werin kategorîze kirin, di nav de ji hêla naverokê (ya ku bi rastî di wêneyê de ye) û kalîteyê (wek hilber û wêneyên şêwaza jiyanê).
Wêneyên di asta pixelê de jî dikarin di beşan de bêne dabeş kirin. Modela dîtina komputerê ya ku bi karanîna van daneyên perwerdehiyê hatî pêşve xistin dikare paşê were bikar anîn da ku bixweber wêneyan dabeş bike, cîhê tiştan diyar bike, deverên sereke di wêneyekê de ronî bike, û wêneyan perçe bike.
Prosesa Zimanê Zimanzayî
Berî ku hûn databasa perwerdehiya hilberandina zimanê xweya xwezayî hilberînin, divê hûn bi destan perçeyên nivîsê yên têkildar hilbijêrin an materyalê bi etîketên diyarkirî dabeş bikin.
Mînakî, hûn dikarin şêwazên axaftinê nas bikin, navdêrên xwerû yên wekî cîh û mirovan dabeş bikin, û nivîsê di wêne, PDF, an medyayên din de nas bikin. Di heman demê de dibe ku hûn bixwazin hest an mebesta bertekek nivîsê diyar bikin.
Ji bo ku hûn vê yekê pêk bînin, li dora nivîsê qutiyên sînordar biafirînin, û dûv re bi desta wê veguherînin.
Naskirina karaktera optîkî, Nasnameya navê yekîtiyê, û analîza hestê hemî bi karanîna modelên pêvajoya zimanê xwezayî têne kirin.
Pêvajoya Audio
Pêvajoya dengî hemî cûreyên dengan vediguhezîne formek birêkûpêk da ku ew di fêrbûna makîneyê de bêne bikar anîn, di nav de axaftin, dengê heywanan (bar, bilbil, an çirp), û dengên avahiyê (camên şikestî, şopandin, an sîren).
Pir caran, berî ku hûn dengbêjiyê bi dest bixin, divê hûn bi desta wê veguherînin nivîsê. Dûv re, bi kategorîzekirin û lê zêdekirina etîketan li deng, hûn dikarin di derheqê wê de agahdariya kûrtir fêr bibin. Ya te databasa perwerdehiyê ev dengê nepenî ye.
Xelasî
Di encamê de, naskirina daneyên we beşek girîng a perwerdehiya her modelek AI-ê ye. Rêxistinek bilez, lêbelê, bi hêsanî nikare wextê xwe bi kirina wê bi destan xerc bike ji ber ku ew dem dixwe û enerjî-dijwar e.
Wekî din, ew pêvajoyek e ku meyla nerastiyê ye û soza rastbûna mezin nade. Ne hewce ye ku ew qas dijwar be, ku nûçeyek hêja ye.
Teknolojiyên nîşankirina daneya îroyîn di navbera mirov û makîneyan de hevkariyê dike ku ji bo cûrbecûr serîlêdanên fêrbûna makîneyê daneyên rastîn û bikêr peyda bike.
Leave a Reply