Edukien aurkibidea[Ezkutatu][Erakutsi]
Askok adimen artifiziala, ikaskuntza sakona eta ikaskuntza automatikoa terminoak entzuten dituztenean gizakien adimena imitatzen duten edo are gainditzen duten zientzia-fikziozko filmetako robotak ikusten dituzte.
Beste batzuen ustez, gailu hauek informazioa hartzen eta bertatik ikasten dute beren kabuz. Beno... Pixka bat engainagarria da. Datuen etiketatzea ordenagailuak "adimentsu" bihurtzeko erabiltzen den metodoa da, giza instrukziorik gabe gaitasun mugatuak baitituzte.
Ordenagailua "adimentsu" jarduteko trebatzeko, datuak hainbat formatan sartzen ditugu eta hainbat estrategia irakasten dizkiogu datuak etiketatzearen laguntzaz.
Datu-multzoak oharrak edo etiketatuak izan behar dira informazio beraren permutazio ugarirekin, datuen etiketatzearen oinarrian dagoen zientziaren zati gisa.
Azken produktuan egindako esfortzua eta dedikazioa laudagarriak dira, nahiz eta harritu eta gure eguneroko bizitza errazten duen.
Ikasi datuen etiketatzeari buruz artikulu honetan zer den, nola funtzionatzen duen, datuen etiketatze mota desberdinak, oztopoak eta askoz gehiago jakiteko.
Beraz, zer da Datuen Etiketatzea?
In makina ikaskuntza, sarrerako datuen kalibreak eta izaerak agintzen dute irteeraren kalibrea eta izaera. Zure AI ereduaren zehaztasuna trebatzeko erabiltzen diren datuen kalibreak hobetzen du.
Bestela esanda, datuen etiketatzea egituratu gabeko edo egituratutako datu multzo desberdinak etiketatu edo ohartarazi behar dira, ordenagailu bati haien arteko ezberdintasunak eta ereduak identifikatzen irakasteko.
Ilustrazio batek hau ulertzen lagunduko dizu. Beharrezkoa da hainbat iruditan argi gorri bakoitza etiketatzea ordenagailuak argi gorria gelditzeko seinale dela ikasteko.
Hori oinarritzat hartuta, AIk algoritmo bat garatzen du, egoera guztietan argi gorri bat gelditzeko seinale gisa interpretatuko duena. Beste ilustrazio bat jazz, pop, rock, klasikoa eta beste hainbat datu multzo sailkatzeko gaitasuna da, musika genero desberdinak bereizteko.
Besterik gabe, ikaskuntza automatikoko datuen etiketatzeak etiketarik gabeko datuak detektatzeko prozesuari (adibidez, argazkiak, testu-fitxategiak, bideoak, etab.) eta etiketa garrantzitsu bat edo gehiago gehitzeari egiten dio erreferentzia testuingurua eskaintzeko, ikaskuntza automatikoko eredu batek ikas dezan. hura.
Etiketak esan lezake, esate baterako, erradiografia batek tumore bat erakusten duen ala ez, zein hitz esan ziren audio-klip batean, edo txori edo automobil baten irudia.
Datuen etiketatzea ezinbestekoa da erabilera-kasu batzuetarako, besteak beste, ahots-ezagutzarako, Ikusmen informatikoa, eta hizkuntza naturalaren prozesamendua.
Datuen etiketatzea: zergatik da garrantzitsua?
Lehenik eta behin, laugarren industria-iraultza trebakuntza-makinen trebetasunean oinarritzen da. Ondorioz, gaur egungo softwarearen aurrerapen esanguratsuenen artean kokatzen da.
Zure ikaskuntza automatikoko sistema sortu behar da, eta horrek datuak etiketatzea dakar. Sistemaren gaitasunak ezartzen ditu. Ez dago sistemarik datuak etiketatuta ez badaude.
Datuen etiketatzearen aukerak zure sormenak soilik mugatzen ditu. Sisteman mapa dezakezun edozein ekintza errepikatuko da informazio berriarekin.
Horrek esan nahi du sistemari irakatsi diezaiokezun datu motak, kantitateak eta aniztasunak bere adimena eta gaitasuna zehaztuko duela.
Bigarrena da datuen etiketatze lana datu zientzien lanaren aurretik datorrela. Horren arabera, datuen etiketatzea beharrezkoa da datuen zientziarako. Datuen etiketatzean hutsegiteak eta akatsek datuen zientziari eragiten diote. Bestela, topiko gordinago bat erabiltzea, "zaborra sartu, zaborra bota".
Hirugarrenik, The Art of Data Labeling jendeak AI sistemen garapena nola jorratzen duen aldaketa adierazten du. Aldi berean, datuen etiketatzearen egitura hobetzen dugu gure helburuak hobeto betetzeko, teknika matematikoak hobetzen saiatu beharrean.
Automatizazio modernoa horretan oinarritzen da, eta gaur egun martxan dagoen AI Eraldaketaren erdigunea da. Orain inoiz baino gehiago, ezagutza lana mekanizatzen ari da.
Nola funtzionatzen du datuen etiketatzeak?
Datuak etiketatzeko prozeduran hurrengo ordena kronologikoa betetzen da.
Datu bilketa
Datuak ikaskuntza automatikoko edozein ahaleginen oinarria dira. Datuen etiketatzearen hasierako fasea forma ezberdinetan datu gordina kopuru egokia biltzean datza.
Datu-bilketa bi eratako bat izan daiteke: edo negozioak erabiltzen ari den barne iturrietatik dator, edo publikoki eskuragarri dauden kanpoko iturrietatik dator.
Forma gordinean dagoenez, datu horiek garbitu eta prozesatu behar dira datu-multzoen etiketak egin aurretik. Ondoren, eredua prestatzen da garbitutako eta aurrez prozesatutako datu horiek erabiliz. Aurkikuntzak zehatzagoak izango dira zenbat eta datu multzo handiagoa eta anitzagoa izan.
Datuen oharrak egitea
Datuak garbitu ondoren, domeinuko adituek datuak aztertzen dituzte eta etiketak aplikatzen dituzte datuak etiketatzeko hainbat teknika erabiliz. Ereduak lurreko egia gisa erabil daitekeen testuinguru esanguratsua du.
Hauek dira ereduak iragartzea nahi dituzun aldagaiak, hala nola argazkiak.
Kalitatearen bermea
Datuen kalitatea, fidagarria, zehatza eta koherentea izan behar duena, funtsezkoa da ML ereduaren prestakuntzaren arrakastarako. Aldizkako QA probak ezarri behar dira datuen etiketatze zehatz eta zuzen horiek bermatzeko.
Anotazio horien zehaztasuna ebaluatu daiteke QA teknikak erabiliz, hala nola Consensus eta Cronbach-en alfa proba. Emaitzen zuzentasuna nabarmen hobetzen da QA ohiko ikuskapenekin.
Prestakuntza eta proba ereduak
Aipatutako prozedurek zentzua dute datuak zuzenak diren egiaztatzen badira. Teknika proban jarriko da egituratu gabeko datu multzoa sartuz, nahi diren emaitzak ematen dituen egiaztatzeko.
Datuak etiketatzeko estrategiak
Datuen etiketatze prozesu neketsua da, xehetasunetan arreta eskatzen duena. Datuak anotatzeko erabiltzen den metodoa aldatu egingo da arazoaren adierazpenaren, zenbat datu etiketatu behar diren, datuak zenbateraino diren konplikatuak eta estiloaren arabera.
Azter ditzagun zure negozioak dituen aukera batzuk, dituen baliabideen eta eskuragarri duen denboraren arabera.
Datuen etiketatzea barnean
Izenak dioen bezala, barneko datuen etiketatzea enpresa bateko adituek egiten dute. Denbora, langile eta baliabide ekonomiko nahikoa dituzunean, aukerarik onena da etiketatze zehatzena ziurtatzen baitu. Hala ere, poliki-poliki mugitzen da.
Outsourcing
Gauzak egiteko beste aukera bat da autonomoak kontratatzea datuen etiketatze zereginetarako, eta hainbat lan bila eta freelance merkatutan aurki daitezkeenak Upwork bezalakoak.
Outsourcing aukera azkar bat da datuak etiketatze zerbitzuak lortzeko, hala ere, kalitatea jasan dezake, aurreko metodoaren antzera.
crowdsourcing
Eskatzaile gisa saioa hasi eta etiketatze-lan ezberdinak banatu ditzakezu eskuragarri dauden kontratistak crowdsourcing plataforma espezializatuetan, esaterako. Amazoneko Turk mekanikoa (MTurk).
Metodoa, zertxobait azkarra eta merkea bada ere, ezin du kalitate oneko ohartariko datuak eman.
Datuak automatikoki etiketatzea.
Prozedura softwarearen laguntza izan daiteke eskuz egiteaz gain. Ikaskuntza aktiboaren ikuspegia erabiliz, etiketak automatikoki aurki daitezke eta prestakuntza-datu multzoan gehi daitezke.
Funtsean, giza espezialistek AI Auto-etiketa eredu bat garatzen dute etiketarik gabeko datu gordinak markatzeko. Orduan erabakitzen dute ereduak etiketa egokia aplikatu ala ez. Gizakiak hutsegite baten ondoren akatsak konpontzen ditu eta algoritmoa berriro trebatu.
Datu sintetikoak garatzea.
Mundu errealeko datuen ordez, datu sintetikoak artifizialki fabrikatutako datu-multzo etiketatua da. Algoritmoen edo ordenagailu bidezko simulazioen bidez sortzen da eta maiz erabiltzen da makina ikasteko ereduak trebatu.
Datu sintetikoak etiketatze prozeduren testuinguruan datu eskasiaren eta aniztasunaren arazoei erantzun bikaina da. -ren sorrera datu sintetikoak hutsetik irtenbide bat eskaintzen du.
Elementuekin eta ereduaren inguruan 3D ezarpenak sortzea datu-multzoen garatzaileek ezagutu ahal izan behar dute. Proiekturako behar adina datu sintetiko errenda daitezke.
Datuen etiketatzearen erronkak
Denbora eta esfortzu gehiago eskatzen du
Datu-kopuru handiak lortzeko erronka izateaz gain (batez ere osasungintza bezalako industria oso espezializatuetarako), datu bakoitza eskuz etiketatzea eskulan handia eta neketsua da, eta giza etiketatzaileen laguntza behar da.
ML garapenaren ziklo osoan proiektu batean ematen den denboraren ia % 80 datuen prestaketan ematen da, eta horrek etiketatzea barne hartzen du.
Inkoherentzia izateko aukera
Gehienetan, etiketa gurutzatuak, pertsona askok datu multzo berdinak etiketatzean gertatzen dena, zehaztasun handiagoa eragiten du.
Hala ere, norbanakoek batzuetan gaitasun maila desberdinak dituztenez, etiketatze estandarrak eta etiketak beraiek ez datoz bat, eta hori beste arazo bat da. Baliteke bi ohartzaile edo gehiago etiketa batzuetan ados ez egotea.
Adibidez, aditu batek hotelaren iritzia aldekotzat baloratu dezake, eta beste batek sarkastikoa dela eta balorazio baxua esleituko lioke.
Domeinuaren ezagutza
Sektore batzuetarako industria ezagutza espezializatua duten etiketatzaileak kontratatzeko beharra sentituko duzu.
Beharrezko domeinu-ezagutzarik ez duten komentarioek, adibidez, oso zaila izango dute elementuak behar bezala etiketatzea osasun-sektorerako ML aplikazioa sortzen duten bitartean.
Akatsetarako joera
Eskuzko etiketatzea giza akatsen menpe dago, zure etiketatzaileak zenbaterainoko ezagutza eta kontua izan arren. Izan ere, komentarioek maiz lan egiten duten datu gordinen multzo izugarriekin, hori saihestezina da.
Imajinatu pertsona bat 100,000 irudi komentatzen dituela 10 gauza ezberdinekin.
Datuen etiketatze mota arruntak
Computer Vision
Zure prestakuntza-datu-multzoa garatzeko, lehenik eta behin irudiak, pixelak edo puntu gakoak etiketatu behar dituzu, edo irudi digital bat guztiz biltzen duen muga ezarri behar duzu, muga-koadro gisa ezagutzen dena, ordenagailu bidezko ikusmen-sistema bat eraikitzean.
Argazkiak hainbat modutan sailka daitezke, besteak beste, edukiaren (irudian bertan dagoena) eta kalitatearen arabera (adibidez, produktuaren eta bizimoduaren planoak).
Irudiak ere segmentutan bana daitezke pixel mailan. Entrenamendu-datu hauek erabiliz garatutako ordenagailu bidezko ikusmen-eredua, ondoren, irudiak automatikoki sailkatzeko, objektuen kokapena zehazteko, irudi bateko funtsezko eremuak nabarmentzeko eta irudiak segmentatzeko erabil daiteke.
Hizkuntza naturala prozesatzea
Zure hizkuntza naturalaren prozesatzeko prestakuntzako datu-multzoa ekoitzi aurretik, eskuz aukeratu behar dituzu testu-zati garrantzitsuak edo materiala zehaztutako etiketarekin sailkatu.
Esate baterako, hizketa-ereduak ezagutu, lekuak eta pertsonak bezalako izen propioak sailkatu eta testuak irudietan, PDFetan edo beste euskarri batzuetan identifikatu nahi dituzu. Baliteke testu-laburpen baten sentimendua edo asmoa ere zehaztu nahi izatea.
Sortu muga-koadroak zure prestakuntza-datu-multzoko testuaren inguruan hori lortzeko, eta eskuz transkribatu.
Karaktereen ezagupen optikoa, entitate-izenen identifikazioa eta sentimenduen analisia hizkuntza naturalaren prozesatzeko ereduak erabiliz egiten dira.
Audio Prozesatzeko
Audio-prozesamenduak soinu mota guztiak formatu egituratu batean eraldatzen ditu, ikaskuntza automatikoan erabili ahal izateko, besteak beste, hizkera, animalien zaratak (zaunka, txistuak edo txirrinak) eta eraikinaren zaratak (beira hautsiak, eskaneatzea edo sirenak).
Askotan, audioa kudeatu aurretik, eskuz testu bihurtu behar duzu. Ondoren, audioari etiketak sailkatuz eta gehituz, horri buruzko informazio sakonagoa ikas dezakezu. Zure prestakuntza-datu multzoa audio sailkatua da.
Ondorioa
Amaitzeko, zure datuak identifikatzea edozein AI eredu entrenatzeko funtsezko zatia da. Erritmo bizkorra den erakunde batek, ordea, ezin du eskuz egiten denbora pasatzea, denbora asko eta energia asko gastatzen duelako.
Gainera, zehaztasunik eza izateko joera duen eta zehaztasun handirik agintzen ez duen prozedura da. Ez du zertan hain zaila izan, eta hori albiste bikaina da.
Gaur egungo datuak etiketatzeko teknologiek gizakien eta makinen arteko lankidetza ahalbidetzen dute, ikaskuntza automatikoko hainbat aplikaziotarako datu zehatzak eta erabilgarriak emateko.
Utzi erantzun bat