Deep Learning erabiliz objektuak detektatzeko gida integrala

Inoiz harritu al zaitu zure telefonoaren kamerak talde-argazki batean aurpegiak ezagutzeko duen gaitasunak?

Agian harritu egin zaitu norberak gidatzen diren autoek trafikoa nola nabigatzen duten, oinezkoak eta beste ibilgailuak zehaztasun ikaragarriz identifikatuz.

Itxuraz naturaz gaindiko lorpen hauek objektuen detekzioari esker lortzen dira, ikerketa-gai liluragarri bat. Besterik gabe, objektuen detekzioa argazkien edo bideoen barruan objektuen identifikazioa eta lokalizazioa da.

Ordenagailuek inguruko mundua “ikusi” eta ulertzeko aukera ematen dien teknologia da.

Baina nola funtzionatzen du prozedura ikaragarri honek? Hori ikusten ari gara ikaskuntza sakona dauka objektuen identifikazioaren arloa irauli zuen. Gure eguneroko bizitzan eragin zuzena duten aplikazio sorta baterako bidea irekitzen ari da.

Argitalpen honetan, ikaskuntza sakonean oinarritutako objektuen identifikazioaren eremu liluragarritik joango gara, teknologiarekin elkarreragiteko modua birmoldatzeko ahalmena duen ikasiz.

Zer da zehazki objektuen detekzioa?

Gehienetako bat oinarrizko ordenagailu bidezko ikusmena zereginak objektuen detekzioa da, irudi edo bideo batean hainbat elementu aurkitu eta kokatzea dakar.

Irudien sailkapenarekin alderatuz gero, non objektu bakoitzaren klase etiketa zehazten den, objektuen detekzioak urrats bat gehiago egiten du objektu bakoitzaren presentzia identifikatzen ez ezik, bakoitzaren inguruan muga-koadroak marraztuz.

Ondorioz, aldi berean interesgarri diren objektu motak identifikatu eta zehatz-mehatz kokatzea.

Objektuak detektatzeko gaitasuna funtsezkoa da aplikazio askotan, besteak beste gidaritza autonomoa, zaintza, aurpegien ezagupena eta irudi medikoak.

Erronka zail honi zehaztasun eta denbora errealeko errendimendu bikainez kudeatzeko, ikaskuntza sakonean oinarritutako teknikek objektuen detekzioa eraldatu dute.

Duela gutxi, ikasketa sakona zailtasun horiek gainditzeko estrategia indartsu gisa agertu da, objektuak ezagutzeko industria aldatuz.

R-CNN familia eta YOLO familia dira artikulu honetan aztertuko diren objektuen identifikazioan ereduzko bi familia ezagun.

R-CNN Familia: Objektuen Detekzio Aitzindaria

Objektuak ezagutzeko lehen ikerketek aurrerapen handiak izan zituzten R-CNN familiari esker, R-CNN, Fast R-CNN eta Faster R-CNN barne hartzen dituena.

Bere hiru moduluko arkitekturarekin, R-CNN-k proposatutako eskualdeek CNN bat erabiltzen zuten ezaugarriak ateratzeko, eta objektuak sailkatu zituzten SVM linealak erabiliz.

R-CNN zuzena zen, nahiz eta denbora behar izan eskualde hautagaien eskaintzak behar zirelako. Fast R-CNN-ek landu zuen, eta eraginkortasuna areagotu zuen modulu guztiak eredu bakarrean batuz.

Prestakuntzan zehar eskualde-proposamenak sortu eta hobetu zituen Region Proposal Network (RPN) gehituta, R-CNN azkarragoak errendimendua nabarmen hobetu zuen eta ia denbora errealeko objektuen ezagutza lortu zuen.

R-CNNtik R-CNN azkarragora

R-CNN familia, "Region-Based Sare neuronal konboluzionalak” objektuen detekzioan aurrerapen aitzindaria izan da.

Familia honek R-CNN, Fast R-CNN eta Faster R-CNN barne hartzen ditu, eta horiek guztiak objektuak lokalizatzeko eta ezagutzeko zereginei aurre egiteko diseinatuta daude.

Jatorrizko R-CNN, 2014an aurkeztua, objektuak detektatzeko eta lokalizatzeko sare neuronal konbolutiboen erabilera arrakastatsua frogatu zuen.

Hiru urratseko estrategia bat hartu zuen, eskualdearen iradokizuna, CNN batekin ezaugarriak ateratzea eta objektuen sailkapena Euskarri Bektorial Makina linealarekin (SVM) sailkatzaileekin.

2015ean Fast R-CNN abian jarri ondoren, abiadura-arazoak eskualde-proposamena eta sailkapena eredu bakarrean konbinatuz konpondu ziren, prestakuntza- eta inferentzia-denbora nabarmen murriztuz.

R-CNN azkarragoak, 2016an kaleratutakoak, abiadura eta zehaztasuna hobetu zituen eskualdeko proposamen sare bat (RPN) sartuz prestakuntzan zehar eremuak azkar proposatzeko eta berrikusteko.

Ondorioz, Faster R-CNN objektuak detektatzeko zereginetarako algoritmo nagusietako bat bezala ezarri da.

SVM sailkatzaileak sartzea funtsezkoa izan zen R-CNN familiaren arrakastarako, ordenagailu bidezko ikusmenaren eremua aldatuz eta ikaskuntza sakonean oinarritutako objektuen detekzioan etorkizuneko lorpenetarako bidea ezarriz.

Indarrak:

Lokalizazio handiko objektuak hautemateko zehaztasun handia.
Zehaztasuna eta eraginkortasuna R-CNN azkarragoaren diseinu bateratuaren bidez orekatzen dira.

ahuleziak:

R-CNN eta Fast R-CNN-ekin inferentzia nahiko neketsua izan daiteke.
R-CNN azkarragoak bere onenean funtziona dezan, eskualdeko proposamen asko beharrezkoak izan daitezke oraindik.

YOLO Familia: Objektuen detekzioa denbora errealean

YOLO familiak, "You Only Look Once" kontzeptuan oinarrituta, denbora errealeko objektuen aitorpena azpimarratzen du, zehaztasuna sakrifikatu bitartean.

Jatorrizko YOLO ereduak muga-koadroak eta klase etiketak zuzenean iragartzen zituen neurona-sare bakar batez osatuta zegoen.

Iragarpen zehaztasun txikiagoa izan arren, YOLOk segundoko 155 fotograma arteko abiaduran funtziona dezake. YOLOv2, YOLO9000 izenez ere ezaguna, jatorrizko ereduaren gabezia batzuei aurre egin zien 9,000 objektu-klase aurreikusten eta aingura-kutxak barne iragarpen sendoagoetarako.

YOLOv3 are gehiago hobetu da, ezaugarri detektagailu sare zabalago batekin.

YOLO familiaren barne funtzionamendua

YOLO (You Only Look Once) familiako objektuak identifikatzeko ereduak ordenagailu ikusmenean lorpen nabarmen gisa sortu dira.

YOLO, 2015ean aurkeztu zena, abiadura eta denbora errealeko objektuen identifikazioa lehenesten ditu muga-koadroak eta klaseen etiketak zuzenean aurreikusiz.

Zehaztasun pixka bat sakrifikatzen den arren, argazkiak denbora errealean aztertzen ditu, eta denbora kritikoen aplikazioetarako erabilgarria da.

YOLOv2-k aingura-kutxak sartu zituen hainbat elementu-eskalei aurre egiteko eta datu-multzo ugaritan trebatu zen 9,000 objektu-klase baino gehiago aurreikusteko.

2018an, YOLOv3-k are gehiago areagotu zuen familia ezaugarri detektagailu sare sakonago batekin, zehaztasuna hobetuz errendimenduari uko egin gabe.

YOLO familiak muga-koadroak, klase probabilitateak eta objektutasunaren puntuazioak aurreikusten ditu irudia sareta batean banatuz. Abiadura eta zehaztasuna modu eraginkorrean nahasten ditu, eta horretarako moldagarria da ibilgailu autonomoak, zaintza, osasungintza eta beste arlo batzuk.

YOLO serieak objektuen identifikazioa eraldatu du denbora errealeko soluzioak eskainiz, zehaztasun handirik uko egin gabe.

YOLOtik YOLOv2 eta YOLOv3ra, familia honek aurrerapen handiak egin ditu industrietan objektuen ezagupena hobetzeko, ikaskuntza sakonean oinarritutako objektuak detektatzeko sistema modernoetarako estandarra ezarriz.

Indarrak:

Objektuak denbora errealean detektatzea fotograma-tasa handietan.
Muga-koadroen iragarpenen egonkortasuna YOLOv2 eta YOLOv3-n sartzen da.

ahuleziak:

YOLO modeloek zehaztasun pixka bat eman dezakete abiaduraren truke.

Familia ereduen konparaketa: zehaztasuna vs eraginkortasuna

R-CNN eta YOLO familiak alderatzen direnean, argi dago zehaztasuna eta eraginkortasuna ordain garrantzitsuak direla. R-CNN familiako modeloak zehaztasunean nabarmentzen dira, baina inferentzian motelagoak dira hiru moduluko arkitektura dela eta.

YOLO familiak, berriz, denbora errealeko errendimendua lehenesten du, abiadura bikaina eskainiz zehaztasuna galduz. Eredu-familia horien arteko erabakia eskaeraren baldintza zehatzen arabera zehazten da.

R-CNN familia-ereduak hobeak izan daitezke muturreko zehaztasuna behar duten lan-kargak egiteko, eta YOLO familia-ereduak denbora errealeko aplikazioetarako egokiak dira.

Beyond Object Recognition: mundu errealeko aplikazioak

Objektuen antzemateko zeregin estandarretik haratago, ikaskuntza sakonean oinarritutako objektuen detekzioak erabilera ugari aurkitu ditu.

Bere moldagarritasunak eta zehaztasunak aukera berriak sortu ditu hainbat sektoretan, erronka korapilatsuei aurre eginez eta negozioak eraldatuz.

Ibilgailu autonomoak: Gidatze segururako estandarra ezartzea

Objektuak hautematea funtsezkoa da auto autonomoetan nabigazio segurua eta fidagarria bermatzeko.

Ikaskuntza sakoneko ereduak gidatzeko sistema autonomoetarako informazio kritikoa eskaintzea, oinezkoak, txirrindulariak, beste auto batzuk eta bideko arrisku posibleak ezagutuz eta lokalizatuz.

Eredu hauei esker, ibilgailuek denbora errealean aukerak hartzeko eta talkak saihesteko aukera ematen diete, norberak gidatzen dituzten autoak giza gidariekin elkarbizitzen dituen etorkizun batera hurbiltzen gaituzte.

Txikizkako Industrian eraginkortasuna eta segurtasuna areagotzea

Txikizkako negozioak ikaskuntza sakonean oinarritutako objektuen detekzioa hartu du bere eragiketak asko hobetzeko.

Objektuak detektatzeak dendako apaletan produktuak identifikatzen eta segimenduan laguntzen du, birsorkuntza eraginkorragoa egiteko eta stock-agortze egoerak murrizteko aukera ematen du.

Gainera, objektuak detektatzeko algoritmoz hornitutako zaintza-sistemek lapurretaren prebentzioan eta dendaren segurtasuna mantentzen laguntzen dute.

Irudi Medikoen Aurrerapena Osasungintzan

Ikaskuntza sakonean oinarritutako objektuen detekzioa ezinbesteko tresna bihurtu da osasun-sektoreko irudi medikoetan.

Osasun arloko profesionalei laguntzen die X izpietan, MRI eskaneetan eta beste irudi medikoetan anomaliak antzematen, hala nola minbiziak edo malformazioak.

Objektuak identifikatzeak diagnostiko goiztiarra eta tratamendua planifikatzen laguntzen du, kezkak diren toki zehatzak identifikatuz eta nabarmenduz.

Segurtasuna hobetzea Segurtasunaren eta Zaintzaren bidez

Objektuak hautematea oso erabilgarria izan daiteke segurtasun eta zaintza aplikazioetan.

Ikaskuntza sakoneko algoritmoak lagundu jendetza ikusten, jokabide susmagarriak identifikatuz eta toki publikoetan, aireportuetan eta garraio guneetan izan daitezkeen arriskuak detektatuz.

Sistema hauek segurtasun-profesionalei denbora errealean ohartarazi diezaiekete bideo-jarioak etengabe ebaluatuz, segurtasun-hausteak saihestuz eta segurtasun publikoa bermatuz.

Gaur egungo oztopoak eta etorkizuneko aurreikuspenak

Ikaskuntza sakonean oinarritutako objektuen detekzioan aurrerapen garrantzitsuak izan diren arren, arazoak izaten jarraitzen dute. Datuen pribatutasuna kezka larria da, objektuak hautemateak maiz informazio sentikorra kudeatzea baitakar.

Funtsezko beste arazo bat aurkarien erasoen aurrean erresilientzia bermatzea da.

Ikertzaileak ereduaren orokortzea eta interpretagarritasuna areagotzeko moduak bilatzen ari dira oraindik.

Objektu anitzeko identifikazioan, bideo-objektuen jarraipenean eta denbora errealean 3D objektuen ezagupenean oinarritzen diren ikerketak, etorkizuna argia dirudi.

Laster irtenbide are zehatzagoak eta eraginkorragoak espero beharko genituzke, ikaskuntza sakoneko ereduak hazten jarraitzen duten heinean.

Ondorioa

Ikaskuntza sakonak objektuen detekzioa eraldatu du, zehaztasun eta eraginkortasun handiagoko aroari hasiera emanez. R-CNN eta YOLO familiek eginkizun garrantzitsuak izan dituzte, bakoitzak aplikazio jakin batzuetarako gaitasun desberdinak ditu.

Ikaskuntza sakonean oinarritutako objektuen identifikazioak sektoreak iraultzen ari da eta segurtasuna eta eraginkortasuna hobetzen ari da, ibilgailu autonomoetatik hasi eta osasungintzaraino.

Objektuen detekzioaren etorkizuna inoiz baino distiratsuagoa agertzen da ikerketak aurrera egin ahala, zailtasunei aurre eginez eta eremu berriak esploratuz.

Ordenagailu bidezko ikusmenean aro berri baten sorrera ikusten ari gara, ikaskuntza sakonaren indarra hartzen ari garen heinean, objektuen detekzioa bideratzen duelarik.

Ikaskuntza sakonean oinarritutako objektuen detekzioa 1