Zbulimi i objekteve është një lloj kategorizimi i imazheve në të cilin një rrjet nervor parashikon artikujt në një imazh dhe vizaton kuti kufizuese rreth tyre. Zbulimi dhe lokalizimi i gjërave në një imazh që përputhet me një grup të paracaktuar klasash quhet zbulimi i objekteve.
Zbulimi i objekteve (i njohur gjithashtu si njohja e objekteve) është një nënfushë veçanërisht domethënëse e Vizionit Kompjuterik sepse detyrat si zbulimi, identifikimi dhe lokalizimi gjejnë zbatim të gjerë në kontekstet e botës reale.
Qasja YOLO mund t'ju ndihmojë të bëni këto detyra. Në këtë ese, ne do të hedhim një vështrim më të afërt në YOLO, duke përfshirë atë që është, si funksionon, variacione të ndryshme dhe më shumë.
Pra, çfarë është YOLO?
YOLO është një metodë për identifikimin dhe njohjen e objekteve në kohë reale në fotografi. Është një akronim për You Only Look Once. Redmond et al. propozoi qasjen në një punim që u botua fillimisht në 2015 në Konferencën IEEE/CVF mbi Vizionin Kompjuterik dhe Njohjen e Modeleve (CVPR).
Gazetave iu dha çmimi OpenCV People's Choice Award. Ndryshe nga metodat e mëparshme të identifikimit të objekteve, të cilat i ripërdornin klasifikuesit për të bërë zbulimin, YOLO propozon përdorimin e një fundi në fund Rrjeti nervoz që parashikon kufizues kufizues dhe probabilitete të klasave njëkohësisht.
YOLO prodhon rezultate më të fundit duke marrë një qasje thelbësisht të re për njohjen e objekteve, duke tejkaluar lehtësisht metodat e mëparshme të zbulimit të objekteve në kohë reale.
YOLO punon
Metoda YOLO e ndan figurën në rrjeta N, secila me një sektor dimensional SxS me madhësi të barabartë. Secila prej këtyre rrjeteve N është përgjegjëse për zbulimin dhe lokalizimin e objektit që përmban.
Këto rrjete, nga ana tjetër, parashikojnë koordinatat e kutisë kufitare B në lidhje me koordinatat e qelizës, si dhe emrin e artikullit dhe gjasat që objekti të jetë i pranishëm në qelizë. Për shkak të shumë qelizave që parashikojnë të njëjtin artikull me parashikime të ndryshme kufizuese, kjo teknikë redukton ndjeshëm llogaritjen sepse si zbulimi ashtu edhe njohja trajtohen nga qelizat nga fotografia.
Megjithatë, ajo prodhon shumë parashikime të dyfishta. Për të adresuar këtë problem, YOLO përdor Shtypjen Jo Maksimale. YOLO shtyp të gjitha kutitë kufizuese me rezultate më të ulëta probabiliteti në shtypjen jo-maksimale.
YOLO e bën këtë duke ekzaminuar rezultatet e probabilitetit të lidhura me secilin opsion dhe duke zgjedhur atë me rezultatin më të lartë. Kutitë kufizuese me Kryqëzimin më të madh mbi Bashkimin me kutinë aktuale të kufirit me probabilitet të lartë më pas shtypen.
Ky proces vazhdon derisa të plotësohen kutitë kufizuese.
Variacione të ndryshme të YOLO
Ne do të shohim disa nga versionet më të zakonshme të YOLO. Le të fillojmë.
1. YOLOv1
Versioni fillestar YOLO u shpall në 2015 në botimin "Ju shikoni vetëm një herë: Zbulim i unifikuar, në kohë reale i objekteve” nga Joseph Redmon, Santosh Divvala, Ross Girshick dhe Ali Farhadi.
Për shkak të shpejtësisë, saktësisë dhe aftësisë së tij të të mësuarit, YOLO dominoi shpejt fushën e identifikimit të objekteve dhe u bë algoritmi më i përdorur. Në vend që të trajtonin zbulimin e objekteve si një çështje klasifikimi, autorët e trajtuan atë si një problem regresioni me kuti kufitare të ndara gjeografikisht dhe probabilitete klasash të lidhura, të cilat ata i zgjidhën duke përdorur një të vetme Rrjeti nervoz.
YOLOv1 përpunoi fotot me 45 korniza për sekondë në kohë reale, ndërsa një variant më i vogël, Fast YOLO, përpunohej me 155 korniza për sekondë dhe ende merrte dyfishin e mAP-it të detektorëve të tjerë në kohë reale.
2. YOLOv2
Një vit më vonë, në 2016, Joseph Redmon dhe Ali Farhadi publikuan YOLOv2 (i njohur gjithashtu si YOLO9000) në gazetën "YOLO9000: Më mirë, më e shpejtë, më e fortë".
Kapaciteti i modelit për të parashikuar edhe 9000 kategori të veçanta artikujsh ndërkohë që ende funksiononte në kohë reale i dha atij përcaktimin 9000. Versioni i ri i modelit jo vetëm që u trajnua njëkohësisht për zbulimin dhe klasifikimin e objekteve, por gjithashtu mori Darknet-19 si bazën e re model.
Për shkak se YOLOv2 ishte gjithashtu një sukses i madh dhe u bë shpejt modeli tjetër më i avancuar i njohjes së objekteve, inxhinierë të tjerë filluan të eksperimentojnë me algoritmin dhe të prodhojnë versionet e tyre unike të YOLO. Disa prej tyre do të diskutohen në pika të ndryshme të punimit.
3. YOLOv3
Në gazetën "YOLOv3: Një përmirësim në rritje”, Joseph Redmon dhe Ali Farhadi publikuan një version të ri të algoritmit në 2018. Ai u ndërtua në arkitekturën Darknet-53. Klasifikuesit e pavarur logjistikë zëvendësuan mekanizmin e aktivizimit softmax në YOLOv3.
Humbja binar e entropisë së kryqëzuar është përdorur gjatë stërvitjes. Darknet-19 u përmirësua dhe u riemërua Darknet-53, i cili tani ka 53 shtresa konvolucionale. Përveç kësaj, parashikimet u bënë në tre shkallë të dallueshme, të cilat ndihmuan YOLOv3 të rriste saktësinë e tij në parashikimin e gjërave të vogla.
YOLOv3 ishte versioni i fundit YOLO i Joseph Redmon, pasi ai zgjodhi të mos punonte në ndonjë përmirësim të mëtejshëm të YOLO (apo edhe në fushën e vizionit kompjuterik) në mënyrë që të shmangte që puna e tij të kishte një ndikim të dëmshëm në botë. Tani përdoret kryesisht si pikënisje për ndërtimin e arkitekturave unike të zbulimit të objekteve.
4. Yolov4
Alexey Bochkovskiy, Chien-Yao Wang dhe Hong-Yuan Mark Liao botuan "YOLOv4: Shpejtësia optimale dhe saktësia e zbulimit të objekteve” në prill 2020, që ishte përsëritja e katërt e algoritmit YOLO.
Lidhjet e mbetura të ponderuara, lidhjet e pjesshme ndër-fazore, normalizimi i mini-batch-it, trajnimi vetë-kundërshtar, aktivizimi i gabuar, bllokimi i rënies dhe humbja e CIoU u prezantuan të gjitha si pjesë e arkitekturës SPDarknet53.
YOLOv4 është një pasardhës i familjes YOLO, megjithatë, ai u zhvillua nga shkencëtarë të veçantë (jo Joseph Redmon dhe Ali Farhadi). SPDarknet53 shtylla kurrizore, bashkimi hapësinor i piramidës, grumbullimi i rrugës PANet si qafa dhe koka YOLOv3 përbëjnë arkitekturën e tij.
Si pasojë, kur krahasohet me atë mëmë, YOLOv3, YOLOv4 arrin 10% saktësi mesatare më të lartë dhe 12% më të mira metrikë Korniza për Sekondë.
5. YOLOv5
YOLOv5 është një projekt me burim të hapur që përfshin një sërë modelesh dhe algoritmesh të identifikimit të objekteve të bazuara në modelin YOLO që është trajnuar paraprakisht në grupin e të dhënave COCO.
YOLOv5 është një koleksion i modeleve të identifikimit të objekteve të përbëra të trajnuar në bazën e të dhënave COCO, me aftësi të lehta për TTA, montimin e modelit, zhvillimin e hiperparametrave dhe eksportin në ONNX, CoreML dhe TFLite. Për shkak se YOLOv5 nuk zbaton ose zhvillon ndonjë qasje unike, dokumenti zyrtar nuk mund të publikohej. Është thjesht zgjerimi PyTorch i YOLOv3.
Ultranytics përdori këtë skenar për të publikuar versionin "YOLO të ri" nën sponsorizimin e saj. Për shkak se ka edhe pesë modele të para-trajnuara të aksesueshme, faqja kryesore e YOLOv5 është mjaft e drejtpërdrejtë, e strukturuar dhe e shkruar në mënyrë profesionale, me një numër mësimesh dhe sugjerimesh për trajnimin dhe përdorimin e modeleve YOLOv5.
Kufizimet e YOLO
Edhe pse YOLO duket të jetë teknika më e madhe për zgjidhje zbulimi i objektit probleme, ka një numër të metash. Për shkak se çdo rrjet mund të identifikojë vetëm një artikull, YOLO ka vështirësi në zbulimin dhe ndarjen e gjërave të vogla në foto që shfaqen në grup. Gjërat e vogla në tufa, të tilla si një tufë milingonash, janë të vështira për YOLO për t'i identifikuar dhe gjetur.
Kur krahasohet me metodat dukshëm më të ngadalta të identifikimit të objekteve si Fast RCNN, YOLO karakterizohet gjithashtu nga saktësi më e vogël.
Filloni të përdorni YOLOv5
Nëse jeni të interesuar të shihni një YOLOv5 në veprim, shikoni GitHub zyrtar YOLOv5 në PyTorch.
Përfundim
Versioni fillestar i YOLOv5 është jashtëzakonisht i shpejtë, performues dhe i thjeshtë për t'u përdorur. Ndërsa YOLOv5 nuk shton ndonjë arkitekturë të re modeli në familjen YOLO, ai siguron një kornizë të re trajnimi dhe vendosjeje PyTorch që përmirëson gjendjen e artit për detektorët e objekteve.
Për më tepër, YOLOv5 është jashtëzakonisht i përshtatshëm për përdoruesit dhe vjen "nga kutia" i gatshëm për t'u përdorur në objekte me porosi.
Lini një Përgjigju