L-iskoperta tal-oġġetti hija tip ta 'kategorizzazzjoni tal-immaġni li fiha netwerk newrali jantiċipa l-oġġetti f'immaġni u jiġbed kaxxi tal-konfini madwarhom. Is-sejbien u l-lokalizzazzjoni ta' affarijiet f'immaġni li tikkonforma ma' sett ta' klassijiet issettjati minn qabel jissejħu skoperta ta' oġġetti.
Is-sejbien tal-oġġetti (magħruf ukoll bħala rikonoxximent tal-oġġetti) huwa subdominju partikolarment sinifikanti tal-Viżjoni tal-Kompjuter minħabba li kompiti bħall-iskoperta, l-identifikazzjoni u l-lokalizzazzjoni jsibu applikazzjoni wiesgħa f'kuntesti tad-dinja reali.
L-approċċ YOLO jista 'jgħinek tagħmel dawn il-kompiti. F'dan l-essay, aħna ser nagħtu ħarsa aktar mill-qrib lejn YOLO, inkluż x'inhu, kif jaħdem, varjazzjonijiet differenti, u aktar.
Allura, x'inhu YOLO?
YOLO huwa metodu għall-identifikazzjoni u r-rikonoxximent ta 'oġġetti f'ħin reali fir-ritratti. Huwa akronimu għal You Only Look Once. Redmond et al. ippropona l-approċċ f'dokument li ġie ppubblikat inizjalment fl-2015 fil-Konferenza IEEE/CVF dwar il-Viżjoni tal-Kompjuter u r-Rikonoxximent tal-Disinn (CVPR).
L-OpenCV People's Choice Award ingħata lill-karta. B'differenza mill-metodi preċedenti ta' identifikazzjoni ta' oġġetti, li kklassifikati mill-ġdid biex jagħmlu skoperta, YOLO jipproponi l-użu ta' tarf sa tarf. newrali netwerk li tbassar kaxxi tal-konfini u probabbiltajiet tal-klassi simultanjament.
YOLO jipproduċi riżultati mill-aktar avvanzati billi jieħu approċċ fundamentalment ġdid għar-rikonoxximent tal-oġġett, li faċilment jissupera l-metodi preċedenti ta 'skoperta ta' oġġetti f'ħin reali.
YOLO tax-xogħol
Il-metodu YOLO jaqsam l-istampa f'N grids, kull wieħed b'settur dimensjonali SxS ta' daqs ugwali. Kull waħda minn dawn il-grilji N hija inkarigata mill-iskoperta u l-lokalizzazzjoni tal-oġġett li fih.
Dawn il-gradilja, min-naħa tagħhom, ibassru l-koordinati tal-kaxxa tal-limiti B relattivi għall-koordinati taċ-ċelluli, kif ukoll l-isem tal-oġġett u l-probabbiltà li l-oġġett ikun preżenti fiċ-ċellula. Minħabba li ħafna ċelluli jbassru l-istess oġġett bi tbassir ta 'kaxxi tal-konfini varjati, din it-teknika tnaqqas konsiderevolment il-komputazzjoni minħabba li kemm is-sejbien kif ukoll ir-rikonoxximent huma mmaniġġjati minn ċelloli mill-istampa.
Madankollu, jipproduċi ħafna tbassir duplikat. Biex tindirizza din il-problema, YOLO timpjega Soppressjoni Mhux Massima. YOLO jrażżan il-kaxxi tal-konfini kollha b'punteġġi ta 'probabbiltà aktar baxxi f'Soppressjoni Mhux Massima.
YOLO tagħmel dan billi teżamina l-punteġġi tal-probabbiltà marbuta ma' kull għażla u tagħżel dik bl-ogħla punteġġ. Il-kaxxi tal-konfini bl-akbar Intersezzjoni fuq l-Unjoni bil-kaxxa tal-konfini attwali ta' probabbiltà għolja huma mbagħad imrażżna.
Dan il-proċess jitkompla sakemm jitlestew il-kaxxi tal-konfini.
Varjazzjonijiet differenti ta 'YOLO
Aħna ser inħarsu lejn uħud mill-aktar verżjonijiet komuni ta 'YOLO. Ejja nibdew.
1. YOLOv1
Il-verżjoni YOLO inizjali tħabbret fl-2015 fil-pubblikazzjoni "Tħares Darba Biss: Sejbien ta' Oġġetti Unifikati f'Ħin Reali” minn Joseph Redmon, Santosh Divvala, Ross Girshick, u Ali Farhadi.
Minħabba l-veloċità, l-eżattezza u l-kapaċità tat-tagħlim tiegħu, YOLO malajr iddomina l-qasam tal-identifikazzjoni tal-oġġett u sar l-algoritmu l-aktar użat. Minflok ma jindirizzaw is-sejbien ta’ oġġetti bħala kwistjoni ta’ klassifikazzjoni, l-awturi avviċinawh bħala problema ta’ rigressjoni b’kaxxi tal-konfini ġeografikament separati u probabbiltajiet ta’ klassi assoċjati, li solvew bl-użu ta’ wieħed. newrali netwerk.
L-YOLOv1 ipproċessa ritratti b'45 frejm kull sekonda f'ħin reali, filwaqt li varjant iżgħar, Fast YOLO, ipproċessat b'155 frejm kull sekonda u xorta kiseb id-doppju tal-mAP ta 'ditekters oħra f'ħin reali.
2. YOLOv2
Sena wara, fl-2016, Joseph Redmon u Ali Farhadi ħarġu YOLOv2 (magħruf ukoll bħala YOLO9000) fil-karta "YOLO9000: Aħjar, Aktar Mgħaġġla, Aktar b'saħħitha".
Il-kapaċità tal-mudell li jbassar anke 9000 kategorija ta' oġġetti distinti waqt li kien għadu għaddej f'ħin reali kisbet id-denominazzjoni 9000. Mhux biss il-verżjoni tal-mudell il-ġdid kienet imħarrġa simultanjament fuq settijiet ta' data ta' skoperta u klassifikazzjoni ta' oġġetti, iżda kisbet ukoll Darknet-19 bħala l-linja bażi l-ġdida. mudell.
Minħabba li YOLOv2 kien ukoll suċċess kbir u malajr sar il-mudell li jmiss ta 'rikonoxximent ta' oġġetti avvanzati, inġiniera oħra bdew jesperimentaw bl-algoritmu u jipproduċu verżjonijiet YOLO uniċi tagħhom stess. Xi wħud minnhom se jiġu diskussi f'diversi punti fid-dokument.
3. YOLOv3
Fil-karta "YOLOv3: Titjib Inkrementali,” Joseph Redmon u Ali Farhadi ppubblikaw verżjoni ġdida tal-algoritmu fl-2018. Inbniet fuq l-arkitettura Darknet-53. Klassifikaturi loġistiċi indipendenti ħadu post il-mekkaniżmu ta 'attivazzjoni softmax f'YOLOv3.
It-telf binarju cross-entropy intuża waqt it-taħriġ. Darknet-19 ġie mtejjeb u ssemmiet mill-ġdid Darknet-53, li issa għandu 53 saff konvoluzzjonali. Apparti minn hekk, it-tbassir saru fuq tliet skali distinti, li għenu lil YOLOv3 itejjeb l-eżattezza tiegħu fit-tbassir ta 'affarijiet żgħar.
YOLOv3 kienet il-verżjoni YOLO finali ta' Joseph Redmon, peress li għażel li ma jaħdimx fuq xi titjib YOLO ulterjuri (jew anke fil-qasam tal-viżjoni tal-kompjuter) sabiex jevita li x-xogħol tiegħu jkollu influwenza detrimentali fuq id-dinja. Issa huwa l-aktar użat bħala punt tat-tluq għall-kostruzzjoni ta 'arkitetturi uniċi ta' skoperta ta 'oġġetti.
4. Yolov4
Alexey Bochkovskiy, Chien-Yao Wang, u Hong-Yuan Mark Liao ppubblikaw "YOLOv4: Veloċità Ottimal u Preċiżjoni ta 'Sejbien ta' Oġġetti” f’April 2020, li kienet ir-raba’ iterazzjoni tal-algoritmu YOLO.
Konnessjonijiet Residwu Peżati, Konnessjonijiet Cross-Stage-Parzjali, normalizzazzjoni ta 'mini-lott inkroċjat, taħriġ awto-avversarju, attivazzjoni mish, blokk tal-qatra, u telf CIoU kollha ġew introdotti bħala parti mill-arkitettura SPDarknet53.
YOLOv4 huwa dixxendent tal-familja YOLO, madankollu, ġie żviluppat minn xjenzati separati (mhux Joseph Redmon u Ali Farhadi). Is-sinsla SPDarknet53, il-ġbir tal-piramida spazjali, l-aggregazzjoni tal-mogħdija PANet bħala l-għonq, u r-ras YOLOv3 jiffurmaw l-arkitettura tagħha.
Bħala konsegwenza, meta mqabbel mal-ġenitur tiegħu, YOLOv3, YOLOv4 jikseb 10% ogħla Preċiżjoni Medja u 12% metriċi Frames Per Second aħjar.
5. YOLOv5
YOLOv5 huwa proġett open-source li jinkludi firxa ta 'mudelli ta' identifikazzjoni ta 'oġġetti u algoritmi bbażati fuq il-mudell YOLO li ġie mħarreġ minn qabel fuq is-sett tad-dejta COCO.
YOLOv5 hija ġabra ta 'mudelli ta' identifikazzjoni ta 'oġġetti fuq skala komposta imħarreġ fuq is-sett tad-dejta COCO, b'kapaċitajiet faċli għal TTA, assemblaġġ ta 'mudell, żvilupp ta' iperparametri, u esportazzjoni lejn ONNX, CoreML, u TFLite. Minħabba li YOLOv5 ma jimplimentax jew tiżviluppa xi approċċi uniċi, il-karta formali ma setgħetx tiġi rilaxxata. Hija sempliċiment l-estensjoni PyTorch ta 'YOLOv3.
Ultranytics uża dan ix-xenarju biex jippubbliċizza l-verżjoni "YOLO ġdida" taħt l-isponsorizzazzjoni tagħha. Minħabba li hemm ukoll ħames mudelli mħarrġa minn qabel aċċessibbli, il-paġna ewlenija YOLOv5 hija pjuttost sempliċi u strutturata u miktuba b'mod professjonali, b'numru ta 'lezzjonijiet u suġġerimenti dwar it-taħriġ u l-użu tal-mudelli YOLOv5.
YOLO limitazzjonijiet
Għalkemm YOLO jidher li huwa l-akbar teknika għas-soluzzjoni sejbien ta 'oġġett problemi, għandha numru ta’ żvantaġġi. Minħabba li kull grilja tista 'tidentifika biss oġġett wieħed, YOLO għandu diffikultà biex jiskopri u jissegrega affarijiet żgħar fi stampi li jseħħu fi gruppi. Affarijiet żgħar f'swarms, bħal swarm ta 'nemel, huma diffiċli għal YOLO biex jidentifika u jsib.
Meta mqabbel ma 'metodi ta' identifikazzjoni ta 'oġġetti b'mod sinifikanti aktar bil-mod bħal Fast RCNN, YOLO huwa wkoll ikkaratterizzat minn preċiżjoni inqas.
Ibda uża YOLOv5
Jekk int interessat li tara YOLOv5 fl-azzjoni, iċċekkja l- GitHub uffiċjali u, YOLOv5 f'PyTorch.
konklużjoni
Il-verżjoni inizjali ta 'YOLOv5 hija estremament veloċi, performanti u sempliċi biex tużah. Filwaqt li YOLOv5 ma jżid l-ebda arkitettura ta 'mudell ġdid għall-familja YOLO, jipprovdi qafas ġdid ta' taħriġ u skjerament PyTorch li jtejjeb l-istat tal-arti għad-ditekters tal-oġġetti.
Barra minn hekk, YOLOv5 huwa estremament faċli għall-utent u joħroġ "mill-kaxxa" lest biex jintuża fuq oġġetti apposta.
Ħalli Irrispondi