Hlutagreining er tegund myndflokkunar þar sem taugakerfi gerir ráð fyrir hlutum í mynd og teiknar afmarkandi ramma utan um þá. Að greina og staðsetja hluti í mynd sem er í samræmi við forstillt sett af flokkum er nefnt hlutgreining.
Hlutagreining (einnig þekkt sem hlutaþekking) er sérstaklega mikilvægt undirlén tölvusjónar vegna þess að verkefni eins og uppgötvun, auðkenning og staðsetning finna víðtæka notkun í raunverulegu samhengi.
YOLO nálgunin getur hjálpað þér að vinna þessi verkefni. Í þessari ritgerð munum við skoða YOLO nánar, þar á meðal hvað það er, hvernig það virkar, mismunandi afbrigði og fleira.
Svo, hvað er YOLO?
YOLO er aðferð til að bera kennsl á og bera kennsl á hluti í rauntíma í ljósmyndum. Það er skammstöfun fyrir You Only Look Once. Redmond o.fl. lagði til nálgunina í grein sem var upphaflega gefin út árið 2015 á IEEE/CVF ráðstefnunni um tölvusjón og mynsturviðurkenningu (CVPR).
OpenCV People's Choice Award hlaut blaðið. Ólíkt fyrri hlutagreiningaraðferðum, sem endurnýttu flokkara til að gera greiningu, leggur YOLO til notkun á enda til enda tauga net sem spáir fyrir um afmörkunarkassa og flokkslíkur samtímis.
YOLO framleiðir nýjustu niðurstöður með því að taka í grundvallaratriðum nýja nálgun við hlutgreiningu, sem er auðveldlega betri en fyrri rauntíma hlutgreiningaraðferðir.
YOLO að vinna
YOLO aðferðin skiptir myndinni í N rist, hvert með jafnstórum SxS víddargeira. Hvert af þessum N ristum sér um að greina og staðsetja hlutinn sem hann inniheldur.
Þessi hnitanet spá aftur á móti fyrir um hnit B afmörkunarkassa miðað við hnit, sem og heiti hlutar og líkur á að hluturinn sé til staðar í hólfinu. Vegna þess að margar frumur spá fyrir um sama hlutinn með margvíslegum spám um afmörkun, dregur þessi tækni töluvert úr útreikningum vegna þess að bæði uppgötvun og auðkenning eru meðhöndluð af frumum úr myndinni.
Hins vegar framleiðir það mikið af tvíteknum spám. Til að takast á við þetta vandamál notar YOLO Non-Maximal Suppression. YOLO bælir niður alla afmarkandi reiti með lægri líkindastigum í Non-Maximal Bæling.
YOLO gerir þetta með því að skoða líkindastigið sem tengist hverjum valmöguleika og velja þann sem er með hæstu einkunnina. Afmörkunarreitirnir með stærstu gatnamótunum yfir sambandinu með núverandi afmarkareitnum með miklar líkur eru síðan bældar niður.
Þessu ferli er haldið áfram þar til afmörkunarreitnum er lokið.
Mismunandi afbrigði af YOLO
Við munum skoða nokkrar af algengustu YOLO útgáfunum. Byrjum.
1. YOLOv1
Upphaflega YOLO útgáfan var tilkynnt árið 2015 í útgáfunni "Þú horfir aðeins einu sinni: Sameinuð, rauntíma hlutgreining“ eftir Joseph Redmon, Santosh Divvala, Ross Girshick og Ali Farhadi.
Vegna hraða, nákvæmni og námsgetu drottnaði YOLO fljótt yfir sviði hlutgreiningar og varð útbreiddasta reikniritið. Í stað þess að taka á hlutgreiningu sem flokkunarvandamál, þá nálguðust höfundarnir það sem aðhvarfsvandamál með landfræðilega aðskildum afmörkunarreitum og tengdum flokkslíkindum, sem þeir leystu með því að nota einn tauga net.
YOLOv1 vann myndir á 45 römmum á sekúndu í rauntíma, en smærra afbrigði, Fast YOLO, vann á 155 römmum á sekúndu og náði samt tvöföldu mAP af öðrum rauntímaskynjarum.
2. YOLOv2
Ári síðar, árið 2016, gáfu Joseph Redmon og Ali Farhadi út YOLOv2 (einnig þekkt sem YOLO9000) í blaðinu „YOLO9000: Betri, hraðari, sterkari. "
Getu líkansins til að spá fyrir um jafnvel 9000 mismunandi vöruflokka á meðan hún er enn í gangi í rauntíma fékk það tilnefninguna 9000. Ekki aðeins var nýja gerð útgáfan samtímis þjálfuð á hlutgreiningu og flokkunargagnasettum, heldur fékk hún einnig Darknet-19 sem nýja grunnlínu fyrirmynd.
Vegna þess að YOLOv2 sló líka í gegn og varð fljótt næsta fullkomna hlutþekkingarlíkan, fóru aðrir verkfræðingar að gera tilraunir með reikniritið og framleiða sínar eigin, einstöku YOLO útgáfur. Nokkrar þeirra verða ræddar á ýmsum stöðum í blaðinu.
3. YOLOv3
Í blaðinu "YOLOv3: Stigvaxandi framför,” Joseph Redmon og Ali Farhadi birtu nýja útgáfu af reikniritinu árið 2018. Það var byggt á Darknet-53 arkitektúrnum. Óháðir skipulagsflokkarar komu í stað softmax virkjunarbúnaðarins í YOLOv3.
Tvíundir krossentropy tapið var notað við þjálfun. Darknet-19 var endurbætt og endurnefnt Darknet-53, sem hefur nú 53 snúningslög. Fyrir utan það voru spárnar gerðar á þremur mismunandi mælikvarða, sem hjálpaði YOLOv3 að auka nákvæmni þess við að spá fyrir um örsmáa hluti.
YOLOv3 var síðasta YOLO útgáfa Joseph Redmon, þar sem hann valdi að vinna ekki að frekari YOLO endurbótum (eða jafnvel á tölvusjónarsviðinu) til að forðast að vinna hans hefði skaðleg áhrif á heiminn. Það er nú aðallega notað sem upphafspunktur til að smíða einstaka hlutgreiningararkitektúr.
4. Yolov4
Alexey Bochkovskiy, Chien-Yao Wang og Hong-Yuan Mark Liao birtu „YOLOv4: Bestur hraði og nákvæmni hlutgreiningar“ í apríl 2020, sem var fjórða endurtekningin á YOLO reikniritinu.
Vegin leifartengingar, þverstigs-hlutatengingar, þverrandi smálota eðlileg, sjálfsandstæð þjálfun, mishvörf, fallblokk og CIoU tap voru allt kynnt sem hluti af SPDarknet53 arkitektúrnum.
YOLOv4 er afkomandi YOLO fjölskyldunnar, en það var þróað af sérstökum vísindamönnum (ekki Joseph Redmon og Ali Farhadi). SPDarknet53 burðarás, staðbundin pýramídasamruni, PANet slóðasamsöfnun sem háls og YOLOv3 höfuð mynda arkitektúr þess.
Þar af leiðandi, í samanburði við foreldri sitt, YOLOv3, nær YOLOv4 10% hærri meðalnákvæmni og 12% betri mæligildum fyrir ramma á sekúndu.
5. YOLOv5
YOLOv5 er opinn uppspretta verkefni sem felur í sér úrval af líkönum til að auðkenna hluti og reiknirit sem byggjast á YOLO líkaninu sem hefur verið forþjálfað á COCO gagnasafninu.
YOLOv5 er safn af samsettum hlutagreiningarlíkönum þjálfaðir á COCO gagnapakkanum, með auðveldum möguleikum fyrir TTA, módelsamsetningu, þróun hyperparameters og útflutning til ONNX, CoreML og TFLite. Vegna þess að YOLOv5 ekki innleiðir eða þróar neinar einstakar aðferðir, var ekki hægt að gefa út formlega pappírinn. Það er einfaldlega PyTorch viðbót YOLOv3.
Ultranytics notaði þessa atburðarás til að kynna „nýju YOLO“ útgáfuna undir stuðningi hennar. Vegna þess að það eru líka fimm fyrirfram þjálfaðar gerðir aðgengilegar, er YOLOv5 heimasíðan nokkuð einföld og faglega uppbyggð og skrifuð, með fjölda lærdóma og tillagna um þjálfun og notkun YOLOv5 módelanna.
YOLO takmarkanir
Þó að YOLO virðist vera besta tæknin til að leysa hlutgreining vandamál, það hefur fjölda galla. Vegna þess að hvert rist getur aðeins auðkennt eitt atriði, á YOLO í erfiðleikum með að greina og aðgreina smáhluti í myndum sem eiga sér stað í hópum. Litlir hlutir í kvikum, eins og maurasveimi, er erfitt fyrir YOLO að bera kennsl á og staðsetja.
Í samanburði við verulega hægari hlutagreiningaraðferðir eins og Fast RCNN einkennist YOLO sömuleiðis af minni nákvæmni.
Byrjaðu að nota YOLOv5
Ef þú hefur áhuga á að sjá YOLOv5 í aðgerð skaltu skoða opinber GitHub og YOLOv5 í PyTorch.
Niðurstaða
Upphafleg útgáfa YOLOv5 er einstaklega fljótleg, afkastamikil og einföld í notkun. Þó að YOLOv5 bæti ekki neinum nýjum módelarkitektúr við YOLO fjölskylduna, þá býður hann upp á nýja PyTorch þjálfun og uppsetningu ramma sem eykur nýjustu tækni fyrir hlutskynjara.
Ennfremur er YOLOv5 einstaklega notendavænt og kemur „úr kassanum“ tilbúið til notkunar á sérsniðna hluti.
Skildu eftir skilaboð