Az objektumészlelés a képkategorizálás egy olyan típusa, amelyben a neurális hálózat előre látja a képen lévő elemeket, és határolókereteket rajzol körülöttük. A dolgok észlelését és lokalizálását egy képen, amely megfelel egy előre beállított osztálykészletnek, objektumészlelésnek nevezzük.
Az objektumészlelés (más néven objektumfelismerés) a Computer Vision különösen jelentős aldomainje, mivel az olyan feladatok, mint az észlelés, azonosítás és lokalizáció, széles körben alkalmazhatók a valós környezetben.
A YOLO megközelítés segíthet ezeknek a feladatoknak a végrehajtásában. Ebben az esszében közelebbről megvizsgáljuk a YOLO-t, beleértve azt is, hogy mi ez, hogyan működik, különböző változatai és még sok más.
Szóval, mi az a YOLO?
A YOLO egy módszer a fényképek valós idejű objektumazonosítására és felismerésére. Ez a „You Only Look Once” rövidítése. Redmond et al. javasolta ezt a megközelítést egy tanulmányban, amelyet eredetileg 2015-ben tettek közzé az IEEE/CVF Computer Vision and Pattern Recognition (CVPR) konferencián.
Az OpenCV People's Choice Awardot a lap kapta. Ellentétben a korábbi objektum azonosítási módszerekkel, amelyek az osztályozókat az észlelésre helyezték át, a YOLO végpontok közötti azonosító használatát javasolja. neurális hálózat amely egyszerre jelzi előre a határoló dobozokat és az osztályvalószínűségeket.
A YOLO a legmodernebb eredményeket produkálja az objektumfelismerés alapvetően új megközelítésével, amely könnyedén felülmúlja a korábbi valós idejű objektumészlelési módszereket.
A YOLO működik
A YOLO módszer a képet N rácsra osztja, amelyek mindegyike egyforma méretű SxS dimenziós szektorral rendelkezik. Ezen N rács mindegyike felelős a benne lévő objektum észleléséért és helyének meghatározásáért.
Ezek a rácsok pedig előrejelzik a B határolódoboz koordinátáit a cellakoordinátákhoz viszonyítva, valamint az elem nevét és annak valószínűségét, hogy az objektum jelen van a cellában. Mivel sok cella előrejelzi ugyanazt az elemet különböző határolódoboz-előrejelzésekkel, ez a technika jelentősen csökkenti a számítási időt, mivel mind az észlelést, mind a felismerést a kép cellái kezelik.
Azonban sok ismétlődő előrejelzést produkál. A probléma megoldására a YOLO nem maximális elnyomást alkalmaz. A YOLO elnyomja az összes kisebb valószínűségi pontszámú határolókeretet a nem maximális elnyomásban.
A YOLO ezt úgy teszi, hogy megvizsgálja az egyes opciókhoz kapcsolódó valószínűségi pontszámokat, és kiválasztja a legmagasabb pontszámot elérőt. Azok a határolódobozok, amelyeknél a legnagyobb metszéspont az Unió felett van, az aktuális nagy valószínűségű határolókerettel ezután el lesznek távolítva.
Ezt a folyamatot addig folytatjuk, amíg a határoló dobozok el nem készülnek.
A YOLO különböző változatai
Megnézünk néhányat a leggyakoribb YOLO verziók közül. Kezdjük el.
1. YOLOv1
A kezdeti YOLO verziót 2015-ben jelentették be a „Csak egyszer néz: Egységes, valós idejű objektumészlelés” készítette: Joseph Redmon, Santosh Divvala, Ross Girshick és Ali Farhadi.
Gyorsságának, pontosságának és tanulási képességének köszönhetően a YOLO gyorsan uralta az objektumok azonosításának területét, és a legszélesebb körben használt algoritmussá vált. A szerzők ahelyett, hogy az objektumészlelést osztályozási problémaként kezelték volna, regressziós problémaként közelítették meg a földrajzilag elválasztott határolókeretekkel és a hozzájuk tartozó osztályvalószínűségekkel, amelyeket egyetlenegyszerrel oldottak meg. neurális hálózat.
A YOLOv1 45 képkocka/másodperc sebességgel dolgozta fel a fényképeket valós időben, míg egy kisebb változata, a Fast YOLO 155 képkocka/másodperc sebességgel dolgozott fel, és így is kétszer annyi maP-t kapott, mint más valós idejű detektorok.
2. YOLOv2
Egy évvel később, 2016-ban Joseph Redmon és Ali Farhadi kiadta a YOLOv2-t (más néven YOLO9000) a lapban.YOLO9000: Jobb, gyorsabb, erősebb. "
A modell akár 9000 különálló elemkategória előrejelzésére való képessége, miközben valós időben fut, a 9000-es elnevezést kapta. Az új modellverziót nemcsak az objektumészlelési és -osztályozási adatkészletekre oktatták, hanem a Darknet-19-et is kapta új alapként. modell.
Mivel a YOLOv2 is nagy sikert aratott, és gyorsan a következő legkorszerűbb objektumfelismerő modell lett, más mérnökök elkezdtek kísérletezni az algoritmussal, és saját, egyedi YOLO-verziókat gyártani. Néhányat a cikk különböző pontjain tárgyalunk.
3. YOLOv3
Az újságban "YOLOv3: fokozatos fejlesztés”, Joseph Redmon és Ali Farhadi 2018-ban tette közzé az algoritmus új verzióját. Az a Darknet-53 architektúrára épült. Független logisztikai osztályozók váltották fel a YOLOv3 softmax aktiválási mechanizmusát.
A bináris keresztentrópia veszteséget használták a képzés során. A Darknet-19-et továbbfejlesztették, és átnevezték Darknet-53-ra, amely immár 53 konvolúciós rétegből áll. Ettől eltekintve, az előrejelzések három különböző skálán történtek, ami segített a YOLOv3-nak növelni a pontosságát az apró dolgok előrejelzésében.
A YOLOv3 volt Joseph Redmon végső YOLO-verziója, mivel úgy döntött, hogy nem dolgozik a YOLO további fejlesztésein (vagy akár a számítógépes látás területén), hogy elkerülje, hogy munkája káros hatással legyen a világra. Manapság többnyire kiindulópontként használják egyedi objektumészlelési architektúrák felépítéséhez.
4. Yolov4
Alexey Bochkovskiy, Chien-Yao Wang és Hong-Yuan Mark Liao közzétetteYOLOv4: Az objektumészlelés optimális sebessége és pontossága” 2020 áprilisában, ami a YOLO algoritmus negyedik iterációja volt.
A súlyozott maradék kapcsolatokat, a szakaszok közötti részleges kapcsolatokat, a keresztezett mini kötegelt normalizálást, az önellenálló képzést, a mish aktiválást, a drop blokkot és a CIoU elvesztését az SPDarknet53 architektúra részeként vezették be.
A YOLOv4 a YOLO család leszármazottja, azonban külön tudósok fejlesztették ki (nem Joseph Redmon és Ali Farhadi). SPDarknet53 gerinc, térbeli piramis pooling, PANet útvonal-aggregáció nyakként és YOLOv3 fej alkotják az architektúráját.
Ennek eredményeként a YOLOv3 szülőjéhez, a YOLOv4-hoz képest 10%-kal magasabb átlagos pontosságot és 12%-kal jobb képkocka per másodperc mérőszámot ér el.
5. YOLOv5
YOLOv5 egy nyílt forráskódú projekt, amely egy sor objektum azonosítási modellt és algoritmust tartalmaz a YOLO-modell alapján, amelyet előre betanítottak a COCO adatkészletre.
A YOLOv5 összetett léptékű objektumazonosító modellek gyűjteménye a COCO-adatkészletre oktatva, egyszerű képességekkel a TTA-hoz, a modell-összeállításhoz, a hiperparaméter-fejlesztéshez és az ONNX-be, CoreML-be és TFLite-ba való exportáláshoz. Mivel a YOLOv5 nem valósít meg és nem fejleszt semmilyen egyedi megközelítést, a hivatalos dokumentumot nem lehetett kiadni. Ez egyszerűen a YOLOv3 PyTorch kiterjesztése.
Az Ultranytics ezt a forgatókönyvet használta fel a szponzorált „új YOLO” verzió nyilvánosságra hozatalára. Mivel öt előre betanított modell is elérhető, a YOLOv5 honlapja meglehetősen egyszerű, professzionálisan felépített és megírt, és számos leckét és javaslatot tartalmaz a YOLOv5 modellek képzésével és használatával kapcsolatban.
A YOLO korlátozásai
Bár a YOLO tűnik a legjobb megoldási technikának tárgy észlelése problémák, számos hátránya van. Mivel minden rács csak egy elemet képes azonosítani, a YOLO-nak nehézséget okoz az apró dolgok észlelése és elkülönítése a csoportokban előforduló képeken. A rajokban lévő apró dolgokat, például egy hangyarajt, a YOLO nehezen tudja azonosítani és megtalálni.
A lényegesen lassabb objektum azonosítási módszerekhez, például a Fast RCNN-hez képest a YOLO-t szintén kisebb pontosság jellemzi.
Kezdje el használni a YOLOv5-öt
Ha szeretné látni a YOLOv5 működését, nézze meg a hivatalos GitHub és a YOLOv5 a PyTorchban.
Következtetés
A YOLOv5 kezdeti verziója rendkívül gyors, hatékony és egyszerűen használható. Bár a YOLOv5 nem ad hozzá új modellarchitektúrát a YOLO családhoz, egy új PyTorch képzési és telepítési keretrendszert biztosít, amely továbbfejleszti az objektumdetektorok korszerűségét.
Ezen túlmenően a YOLOv5 rendkívül felhasználóbarát, és „dobozból” készen áll a használatra szabott tárgyakra.
Hagy egy Válaszol