Выяўленне аб'ектаў - гэта тып катэгарызацыі малюнкаў, пры якім нейронавая сетка прадбачыць элементы на малюнку і малюе вакол іх абмежавальныя рамкі. Выяўленне і лакалізацыя рэчаў у малюнку, які адпавядае зададзенаму набору класаў, называецца выяўленнем аб'екта.
Выяўленне аб'ектаў (таксама вядомае як распазнаванне аб'ектаў) з'яўляецца асабліва важным паддаменам камп'ютэрнага зроку, таму што такія задачы, як выяўленне, ідэнтыфікацыя і лакалізацыя, знаходзяць шырокае прымяненне ў кантэкстах рэальнага свету.
Падыход YOLO можа дапамагчы вам выканаць гэтыя задачы. У гэтым эсэ мы больш падрабязна разгледзім YOLO, у тым ліку, што гэта такое, як гэта працуе, розныя варыянты і многае іншае.
Такім чынам, што такое YOLO?
YOLO - гэта метад ідэнтыфікацыі і распазнання аб'ектаў на фотаздымках у рэжыме рэальнага часу. Гэта абрэвіятура ад You Look Only Once. Рэдманд і інш. прапанаваў падыход у артыкуле, які быў першапачаткова апублікаваны ў 2015 годзе на канферэнцыі IEEE/CVF па камп'ютэрным зроку і распазнаванні вобразаў (CVPR).
Газета атрымала ўзнагароду OpenCV People's Choice Award. У адрозненне ад папярэдніх метадаў ідэнтыфікацыі аб'ектаў, якія перапрафілявалі класіфікатары для выяўлення, YOLO прапануе выкарыстанне скразнога нейронных сеткі які прадказвае абмежавальныя рамкі і верагоднасці класа адначасова.
YOLO дае самыя сучасныя вынікі, прымяняючы прынцыпова новы падыход да распазнання аб'ектаў, лёгка пераўзыходзячы папярэднія метады выяўлення аб'ектаў у рэжыме рэальнага часу.
YOLO працуе
Метад YOLO дзеліць малюнак на N сетак, кожная з якіх мае аднолькавы памерны сектар SxS. Кожная з гэтых N сетак адказвае за выяўленне і размяшчэнне аб'екта, які змяшчае.
Гэтыя сеткі, у сваю чаргу, прагназуюць каардынаты абмежавальнай рамкі B адносна каардынат ячэйкі, а таксама назву элемента і верагоднасць прысутнасці аб'екта ў ячэйцы. З-за таго, што многія ячэйкі прадказваюць адзін і той жа элемент з рознымі прагнозамі абмежавальнай рамкі, гэты метад значна скарачае вылічэнні, таму што і выяўленне, і распазнаванне апрацоўваюцца клеткамі з малюнка.
Аднак гэта стварае шмат дублікатаў прагнозаў. Каб вырашыць гэтую праблему, YOLO выкарыстоўвае немаксімальнае падаўленне. YOLO душыць усе абмежавальныя рамкі з меншымі баламі верагоднасці ў немаксімальным падаўленні.
YOLO робіць гэта, вывучаючы балы верагоднасці, звязаныя з кожным варыянтам, і выбіраючы той, які мае найбольшы бал. Абмежавальныя рамкі з найбольшым перасячэннем над аб'яднаннем з бягучай абмежавальнай рамкай высокай імавернасці затым падаўляюцца.
Гэты працэс працягваецца, пакуль абмежавальныя рамкі не будуць завершаны.
Розныя варыяцыі YOLO
Мы разгледзім некалькі найбольш распаўсюджаных версій YOLO. Давайце пачнем.
1. YOLov1
Першапачатковая версія YOLO была анансаваная ў 2015 годзе ў публікацыі «Вы глядзіце толькі адзін раз: уніфікаванае выяўленне аб'ектаў у рэжыме рэальнага часу» Джозэфам Рэдманам, Сантошам Дзіўвалай, Росам Гіршыкам і Алі Фархадзі.
Дзякуючы сваёй хуткасці, дакладнасці і здольнасці да навучання YOLO хутка дамінаваў у вобласці ідэнтыфікацыі аб'ектаў і стаў найбольш шырока выкарыстоўваным алгарытмам. Замест таго, каб разглядаць выяўленне аб'ектаў як праблему класіфікацыі, аўтары падышлі да праблемы рэгрэсіі з геаграфічна падзеленымі абмежавальнымі вокнамі і звязанымі з імі верагоднасцямі класа, якія яны вырашылі з дапамогай аднаго нейронных сеткі.
YOLOv1 апрацоўваў фатаграфіі з частатой 45 кадраў у секунду ў рэжыме рэальнага часу, у той час як меншы варыянт, Fast YOLO, апрацоўваў фатаграфіі з частатой 155 кадраў у секунду і пры гэтым атрымліваў удвая большы mAP, чым іншыя дэтэктары ў рэжыме рэальнага часу.
2. YOLov2
Праз год, у 2016, Джозэф Рэдман і Алі Фархадзі выпусцілі YOLOv2 (таксама вядомы як YOLO9000) у газеце «YOLO9000: лепш, хутчэй, мацней».
Здольнасць мадэлі прагназаваць нават 9000 розных катэгорый прадметаў, працягваючы працаваць у рэжыме рэальнага часу, прынесла ёй пазначэнне 9000. Новая версія мадэлі не толькі адначасова навучалася выяўленню аб'ектаў і класіфікацыі набораў даных, але яна таксама атрымала Darknet-19 у якасці новай базавай лініі. мадэль.
Паколькі YOLOv2 таксама меў вялікі поспех і хутка стаў наступнай самай сучаснай мадэллю распазнання аб'ектаў, іншыя інжынеры пачалі эксперыментаваць з алгарытмам і ствараць свае ўласныя, унікальныя версіі YOLO. Некаторыя з іх будуць абмяркоўвацца ў розных пунктах артыкула.
3. YOLov3
У газеце «YOLOv3: Паступовае паляпшэннеДжозэф Рэдман і Алі Фархадзі апублікавалі новую версію алгарытму ў 2018 годзе. Ён быў пабудаваны на архітэктуры Darknet-53. Незалежныя лагістычныя класіфікатары замянілі механізм актывацыі softmax у YOLOv3.
Падчас трэніровак выкарыстоўвалася двайковая перакрыжаваная страта энтрапіі. Darknet-19 быў пашыраны і перайменаваны ў Darknet-53, які цяпер мае 53 згорткавыя пласты. Акрамя таго, прагнозы рабіліся ў трох розных шкалах, што дапамагло YOLOv3 павысіць дакладнасць прагназавання драбнюткіх рэчаў.
YOLOv3 быў апошняй версіяй YOLO Джозэфа Рэдмана, паколькі ён вырашыў не працаваць над удасканаленнем YOLO (ці нават у галіне камп'ютэрнага зроку), каб пазбегнуць шкоднага ўплыву яго працы на свет. Цяпер ён у асноўным выкарыстоўваецца ў якасці адпраўной кропкі для пабудовы унікальных архітэктур выяўлення аб'ектаў.
4. Ёлаў4
Аляксей Бачкоўскі, Цзянь-Яо Ван і Хун-Юань Марк Ляо апублікавалі «YOLOv4: аптымальная хуткасць і дакладнасць выяўлення аб'ектаў” у красавіку 2020 года, што стала чацвёртай ітэрацыяй алгарытму YOLO.
Узважаныя рэшткавыя злучэнні, міжстадыйныя частковыя злучэнні, крос-міні-пакетная нармалізацыя, самастойнае спаборніцкае навучанне, актывацыя mish, падзенне блока і страта CIoU — усё гэта было ўведзена як частка архітэктуры SPDarknet53.
YOLOv4 з'яўляецца нашчадкам сямейства YOLO, аднак ён быў распрацаваны асобнымі навукоўцамі (не Джозэфам Рэдманам і Алі Фархадзі). Магістраль SPDarknet53, аб'яднанне прасторавых пірамід, агрэгацыя шляхоў PANet у якасці шыі і галава YOLOv3 складаюць яго архітэктуру.
Як следства, у параўнанні з бацькоўскім кодам YOLOv3, YOLOv4 дасягае на 10% большай сярэдняй дакладнасці і на 12% лепшай колькасці кадраў у секунду.
5. YOLov5
YOLov5 гэта праект з адкрытым зыходным кодам, які ўключае шэраг мадэляў ідэнтыфікацыі аб'ектаў і алгарытмаў, заснаваных на мадэлі YOLO, якая была папярэдне падрыхтавана на наборы дадзеных COCO.
YOLOv5 - гэта набор мадэляў ідэнтыфікацыі аб'ектаў у складаным маштабе навучаны набору даных COCO з простымі магчымасцямі для TTA, зборкі мадэляў, распрацоўкі гіперпараметраў і экспарту ў ONNX, CoreML і TFLite. Паколькі YOLOv5 не рэалізуе і не распрацоўвае ніякіх унікальных падыходаў, афіцыйны дакумент не можа быць апублікаваны. Гэта проста пашырэнне PyTorch ад YOLOv3.
Ultranytics выкарыстаў гэты сцэнар, каб апублікаваць «новую версію YOLO» пад сваім спонсарам. Паколькі ёсць таксама пяць папярэдне падрыхтаваных мадэляў, хатняя старонка YOLOv5 даволі простая, прафесійна структураваная і напісаная, з шэрагам урокаў і прапаноў па навучанні і выкарыстанні мадэляў YOLOv5.
Абмежаванні YOLO
Хаця YOLO здаецца найлепшай тэхнікай для рашэння выяўленне аб'ектаў праблемы, ён мае шэраг недахопаў. Паколькі кожная сетка можа ідэнтыфікаваць толькі адзін элемент, YOLO адчувае цяжкасці з выяўленнем і аддзяленнем дробных прадметаў на малюнках, якія сустракаюцца ў групах. YOLO цяжка ідэнтыфікаваць і вызначыць месцазнаходжанне дробязяў у зграі, такіх як рой мурашак.
У параўнанні з больш павольнымі метадамі ідэнтыфікацыі аб'ектаў, такімі як Fast RCNN, YOLO таксама характарызуецца меншай дакладнасцю.
Пачніце выкарыстоўваць YOLOv5
Калі вам цікава ўбачыць YOLOv5 у дзеянні, праверце афіцыйны GitHub і YOLOv5 у PyTorch.
заключэнне
Першапачатковая версія YOLOv5 надзвычай хуткая, прадукцыйная і простая ў выкарыстанні. Нягледзячы на тое, што YOLOv5 не дадае ніякай новай архітэктуры мадэляў у сямейства YOLO, ён забяспечвае новую структуру навучання і разгортвання PyTorch, якая ўдасканальвае сучасны ўзровень дэтэктараў аб'ектаў.
Акрамя таго, YOLOv5 надзвычай зручны і пастаўляецца «з скрынкі», гатовы да выкарыстання на заказных аб'ектах.
Пакінуць каментар