Mae canfod gwrthrychau yn fath o gategoreiddio delwedd lle mae rhwydwaith niwral yn rhagweld eitemau mewn delwedd ac yn tynnu blychau ffiniol o'u cwmpas. Cyfeirir at ganfod a lleoleiddio pethau mewn delwedd sy'n cydymffurfio â set ragosodedig o ddosbarthiadau fel canfod gwrthrychau.
Mae canfod gwrthrychau (a elwir hefyd yn adnabod gwrthrychau) yn is-faes arbennig o arwyddocaol o Computer Vision oherwydd bod tasgau fel canfod, adnabod a lleoleiddio yn cael eu cymhwyso'n eang mewn cyd-destunau byd go iawn.
Gall dull YOLO eich helpu i wneud y tasgau hyn. Yn y traethawd hwn, byddwn yn edrych yn agosach ar YOLO, gan gynnwys beth ydyw, sut mae'n gweithio, amrywiadau gwahanol, a mwy.
Felly, beth yw YOLO?
Mae YOLO yn ddull ar gyfer adnabod gwrthrychau amser real a'u hadnabod mewn ffotograffau. Mae'n acronym ar gyfer Dim ond Edrych Unwaith. Mae Redmond et al. Cynigiodd y dull hwn mewn papur a gyhoeddwyd yn wreiddiol yn 2015 yng Nghynhadledd IEEE/CVF ar Weledigaeth Cyfrifiadurol a Chydnabyddiaeth Patrymau (CVPR).
Rhoddwyd Gwobr Dewis y Bobl OpenCV i'r papur. Yn wahanol i ddulliau adnabod gwrthrychau blaenorol, a ail-bwrpasodd ddosbarthwyr i wneud canfod, mae YOLO yn cynnig defnyddio system o un pen i'r llall rhwydwaith nefol sy'n rhagweld ffiniau blychau a thebygolrwydd dosbarth ar yr un pryd.
Mae YOLO yn cynhyrchu canlyniadau o'r radd flaenaf trwy ddefnyddio dull sylfaenol newydd o adnabod gwrthrychau, gan berfformio'n well yn hawdd â dulliau canfod gwrthrychau amser real blaenorol.
YOLO yn gweithio
Mae dull YOLO yn rhannu'r llun yn gridiau N, pob un â sector dimensiwn SxS cyfartal ei faint. Mae pob un o'r gridiau N hyn yn gyfrifol am ganfod a lleoli'r gwrthrych sydd ynddo.
Mae'r gridiau hyn, yn eu tro, yn rhagweld cyfesurynnau blwch ffiniol B o'u cymharu â chyfesurynnau cell, yn ogystal ag enw'r eitem a'r tebygolrwydd y bydd y gwrthrych yn bresennol yn y gell. Oherwydd bod llawer o gelloedd yn rhagfynegi'r un eitem gyda rhagfynegiadau blwch terfyn amrywiol, mae'r dechneg hon yn lleihau cyfrifiant yn sylweddol oherwydd bod celloedd o'r llun yn delio â chanfod ac adnabod.
Fodd bynnag, mae'n cynhyrchu llawer o ragfynegiadau dyblyg. Er mwyn mynd i'r afael â'r broblem hon, mae YOLO yn cyflogi Ataliad Di-Uwchaf. Mae YOLO yn atal yr holl flychau ffiniol sydd â sgorau tebygolrwydd is mewn Ataliad Anherfynol.
Mae YOLO yn gwneud hyn trwy archwilio'r sgorau tebygolrwydd sy'n gysylltiedig â phob opsiwn a dewis yr un â'r sgôr uchaf. Yna mae'r blychau ffiniol gyda'r Croestoriad mwyaf dros Union gyda'r blwch ffinio tebygolrwydd uchel cyfredol yn cael eu hatal.
Mae'r broses hon yn parhau nes bod y blychau terfyn wedi'u cwblhau.
Amrywiadau gwahanol o YOLO
Byddwn yn edrych ar rai o'r fersiynau YOLO mwyaf cyffredin. Gadewch i ni ddechrau.
1. YOLOv1
Cyhoeddwyd fersiwn gychwynnol YOLO yn 2015 yn y cyhoeddiad “Dim ond Unwaith Rydych chi'n Edrych: Unedig, Canfod Gwrthrych Amser Real” gan Joseph Redmon, Santosh Divvala, Ross Girshick, ac Ali Farhadi.
Oherwydd ei gyflymder, cywirdeb, a gallu dysgu, roedd YOLO yn dominyddu maes adnabod gwrthrychau yn gyflym a daeth yn algorithm a ddefnyddir fwyaf. Yn hytrach na mynd i'r afael â chanfod gwrthrychau fel mater dosbarthu, aeth yr awduron ati fel problem atchweliad gyda blychau ffinio wedi'u gwahanu'n ddaearyddol a thebygolrwydd dosbarth cysylltiedig, y gwnaethant eu datrys gan ddefnyddio un. rhwydwaith nefol.
Prosesodd YOLOv1 luniau ar 45 ffrâm yr eiliad mewn amser real, tra bod amrywiad llai, Fast YOLO, wedi'i brosesu ar 155 ffrâm yr eiliad ac yn dal i gael dwbl y mAP o synwyryddion amser real eraill.
2. YOLOv2
Flwyddyn yn ddiweddarach, yn 2016, rhyddhaodd Joseph Redmon ac Ali Farhadi YOLOv2 (a elwir hefyd yn YOLO9000) yn y papur “YOLO9000: Gwell, Cyflymach, Cryfach. "
Enillodd gallu'r model i ragweld hyd yn oed 9000 o gategorïau eitem gwahanol tra'n dal i redeg mewn amser real y dynodiad 9000 iddo. Nid yn unig yr hyfforddwyd fersiwn y model newydd ar yr un pryd ar setiau data canfod a dosbarthu gwrthrychau, ond cafodd Darknet-19 hefyd fel y llinell sylfaen newydd. model.
Oherwydd bod YOLOv2 hefyd yn llwyddiant mawr ac yn fuan daeth yn fodel adnabod gwrthrychau o'r radd flaenaf nesaf, dechreuodd peirianwyr eraill arbrofi gyda'r algorithm a chynhyrchu eu fersiynau YOLO unigryw eu hunain. Bydd rhai ohonynt yn cael eu trafod ar wahanol adegau yn y papur.
3. YOLOv3
Yn y papur “YOLOv3: Gwelliant Cynyddrannol,” Cyhoeddodd Joseph Redmon ac Ali Farhadi fersiwn newydd o'r algorithm yn 2018. Fe'i hadeiladwyd ar bensaernïaeth Darknet-53. Disodlodd dosbarthwyr logistaidd annibynnol y mecanwaith actifadu softmax yn YOLOv3.
Defnyddiwyd y golled deuaidd traws-entropi yn ystod yr hyfforddiant. Cafodd Darknet-19 ei wella a'i ailenwi'n Darknet-53, sydd bellach â 53 o haenau troellog. Ar wahân i hynny, gwnaed y rhagfynegiadau ar dair graddfa wahanol, a helpodd YOLOv3 i wella ei gywirdeb wrth ragweld pethau bach.
YOLOv3 oedd fersiwn olaf Joseph Redmon o YOLO, gan iddo ddewis peidio â gweithio ar unrhyw welliannau pellach i YOLO (neu hyd yn oed yn y maes gweledigaeth gyfrifiadurol) er mwyn atal ei waith rhag cael dylanwad andwyol ar y byd. Fe'i defnyddir yn bennaf bellach fel man cychwyn ar gyfer adeiladu pensaernïaeth canfod gwrthrychau unigryw.
4. Iolo4
Cyhoeddodd Alexey Bochkovskiy, Chien-Yao Wang, a Hong-Yuan Mark Liao “YOLOv4: Cyflymder Gorau a Chywirdeb Canfod Gwrthrychau” ym mis Ebrill 2020, sef pedwerydd iteriad algorithm YOLO.
Cyflwynwyd Cysylltiadau Gweddilliol Pwysol, Cysylltiadau Traws-Gam-Rhanol, normaleiddio traws-swp bach, hyfforddiant hunan-wrthwynebol, actifadu mish, bloc gollwng, a cholled CioU i gyd fel rhan o bensaernïaeth SPDarknet53.
Mae YOLOv4 yn ddisgynnydd i'r teulu YOLO, fodd bynnag, fe'i datblygwyd gan wyddonwyr ar wahân (nid Joseph Redmon ac Ali Farhadi). Asgwrn cefn SPDarknet53, cronni pyramid gofodol, PANet llwybr-agregu fel gwddf, a phen YOLOv3 yn ffurfio ei bensaernïaeth.
O ganlyniad, o'i gymharu â'i riant, mae YOLOv3, YOLOv4 yn cyflawni 10% yn uwch o drachywiredd ar gyfartaledd a metrigau Fframiau Yr Eiliad 12% yn well.
5. YOLOv5
YOLOv5 yn brosiect ffynhonnell agored sy'n cynnwys ystod o fodelau adnabod gwrthrychau ac algorithmau yn seiliedig ar fodel YOLO sydd wedi'i hyfforddi ymlaen llaw ar set ddata COCO.
Mae YOLOv5 yn gasgliad o fodelau adnabod gwrthrychau ar raddfa gyfansawdd hyfforddi ar y set ddata COCO, gyda galluoedd hawdd ar gyfer TTA, cydosod model, datblygu hyperparamedr, ac allforio i ONNX, CoreML, a TFLite. Oherwydd nad yw YOLOv5 yn gweithredu nac yn datblygu unrhyw ddulliau unigryw, ni ellid rhyddhau'r papur ffurfiol. Yn syml, estyniad PyTorch YOLOv3 ydyw.
Defnyddiodd Ultranytics y senario hwn i roi cyhoeddusrwydd i'r fersiwn “YOLO newydd” o dan ei nawdd. Gan fod yna hefyd bum model sydd wedi'u hyfforddi ymlaen llaw yn hygyrch, mae hafan YOLOv5 yn eithaf syml ac wedi'i strwythuro a'i hysgrifennu'n broffesiynol, gyda nifer o wersi ac awgrymiadau ar hyfforddi a defnyddio modelau YOLOv5.
cyfyngiadau YOLO
Er ei bod yn ymddangos mai YOLO yw'r dechneg fwyaf ar gyfer datrys canfod gwrthrych problemau, mae ganddo nifer o anfanteision. Gan mai dim ond un eitem y gall pob grid ei nodi, mae YOLO yn cael anhawster canfod a gwahanu pethau bach mewn lluniau sy'n digwydd mewn grwpiau. Mae pethau bach mewn heidiau, fel haid o forgrug, yn anodd i YOLO eu hadnabod a'u lleoli.
O'i gymharu â dulliau adnabod gwrthrychau llawer arafach fel RCNN Cyflym, nodweddir YOLO yn yr un modd gan gywirdeb llai.
Dechreuwch ddefnyddio YOLOv5
Os oes gennych ddiddordeb mewn gweld YOLOv5 ar waith, edrychwch ar y GitHub swyddogol ac YOLOv5 yn PyTorch.
Casgliad
Mae fersiwn gychwynnol YOLOv5 yn gyflym iawn, yn berfformiwr ac yn syml i'w ddefnyddio. Er nad yw YOLOv5 yn ychwanegu unrhyw bensaernïaeth fodel newydd at y teulu YOLO, mae'n darparu fframwaith hyfforddi a defnyddio PyTorch newydd sy'n gwella'r sefyllfa ddiweddaraf ar gyfer synwyryddion gwrthrychau.
Ar ben hynny, mae YOLOv5 yn hynod hawdd ei ddefnyddio ac yn dod “allan o'r bocs” yn barod i'w ddefnyddio ar wrthrychau pwrpasol.
Gadael ymateb