ការណែនាំអំពី YOLO: ការរកឃើញវត្ថុពេលវេលាពិត

មាតិកា[លាក់][បង្ហាញ]

ដូច្នេះតើ YOLO គឺជាអ្វី?
YOLO ធ្វើការ
ភាពខុសគ្នានៃ YOLO+-
ដែនកំណត់ YOLO
ចាប់ផ្តើមប្រើ YOLOv5
សន្និដ្ឋាន

ការរកឃើញវត្ថុគឺជាប្រភេទនៃការចាត់ថ្នាក់រូបភាពដែលបណ្តាញប្រសាទរំពឹងមើលធាតុនៅក្នុងរូបភាព ហើយគូរប្រអប់ដាក់ជុំវិញពួកវា។ ការរកឃើញ និងការធ្វើមូលដ្ឋានីយកម្មវត្ថុនៅក្នុងរូបភាពដែលអនុលោមតាមសំណុំថ្នាក់ដែលបានកំណត់ជាមុន ត្រូវបានគេហៅថាការរកឃើញវត្ថុ។

ការរកឃើញវត្ថុ (ត្រូវបានគេស្គាល់ផងដែរថាជាការទទួលស្គាល់វត្ថុ) គឺជាដែនរងដ៏សំខាន់ជាពិសេសនៃចក្ខុវិស័យកុំព្យូទ័រ ពីព្រោះកិច្ចការដូចជាការរកឃើញ ការកំណត់អត្តសញ្ញាណ និងការធ្វើមូលដ្ឋានីយកម្មស្វែងរកកម្មវិធីទូលំទូលាយនៅក្នុងបរិបទពិភពពិត។

វិធីសាស្រ្ត YOLO អាចជួយអ្នកធ្វើកិច្ចការទាំងនេះ។ នៅក្នុងអត្ថបទនេះ យើងនឹងពិនិត្យមើលកាន់តែដិតដល់អំពី YOLO រួមទាំងអ្វីដែលវាគឺជា របៀបដែលវាដំណើរការ ការប្រែប្រួលផ្សេងៗគ្នា និងច្រើនទៀត។

ដូច្នេះតើ YOLO គឺជាអ្វី?

YOLO គឺជាវិធីសាស្រ្តមួយសម្រាប់ការកំណត់អត្តសញ្ញាណវត្ថុក្នុងពេលជាក់ស្តែង និងការទទួលស្គាល់នៅក្នុងរូបថត។ វាជាអក្សរកាត់សម្រាប់ You Only Look Once។ Redmond et al ។ បានស្នើវិធីសាស្រ្តនៅក្នុងក្រដាសដែលត្រូវបានបោះពុម្ពដំបូងក្នុងឆ្នាំ 2015 នៅសន្និសីទ IEEE/CVF ស្តីពីចក្ខុវិស័យកុំព្យូទ័រ និងការទទួលស្គាល់លំនាំ (CVPR) ។

ពានរង្វាន់ជម្រើសប្រជាជន OpenCV ត្រូវបានផ្តល់ឱ្យក្រដាស។ មិនដូចវិធីសាស្ត្រកំណត់អត្តសញ្ញាណវត្ថុពីមុន ដែលកំណត់អ្នកចាត់ថ្នាក់ឡើងវិញដើម្បីធ្វើការរាវរកទេ YOLO ស្នើឱ្យប្រើវិធីបញ្ចប់ទៅចុង បណ្តាញសរសៃប្រសាទ ដែលព្យាករណ៍ប្រអប់ព្រំដែន និងប្រូបាប៊ីលីតេថ្នាក់ក្នុងពេលដំណាលគ្នា។

YOLO បង្កើតនូវលទ្ធផលដ៏ទំនើបបំផុតដោយប្រើប្រាស់វិធីសាស្រ្តថ្មីជាមូលដ្ឋានក្នុងការទទួលស្គាល់វត្ថុ ដែលងាយស្រួលអនុវត្តជាងវិធីសាស្ត្រស្វែងរកវត្ថុតាមពេលវេលាជាក់ស្តែងពីមុន។

YOLO ធ្វើការ

វិធីសាស្ត្រ YOLO បែងចែករូបភាពទៅជាក្រឡា N ដែលនីមួយៗមានផ្នែកវិមាត្រ SxS ទំហំស្មើគ្នា។ ក្រឡាចត្រង្គ N នីមួយៗមានបន្ទុកក្នុងការស្វែងរក និងកំណត់ទីតាំងវត្ថុដែលវាមាន។

ស្ថាបត្យកម្ម YOLO

ក្រឡាចត្រង្គទាំងនេះ តាមការព្យាករណ៍ ប្រអប់ព្រំដែន B ធ្វើការសំរបសំរួលទាក់ទងនឹងកូអរដោណេក្រឡា ក៏ដូចជាឈ្មោះធាតុ និងលទ្ធភាពនៃវត្ថុដែលមានវត្តមាននៅក្នុងក្រឡា។ ដោយសារកោសិកាជាច្រើនព្យាករណ៍ពីធាតុដូចគ្នាជាមួយនឹងការព្យាករណ៍ប្រអប់ព្រំដែនផ្សេងៗគ្នា បច្ចេកទេសនេះកាត់បន្ថយការគណនាយ៉ាងច្រើន ពីព្រោះទាំងការរកឃើញ និងការទទួលស្គាល់ត្រូវបានគ្រប់គ្រងដោយកោសិកាពីរូបភាព។

ទោះយ៉ាងណាក៏ដោយ វាបង្កើតការព្យាករណ៍ស្ទួនជាច្រើន។ ដើម្បីដោះស្រាយបញ្ហានេះ YOLO ប្រើការទប់ស្កាត់មិនអតិបរមា។ YOLO រារាំងប្រអប់ព្រំដែនទាំងអស់ជាមួយនឹងពិន្ទុប្រូបាប៊ីលីតេទាបនៅក្នុងការទប់ស្កាត់មិនអតិបរមា។

YOLO ធ្វើដូចនេះដោយពិនិត្យមើលពិន្ទុប្រូបាប៊ីលីតេដែលភ្ជាប់ជាមួយជម្រើសនីមួយៗ ហើយជ្រើសរើសពិន្ទុដែលមានពិន្ទុខ្ពស់បំផុត។ បន្ទាប់មក ប្រអប់ព្រំដែនដែលមានប្រសព្វធំបំផុតនៅលើ Union ជាមួយនឹងប្រអប់ព្រំដែនដែលមានប្រូបាប៊ីលីតេខ្ពស់បច្ចុប្បន្នត្រូវបានបង្ក្រាប។

YOLO ធ្វើការ

ដំណើរការនេះត្រូវបានបន្តរហូតដល់ប្រអប់ព្រំដែនត្រូវបានបញ្ចប់។

ភាពខុសគ្នានៃ YOLO

យើងនឹងពិនិត្យមើលកំណែ YOLO ទូទៅបំផុតមួយចំនួន។ តោះចាប់ផ្តើម។

1. YOLOv1

កំណែ YOLO ដំបូងត្រូវបានប្រកាសនៅឆ្នាំ 2015 នៅក្នុងការបោះពុម្ពផ្សាយ "អ្នកគ្រាន់តែមើលតែម្តងប៉ុណ្ណោះ៖ ការបង្រួបបង្រួម ការរកឃើញវត្ថុតាមពេលវេលាជាក់ស្តែងដោយ Joseph Redmon, Santosh Divvala, Ross Girshick និង Ali Farhadi ។

ដោយសារតែល្បឿន ភាពត្រឹមត្រូវ និងសមត្ថភាពសិក្សារបស់វា YOLO បានគ្របដណ្ដប់លើតំបន់នៃការកំណត់អត្តសញ្ញាណវត្ថុយ៉ាងឆាប់រហ័ស ហើយបានក្លាយជាក្បួនដោះស្រាយដែលប្រើយ៉ាងទូលំទូលាយបំផុត។ ជាជាងការដោះស្រាយការរកឃើញវត្ថុជាបញ្ហាចាត់ថ្នាក់ អ្នកនិពន្ធបានចូលទៅជិតវាជាបញ្ហាតំរែតំរង់ជាមួយនឹងប្រអប់ព្រំដែនដាច់ដោយឡែកពីគ្នាតាមភូមិសាស្រ្ត និងប្រូបាប៊ីលីតេនៃថ្នាក់ដែលពាក់ព័ន្ធ ដែលពួកគេបានដោះស្រាយដោយប្រើតែមួយ បណ្តាញសរសៃប្រសាទ.

យូឡូវ ៧

YOLOv1 បានដំណើរការរូបថតក្នុងល្បឿន 45 ហ្វ្រេមក្នុងមួយវិនាទីក្នុងពេលវេលាជាក់ស្តែង ចំណែកឯវ៉ារ្យ៉ង់តូចជាង Fast YOLO ដំណើរការក្នុងល្បឿន 155 ហ្វ្រេមក្នុងមួយវិនាទី ហើយនៅតែទទួលបានទ្វេដងនៃ mAP នៃឧបករណ៍ចាប់ពេលវេលាជាក់ស្តែងផ្សេងទៀត។

2. YOLOv2

មួយឆ្នាំក្រោយមក ក្នុងឆ្នាំ 2016 Joseph Redmon និង Ali Farhadi បានចេញផ្សាយ YOLOv2 (ត្រូវបានគេស្គាល់ផងដែរថាជា YOLO9000) នៅក្នុងក្រដាស "YOLO9000៖ កាន់តែប្រសើរ លឿនជាងមុន ខ្លាំងជាង"។

សមត្ថភាពរបស់ម៉ូដែលក្នុងការព្យាករណ៍សូម្បីតែ 9000 ប្រភេទធាតុផ្សេងគ្នា ខណៈពេលដែលនៅតែដំណើរការក្នុងពេលវេលាជាក់ស្តែង បានទទួលវានូវការរចនា 9000។ មិនត្រឹមតែប៉ុណ្ណោះ កំណែគំរូថ្មីត្រូវបានបណ្តុះបណ្តាលក្នុងពេលដំណាលគ្នាលើសំណុំទិន្នន័យស្វែងរកវត្ថុ និងចាត់ថ្នាក់ប៉ុណ្ណោះទេ ប៉ុន្តែវាក៏ទទួលបាន Darknet-19 ជាមូលដ្ឋានគ្រឹះថ្មីផងដែរ។ គំរូ។

យូឡូវ ៧

ដោយសារតែ YOLOv2 ក៏ជាជោគជ័យដ៏ធំមួយ ហើយបានក្លាយជាគំរូនៃការទទួលស្គាល់វត្ថុទំនើបបន្ទាប់យ៉ាងឆាប់រហ័ស វិស្វករផ្សេងទៀតបានចាប់ផ្តើមពិសោធន៍ជាមួយក្បួនដោះស្រាយ និងផលិតកំណែ YOLO ផ្ទាល់ខ្លួនរបស់ពួកគេ។ ពួកគេមួយចំនួននឹងត្រូវបានពិភាក្សានៅចំណុចផ្សេងៗនៅក្នុងក្រដាស។

3. YOLOv3

នៅក្នុងក្រដាស "YOLOv3៖ ការកែលម្អបន្ថែម» Joseph Redmon និង Ali Farhadi បានបោះពុម្ភកំណែថ្មីនៃក្បួនដោះស្រាយក្នុងឆ្នាំ 2018 ។ វាត្រូវបានបង្កើតឡើងនៅលើស្ថាបត្យកម្ម Darknet-53 ។ ឧបករណ៍ចាត់ថ្នាក់ដឹកជញ្ជូនឯករាជ្យបានជំនួសយន្តការធ្វើឱ្យសកម្ម softmax នៅក្នុង YOLOv3 ។

ការបាត់បង់ឆ្លង entropy គោលពីរត្រូវបានប្រើកំឡុងពេលហ្វឹកហាត់។ Darknet-19 ត្រូវបានធ្វើឱ្យប្រសើរឡើង និងប្តូរឈ្មោះទៅជា Darknet-53 ដែលឥឡូវនេះមាន 53 ស្រទាប់ convolutional ។ ក្រៅពីនោះ ការទស្សន៍ទាយត្រូវបានធ្វើឡើងលើមាត្រដ្ឋានបីដោយឡែកពីគ្នា ដែលជួយ YOLOv3 បង្កើនភាពសុក្រឹតរបស់វាក្នុងការទស្សន៍ទាយរឿងតូចតាច។

យូឡូវ ៧

YOLOv3 គឺជាកំណែ YOLO ចុងក្រោយរបស់ Joseph Redmon ចាប់តាំងពីគាត់បានជ្រើសរើសមិនធ្វើការលើការកែលម្អ YOLO ណាមួយបន្ថែមទៀត (ឬសូម្បីតែនៅក្នុងតំបន់ចក្ខុវិស័យកុំព្យូទ័រ) ដើម្បីជៀសវាងការងាររបស់គាត់ដែលមានឥទ្ធិពលអាក្រក់លើពិភពលោក។ ឥឡូវនេះវាត្រូវបានគេប្រើភាគច្រើនជាចំណុចចាប់ផ្តើមសម្រាប់ការសាងសង់ស្ថាបត្យកម្មការរកឃើញវត្ថុតែមួយគត់។

៤.យ៉ូឡូវ ៤

Alexey Bochkovskiy, Chien-Yao Wang, និង Hong-Yuan Mark Liao បានបោះពុម្ព "YOLOv4៖ ល្បឿនល្អបំផុត និងភាពត្រឹមត្រូវនៃការរកឃើញវត្ថុនៅក្នុងខែមេសា ឆ្នាំ 2020 ដែលជាការធ្វើម្តងទៀតទីបួននៃក្បួនដោះស្រាយ YOLO ។

ការតភ្ជាប់សំណល់ដែលមានទម្ងន់ ការតភ្ជាប់ផ្នែកឆ្លងកាត់ដំណាក់កាល ការធ្វើឱ្យមានលក្ខណៈធម្មតានៃបណ្តុំតូច ការហ្វឹកហាត់ដោយខ្លួនឯង ការធ្វើឱ្យសកម្ម ប្លុកទម្លាក់ និងការបាត់បង់ CIoU ទាំងអស់ត្រូវបានណែនាំជាផ្នែកនៃស្ថាបត្យកម្ម SPDarknet53 ។

យូឡូវ ៧

YOLOv4 គឺជាកូនចៅនៃគ្រួសារ YOLO ទោះបីជាយ៉ាងណាក៏ដោយវាត្រូវបានបង្កើតឡើងដោយអ្នកវិទ្យាសាស្ត្រដាច់ដោយឡែក (មិនមែន Joseph Redmon និង Ali Farhadi) ។ ឆ្អឹងខ្នង SPDarknet53, អាងពីរ៉ាមីតលំហ, ការប្រមូលផ្តុំផ្លូវ PANet ជាក, និងក្បាល YOLOv3 បង្កើតស្ថាបត្យកម្មរបស់វា។

ជាលទ្ធផល បើប្រៀបធៀបទៅនឹងមេរបស់វា YOLOv3, YOLOv4 សម្រេចបាននូវភាពជាក់លាក់ជាមធ្យមខ្ពស់ជាង 10% និង 12% ស៊ុមក្នុងមួយវិនាទីប្រសើរជាងមុន។

5. YOLOv5

យូឡូវ ៧ គឺជាគម្រោងប្រភពបើកចំហដែលរួមបញ្ចូលជួរនៃគំរូកំណត់អត្តសញ្ញាណវត្ថុ និងក្បួនដោះស្រាយដោយផ្អែកលើគំរូ YOLO ដែលត្រូវបានបណ្តុះបណ្តាលជាមុនលើសំណុំទិន្នន័យ COCO ។

YOLOv5 គឺជាបណ្តុំនៃគំរូកំណត់អត្តសញ្ញាណវត្ថុដែលមានមាត្រដ្ឋានចម្រុះ បានទទួលការបណ្តុះបណ្តាលលើសំណុំទិន្នន័យ COCO ជាមួយនឹងសមត្ថភាពងាយស្រួលសម្រាប់ TTA ការផ្គុំគំរូ ការអភិវឌ្ឍន៍ប៉ារ៉ាម៉ែត្រខ្ពស់ និងនាំចេញទៅ ONNX, CoreML និង TFLite ។ ដោយសារតែ YOLOv5 មិនអនុវត្ត ឬបង្កើតវិធីសាស្រ្តពិសេសណាមួយ ក្រដាសផ្លូវការមិនអាចចេញផ្សាយបានទេ។ វាគ្រាន់តែជាផ្នែកបន្ថែម PyTorch របស់ YOLOv3 ប៉ុណ្ណោះ។

YOLOv5 បំរែបំរួល

Ultranytics បានប្រើសេណារីយ៉ូនេះដើម្បីផ្សព្វផ្សាយជាសាធារណៈនូវកំណែ "YOLO ថ្មី" ក្រោមការឧបត្ថម្ភរបស់វា។ ដោយសារតែមានគំរូដែលបានបណ្តុះបណ្តាលមុនចំនួនប្រាំផងដែរដែលអាចចូលដំណើរការបាន គេហទំព័រ YOLOv5 គឺមានភាពត្រង់ និងរចនា និងសរសេរប្រកបដោយវិជ្ជាជីវៈ ជាមួយនឹងមេរៀន និងការផ្ដល់យោបល់មួយចំនួនលើការបណ្តុះបណ្តាល និងការប្រើប្រាស់គំរូ YOLOv5 ។

YOLOv5 ល្បឿន

ដែនកំណត់ YOLO

ទោះបីជា YOLO ហាក់ដូចជាបច្ចេកទេសដ៏អស្ចារ្យបំផុតសម្រាប់ការដោះស្រាយក៏ដោយ។ ការរកឃើញវត្ថុ បញ្ហា, វាមានគុណវិបត្តិមួយចំនួន។ ដោយសារក្រឡាចត្រង្គនីមួយៗអាចកំណត់អត្តសញ្ញាណបានតែធាតុមួយប៉ុណ្ណោះ YOLO មានការលំបាកក្នុងការស្វែងរក និងបំបែកវត្ថុតូចៗនៅក្នុងរូបភាពដែលកើតឡើងជាក្រុម។ រឿងតូចៗនៅក្នុងហ្វូង ដូចជាស្រមោចមួយហ្វូង គឺពិបាកសម្រាប់ YOLO ដើម្បីកំណត់ និងកំណត់ទីតាំង។

បើប្រៀបធៀបទៅនឹងវិធីសាស្ត្រកំណត់អត្តសញ្ញាណវត្ថុយឺតជាងដូចជា Fast RCNN នោះ YOLO ក៏ត្រូវបានកំណត់លក្ខណៈដូចគ្នាដោយភាពត្រឹមត្រូវតិចជាង។

ចាប់ផ្តើមប្រើ YOLOv5

ប្រសិនបើអ្នកចាប់អារម្មណ៍ចង់ឃើញ YOLOv5 នៅក្នុងសកម្មភាព សូមពិនិត្យមើល GitHub ផ្លូវការ និង YOLOv5 នៅក្នុង PyTorch.

សន្និដ្ឋាន

កំណែដំបូងរបស់ YOLOv5 គឺរហ័ស ដំណើរការ និងសាមញ្ញក្នុងការប្រើប្រាស់។ ខណៈពេលដែល YOLOv5 មិនបានបន្ថែមស្ថាបត្យកម្មគំរូថ្មីណាមួយទៅក្នុងគ្រួសារ YOLO នោះវាផ្តល់នូវការបណ្តុះបណ្តាល PyTorch និងក្របខណ្ឌការដាក់ឱ្យប្រើប្រាស់ថ្មីដែលជួយពង្រឹងស្ថានភាពសិល្បៈសម្រាប់ឧបករណ៍រាវរកវត្ថុ។

លើសពីនេះ YOLOv5 គឺងាយស្រួលប្រើខ្លាំងណាស់ ហើយចេញមក "ចេញពីប្រអប់" រួចរាល់សម្រាប់ប្រើលើវត្ថុតាមតម្រូវការ។

ការណែនាំអំពី YOLO: ការរកឃើញវត្ថុពេលវេលាពិត

ដូច្នេះតើ YOLO គឺជាអ្វី?

YOLO ធ្វើការ