វាជាការធានាថា ពួកយើងបានគ្រប់គ្រងមនុស្សយន្តជាមួយនឹងសមត្ថភាពពីកំណើតរបស់យើង ដើម្បីរៀនតាមគំរូ និងយល់ឃើញជុំវិញខ្លួនរបស់ពួកគេ។ បញ្ហាប្រឈមជាមូលដ្ឋានគឺការបង្រៀនកុំព្យូទ័រឱ្យ "មើល" ដូចជាមនុស្សត្រូវការពេលវេលានិងការខិតខំច្រើនជាងនេះ។
ទោះជាយ៉ាងណាក៏ដោយ នៅពេលដែលយើងពិចារណាលើតម្លៃជាក់ស្តែងដែលជំនាញនេះផ្តល់ដល់អង្គការ និងសហគ្រាសនាពេលបច្ចុប្បន្ន ការខិតខំប្រឹងប្រែងគឺមានប្រយោជន៍។ នៅក្នុងអត្ថបទនេះ អ្នកនឹងរៀនអំពីការចាត់ថ្នាក់រូបភាព របៀបដែលវាដំណើរការ និងការអនុវត្តជាក់ស្តែងរបស់វា។ តោះចាប់ផ្ដើម។
តើការចាត់ថ្នាក់រូបភាពគឺជាអ្វី?
ការងារផ្តល់រូបភាពទៅក្នុង ក បណ្តាញសរសៃប្រសាទ ហើយការឱ្យវាចេញនូវទម្រង់នៃស្លាកសម្រាប់រូបភាពនោះ ត្រូវបានគេស្គាល់ថាជារូបភាពទទួលស្គាល់។ ស្លាកលទ្ធផលនៃបណ្តាញនឹងឆ្លើយតបទៅនឹងថ្នាក់ដែលបានកំណត់ជាមុន។
វាអាចមានថ្នាក់ជាច្រើនដែលបានកំណត់ទៅរូបភាព ឬគ្រាន់តែមួយប៉ុណ្ណោះ។ នៅពេលដែលមានថ្នាក់តែមួយ ពាក្យ "ការទទួលស្គាល់" ត្រូវបានគេប្រើជាញឹកញាប់ ចំណែកឯនៅពេលដែលមានថ្នាក់ច្រើន ពាក្យ "ចំណាត់ថ្នាក់" ត្រូវបានគេប្រើញឹកញាប់។
ការរកឃើញវត្ថុ គឺជាសំណុំរងនៃចំណាត់ថ្នាក់រូបភាព ដែលវត្ថុពិសេសៗត្រូវបានរកឃើញថាជាកម្មសិទ្ធិរបស់ថ្នាក់ដែលបានផ្តល់ឱ្យ ដូចជាសត្វ យានជំនិះ ឬមនុស្ស។
តើការចាត់ថ្នាក់រូបភាពដំណើរការយ៉ាងដូចម្តេច?
រូបភាពក្នុងទម្រង់ភីកសែលត្រូវបានវិភាគដោយកុំព្យូទ័រ។ វាសម្រេចវាដោយចាត់ទុករូបភាពជាបណ្តុំនៃម៉ាទ្រីស ទំហំដែលត្រូវបានកំណត់ដោយគុណភាពបង្ហាញរូបភាព។ និយាយឱ្យសាមញ្ញ ចំណាត់ថ្នាក់រូបភាព គឺជាការសិក្សាទិន្នន័យស្ថិតិដោយប្រើក្បួនដោះស្រាយតាមទស្សនៈរបស់កុំព្យូទ័រ។
ការចាត់ថ្នាក់រូបភាពត្រូវបានសម្រេចនៅក្នុងដំណើរការរូបភាពឌីជីថលដោយការដាក់ជាក្រុមភីកសែលទៅជាក្រុមដែលបានកំណត់ទុកជាមុន ឬ "ថ្នាក់"។ ក្បួនដោះស្រាយបែងចែករូបភាពទៅជាលក្ខណៈបន្តបន្ទាប់នៃលក្ខណៈគួរឱ្យកត់សម្គាល់ ដែលកាត់បន្ថយបន្ទុកសម្រាប់អ្នកចាត់ថ្នាក់ចុងក្រោយ។
គុណភាពទាំងនេះប្រាប់អ្នកចាត់ថ្នាក់អំពីអត្ថន័យនៃរូបភាព និងការចាត់ថ្នាក់សក្តានុពល។ ដោយសារតែដំណើរការដែលនៅសល់ក្នុងការចាត់ថ្នាក់រូបភាពគឺអាស្រ័យលើវា វិធីសាស្ត្រស្រង់ចេញលក្ខណៈគឺជាដំណាក់កាលដ៏សំខាន់បំផុត។
នេះ ទិន្នន័យដែលបានផ្តល់ ចំពោះក្បួនដោះស្រាយក៏មានសារៈសំខាន់ផងដែរក្នុងការចាត់ថ្នាក់រូបភាព ជាពិសេសការចាត់ថ្នាក់ដែលស្ថិតក្រោមការគ្រប់គ្រង។ នៅក្នុងការប្រៀបធៀបទៅនឹងសំណុំទិន្នន័យដ៏គួរឱ្យភ័យខ្លាចជាមួយនឹងអតុល្យភាពទិន្នន័យផ្អែកលើថ្នាក់ និងគុណភាពរូបភាព និងចំណារពន្យល់ទាប សំណុំទិន្នន័យចំណាត់ថ្នាក់ដែលបានធ្វើឱ្យប្រសើរល្អដំណើរការគួរឱ្យកោតសរសើរ។
ការចាត់ថ្នាក់រូបភាពដោយប្រើ Tensorflow & Keras នៅក្នុង python
យើងនឹងប្រើ ស៊ីអេហ្វអេ -១០ សំណុំទិន្នន័យ (ដែលរួមមានយន្តហោះ យន្តហោះ សត្វស្លាប និងវត្ថុ 7 ផ្សេងទៀត)។
1. ការដំឡើងតម្រូវការ
លេខកូដខាងក្រោមនឹងដំឡើងរាល់តម្រូវការជាមុន។
2. ការនាំចូលភាពអាស្រ័យ
បង្កើតឯកសារ train.py នៅក្នុង Python ។ កូដខាងក្រោមនឹងនាំចូល Tensorflow និង Keras dependencies។
3. ការចាប់ផ្ដើមប៉ារ៉ាម៉ែត្រ
CIFAR-10 រួមបញ្ចូលតែ 10 ប្រភេទរូបភាព ដូច្នេះថ្នាក់លេខគ្រាន់តែសំដៅលើចំនួននៃប្រភេទដែលត្រូវចាត់ថ្នាក់។
4. កំពុងផ្ទុកសំណុំទិន្នន័យ
មុខងារនេះប្រើម៉ូឌុល Tensorflow Datasets ដើម្បីផ្ទុកសំណុំទិន្នន័យ ហើយយើងកំណត់ជាមួយព័ត៌មានទៅ True ដើម្បីទទួលបានព័ត៌មានមួយចំនួនអំពីវា។ អ្នកអាចបោះពុម្ពវាចេញ ដើម្បីមើលថាតើវាល និងតម្លៃរបស់វាមានអ្វីខ្លះ ហើយយើងនឹងប្រើព័ត៌មានដើម្បីទាញយកចំនួនគំរូនៅក្នុងឈុតបណ្តុះបណ្តាល និងការធ្វើតេស្ត។
5. ការបង្កើតគំរូ
ឥឡូវនេះយើងនឹងបង្កើតស្រទាប់បី ដែលនីមួយៗមាន ConvNets ពីរដែលមានមុខងារ max-pooling និង ReLU activation អមដោយប្រព័ន្ធ 1024-unit ដែលបានតភ្ជាប់យ៉ាងពេញលេញ។ នៅក្នុងការប្រៀបធៀបទៅនឹង ResNet50 ឬ Xception ដែលជាម៉ូដែលទំនើបបំផុត វាអាចជាគំរូតូចមួយប្រៀបធៀប។
6. ការបណ្តុះបណ្តាលគំរូ
ខ្ញុំបានប្រើ Tensorboard ដើម្បីវាស់ស្ទង់ភាពត្រឹមត្រូវ និងការបាត់បង់នៅក្នុងសម័យនីមួយៗ ហើយផ្តល់ឱ្យយើងនូវការបង្ហាញដ៏គួរឱ្យស្រឡាញ់មួយបន្ទាប់ពីនាំចូលទិន្នន័យ និងបង្កើតគំរូ។ ដំណើរការកូដខាងក្រោម; អាស្រ័យលើ CPU/GPU របស់អ្នក ការបណ្តុះបណ្តាលនឹងចំណាយពេលច្រើននាទី។
ដើម្បីប្រើ tensorboard គ្រាន់តែវាយពាក្យបញ្ជាខាងក្រោមក្នុង terminal ឬ command prompt ក្នុង directory បច្ចុប្បន្ន៖
អ្នកនឹងឃើញថាការបាត់បង់សុពលភាពកំពុងកាត់បន្ថយ ហើយភាពត្រឹមត្រូវកើនឡើងដល់ប្រហែល 81%។ ពិតជាអស្ចារ្យមែន!
សាកល្បងគំរូ។
នៅពេលដែលការបណ្តុះបណ្តាលត្រូវបានបញ្ចប់ គំរូ និងទម្ងន់ចុងក្រោយត្រូវបានរក្សាទុកក្នុងថតលទ្ធផល ដែលអនុញ្ញាតឱ្យយើងហ្វឹកហាត់ម្តង និងធ្វើការទស្សន៍ទាយនៅពេលណាដែលយើងជ្រើសរើស។ អនុវត្តតាមកូដនៅក្នុងឯកសារ python ថ្មីមួយដែលមានឈ្មោះថា test.py ។
7. ការនាំចូលឧបករណ៍ប្រើប្រាស់សម្រាប់ការធ្វើតេស្ត
8. បង្កើតថត python
បង្កើតវចនានុក្រម Python ដែលបកប្រែតម្លៃចំនួនគត់នីមួយៗទៅជាស្លាកដែលសមរម្យរបស់សំណុំទិន្នន័យ៖
9. កំពុងផ្ទុកទិន្នន័យសាកល្បង & គំរូ
កូដខាងក្រោមនឹងផ្ទុកទិន្នន័យសាកល្បង និងគំរូ។
10. ការវាយតម្លៃ និងការទស្សន៍ទាយ
កូដខាងក្រោមនឹងវាយតម្លៃ និងធ្វើការទស្សន៍ទាយលើរូបភាពកង្កែប។
11 ។ លទ្ធផល
គំរូនេះបានទស្សន៍ទាយសត្វកង្កែបដោយមានភាពត្រឹមត្រូវ 80.62% ។
សន្និដ្ឋាន
មិនអីទេ យើងបានបញ្ចប់មេរៀននេះហើយ។ ខណៈពេលដែល 80.62% មិនល្អសម្រាប់ CNN តិចតួច ខ្ញុំណែនាំយ៉ាងមុតមាំឱ្យអ្នកផ្លាស់ប្តូរម៉ូដែល ឬមើល ResNet50, Xception ឬម៉ូដែលទំនើបផ្សេងទៀតដើម្បីទទួលបានលទ្ធផលប្រសើរជាងមុន។
ឥឡូវនេះអ្នកបានបង្កើតបណ្តាញទទួលស្គាល់រូបភាពដំបូងរបស់អ្នកនៅក្នុង Keras អ្នកគួរតែសាកល្បងជាមួយគំរូដើម្បីរកមើលថាតើប៉ារ៉ាម៉ែត្រផ្សេងគ្នាប៉ះពាល់ដល់ដំណើរការរបស់វា។
សូមផ្ដល់យោបល់