YOLO-യുടെ ആമുഖം: തത്സമയ ഒബ്ജക്റ്റ് കണ്ടെത്തൽ

ഉള്ളടക്ക പട്ടിക[മറയ്ക്കുക][കാണിക്കുക]

അപ്പോൾ, എന്താണ് YOLO?
YOLO പ്രവർത്തിക്കുന്നു
YOLO യുടെ വ്യത്യസ്ത വ്യതിയാനങ്ങൾ+-
YOLO പരിമിതികൾ
YOLOv5 ഉപയോഗിച്ച് ആരംഭിക്കുക
തീരുമാനം

ഒബ്ജക്റ്റ് ഡിറ്റക്ഷൻ എന്നത് ഒരു തരം ഇമേജ് വർഗ്ഗീകരണമാണ്, അതിൽ ഒരു ന്യൂറൽ നെറ്റ്‌വർക്ക് ഒരു ചിത്രത്തിലെ ഇനങ്ങൾ മുൻകൂട്ടി കാണുകയും അവയ്ക്ക് ചുറ്റും ബോർഡിംഗ് ബോക്സുകൾ വരയ്ക്കുകയും ചെയ്യുന്നു. പ്രീസെറ്റ് ക്ലാസുകളുടെ സെറ്റുമായി പൊരുത്തപ്പെടുന്ന ഒരു ഇമേജിലെ കാര്യങ്ങൾ കണ്ടെത്തുകയും പ്രാദേശികവൽക്കരിക്കുകയും ചെയ്യുന്നതിനെ ഒബ്‌ജക്റ്റ് ഡിറ്റക്ഷൻ എന്ന് വിളിക്കുന്നു.

ഒബ്ജക്റ്റ് ഡിറ്റക്ഷൻ (ഒബ്‌ജക്റ്റ് റെക്കഗ്നിഷൻ എന്നും അറിയപ്പെടുന്നു) കമ്പ്യൂട്ടർ വിഷന്റെ ഒരു പ്രത്യേക ഉപഡൊമെയ്‌നാണ്, കാരണം കണ്ടെത്തൽ, തിരിച്ചറിയൽ, പ്രാദേശികവൽക്കരണം തുടങ്ങിയ ജോലികൾ യഥാർത്ഥ ലോക സന്ദർഭങ്ങളിൽ വിശാലമായ പ്രയോഗം കണ്ടെത്തുന്നു.

ഈ ജോലികൾ ചെയ്യാൻ YOLO സമീപനം നിങ്ങളെ സഹായിക്കും. ഈ ലേഖനത്തിൽ, YOLO എന്താണ്, അത് എങ്ങനെ പ്രവർത്തിക്കുന്നു, വ്യത്യസ്ത വ്യതിയാനങ്ങൾ എന്നിവയും അതിലേറെയും ഉൾപ്പെടെ, ഞങ്ങൾ YOLO-യെ സൂക്ഷ്മമായി പരിശോധിക്കും.

അപ്പോൾ, എന്താണ് YOLO?

ഫോട്ടോഗ്രാഫുകളിൽ തത്സമയ ഒബ്ജക്റ്റ് തിരിച്ചറിയുന്നതിനും തിരിച്ചറിയുന്നതിനുമുള്ള ഒരു രീതിയാണ് YOLO. നിങ്ങൾ ഒരിക്കൽ മാത്രം നോക്കുക എന്നതിന്റെ ചുരുക്കപ്പേരാണിത്. റെഡ്മണ്ട് et al. കമ്പ്യൂട്ടർ വിഷൻ ആൻഡ് പാറ്റേൺ റെക്കഗ്നിഷൻ (സിവിപിആർ) സംബന്ധിച്ച ഐഇഇഇ/സിവിഎഫ് കോൺഫറൻസിൽ 2015-ൽ പ്രസിദ്ധീകരിച്ച ഒരു പേപ്പറിൽ ഈ സമീപനം നിർദ്ദേശിച്ചു.

ഓപ്പൺസിവി പീപ്പിൾസ് ചോയ്സ് അവാർഡ് പത്രത്തിന് ലഭിച്ചു. മുൻകാല ഒബ്‌ജക്‌റ്റ് ഐഡന്റിഫിക്കേഷൻ രീതികളിൽ നിന്ന് വ്യത്യസ്തമായി, കണ്ടെത്തുന്നതിനായി ക്ലാസിഫയറുകൾ പുനർനിർമ്മിച്ചു, YOLO ഒരു എൻഡ്-ടു-എൻഡ് ഉപയോഗം നിർദ്ദേശിക്കുന്നു. ന്യൂറൽ നെറ്റ്വർക്ക് അത് ബൗണ്ടിംഗ് ബോക്സുകളും ക്ലാസ് സാധ്യതകളും ഒരേസമയം പ്രവചിക്കുന്നു.

പഴയ തത്സമയ ഒബ്ജക്റ്റ് കണ്ടെത്തൽ രീതികളെ എളുപ്പത്തിൽ മറികടന്ന് ഒബ്‌ജക്റ്റ് തിരിച്ചറിയലിന് അടിസ്ഥാനപരമായി ഒരു പുതിയ സമീപനം സ്വീകരിച്ചുകൊണ്ട് YOLO അത്യാധുനിക ഫലങ്ങൾ നൽകുന്നു.

YOLO പ്രവർത്തിക്കുന്നു

YOLO രീതി ചിത്രത്തെ N ഗ്രിഡുകളായി വിഭജിക്കുന്നു, ഓരോന്നിനും തുല്യ വലുപ്പമുള്ള SxS ഡൈമൻഷണൽ സെക്ടർ. ഈ N ഗ്രിഡുകളിൽ ഓരോന്നിനും അതിൽ അടങ്ങിയിരിക്കുന്ന ഒബ്ജക്റ്റ് കണ്ടെത്തുന്നതിനും കണ്ടെത്തുന്നതിനും ചുമതലയുണ്ട്.

ഈ ഗ്രിഡുകൾ, സെൽ കോർഡിനേറ്റുകളുമായി ബന്ധപ്പെട്ട ബി ബൗണ്ടിംഗ് ബോക്‌സ് കോർഡിനേറ്റുകളും സെല്ലിൽ ഉള്ള വസ്തുവിന്റെ ഇനത്തിന്റെ പേരും സാധ്യതയും പ്രവചിക്കുന്നു. വ്യത്യസ്ത ബൗണ്ടിംഗ് ബോക്‌സ് പ്രവചനങ്ങൾ ഉപയോഗിച്ച് ഒരേ ഇനത്തെ പല സെല്ലുകളും പ്രവചിക്കുന്നതിനാൽ, ഈ സാങ്കേതികവിദ്യ കണക്കുകൂട്ടൽ ഗണ്യമായി കുറയ്ക്കുന്നു, കാരണം കണ്ടെത്തലും തിരിച്ചറിയലും ചിത്രത്തിൽ നിന്നുള്ള സെല്ലുകളാണ് കൈകാര്യം ചെയ്യുന്നത്.

എന്നിരുന്നാലും, ഇത് ധാരാളം ഡ്യൂപ്ലിക്കേറ്റ് പ്രവചനങ്ങൾ സൃഷ്ടിക്കുന്നു. ഈ പ്രശ്നം പരിഹരിക്കാൻ, YOLO നോൺ-മാക്സിമൽ സപ്രഷൻ ഉപയോഗിക്കുന്നു. നോൺ-മാക്സിമൽ സപ്രഷനിൽ കുറഞ്ഞ പ്രോബബിലിറ്റി സ്കോറുകളുള്ള എല്ലാ ബൗണ്ടിംഗ് ബോക്സുകളും YOLO അടിച്ചമർത്തുന്നു.

ഓരോ ഓപ്‌ഷനുമായും ലിങ്ക് ചെയ്‌തിരിക്കുന്ന പ്രോബബിലിറ്റി സ്‌കോറുകൾ പരിശോധിച്ച് ഏറ്റവും ഉയർന്ന സ്‌കോർ തിരഞ്ഞെടുക്കുന്നതിലൂടെയാണ് YOLO ഇത് ചെയ്യുന്നത്. നിലവിലെ ഹൈ പ്രോബബിലിറ്റി ബൗണ്ടിംഗ് ബോക്‌സുള്ള യൂണിയന്റെ ഏറ്റവും വലിയ ഇന്റർസെക്ഷൻ ഉള്ള ബൗണ്ടിംഗ് ബോക്‌സുകൾ പിന്നീട് അമർത്തപ്പെടും.

ബൗണ്ടിംഗ് ബോക്സുകൾ പൂർത്തിയാകുന്നതുവരെ ഈ പ്രക്രിയ തുടരുന്നു.

YOLO യുടെ വ്യത്യസ്ത വ്യതിയാനങ്ങൾ

ഞങ്ങൾ ഏറ്റവും സാധാരണമായ ചില YOLO പതിപ്പുകൾ നോക്കാം. നമുക്ക് തുടങ്ങാം.

1. YOLov1

പ്രാരംഭ YOLO പതിപ്പ് 2015 ൽ പ്രസിദ്ധീകരണത്തിൽ പ്രഖ്യാപിച്ചു.നിങ്ങൾ ഒരിക്കൽ മാത്രം നോക്കൂ: ഏകീകൃത, തത്സമയ ഒബ്ജക്റ്റ് കണ്ടെത്തൽ” ജോസഫ് റെഡ്‌മോൻ, സന്തോഷ് ദിവ്വാല, റോസ് ഗിർഷിക്ക്, അലി ഫർഹാദി എന്നിവർ.

വേഗത, കൃത്യത, പഠന ശേഷി എന്നിവ കാരണം, YOLO പെട്ടെന്ന് ഒബ്ജക്റ്റ് ഐഡന്റിഫിക്കേഷൻ മേഖലയിൽ ആധിപത്യം സ്ഥാപിക്കുകയും ഏറ്റവും വ്യാപകമായി ഉപയോഗിക്കുന്ന അൽഗോരിതം ആയി മാറുകയും ചെയ്തു. ഒബ്‌ജക്റ്റ് ഡിറ്റക്ഷനെ ഒരു വർഗ്ഗീകരണ പ്രശ്‌നമായി അഭിസംബോധന ചെയ്യുന്നതിനുപകരം, ഭൂമിശാസ്ത്രപരമായി വേർതിരിക്കുന്ന ബൗണ്ടിംഗ് ബോക്‌സുകളും അനുബന്ധ ക്ലാസ് സാധ്യതകളും ഉള്ള ഒരു റിഗ്രഷൻ പ്രശ്‌നമായാണ് രചയിതാക്കൾ ഇതിനെ സമീപിച്ചത്, അത് അവർ ഒറ്റത്തവണ ഉപയോഗിച്ച് പരിഹരിച്ചു. ന്യൂറൽ നെറ്റ്വർക്ക്.

YOLOv1

YOLOv1 തത്സമയം സെക്കൻഡിൽ 45 ഫ്രെയിമുകളിൽ ഫോട്ടോകൾ പ്രോസസ്സ് ചെയ്തു, അതേസമയം ചെറിയ വേരിയന്റായ Fast YOLO, സെക്കൻഡിൽ 155 ഫ്രെയിമുകൾ പ്രോസസ്സ് ചെയ്യുകയും മറ്റ് തത്സമയ ഡിറ്റക്ടറുകളുടെ ഇരട്ടി mAP നേടുകയും ചെയ്തു.

2. YOLov2

ഒരു വർഷത്തിനുശേഷം, 2016-ൽ, ജോസഫ് റെഡ്മോണും അലി ഫർഹാദിയും പേപ്പറിൽ YOLOv2 (YOLO9000 എന്നും അറിയപ്പെടുന്നു) പുറത്തിറക്കി.YOLO9000: മികച്ചത്, വേഗതയേറിയത്, ശക്തം. "

തത്സമയം പ്രവർത്തിക്കുമ്പോൾ തന്നെ 9000 വ്യത്യസ്‌ത ഇന വിഭാഗങ്ങൾ പോലും പ്രവചിക്കാനുള്ള മോഡലിന്റെ കഴിവ് ഇതിന് 9000 എന്ന പദവി നേടിക്കൊടുത്തു. പുതിയ മോഡൽ പതിപ്പ് ഒരേസമയം ഒബ്‌ജക്റ്റ് ഡിറ്റക്ഷനിലും ക്ലാസിഫിക്കേഷൻ ഡാറ്റാസെറ്റുകളിലും പരിശീലനം നേടിയിരുന്നുവെന്ന് മാത്രമല്ല, പുതിയ അടിസ്ഥാനമായി ഡാർക്ക്നെറ്റ്-19-ഉം ലഭിച്ചു. മാതൃക.

YOLOv2

YOLOv2 വൻ വിജയമായതിനാലും അത്യാധുനിക ഒബ്‌ജക്‌റ്റ് തിരിച്ചറിയൽ മോഡലായി മാറിയതിനാലും, മറ്റ് എഞ്ചിനീയർമാർ അൽഗോരിതം ഉപയോഗിച്ച് പരീക്ഷണം നടത്താനും അവരുടേതായ, അതുല്യമായ YOLO പതിപ്പുകൾ നിർമ്മിക്കാനും തുടങ്ങി. അവയിൽ ചിലത് പേപ്പറിലെ വിവിധ പോയിന്റുകളിൽ ചർച്ച ചെയ്യും.

3. YOLov3

പേപ്പറിൽ "YOLOv3: ഒരു ഇൻക്രിമെന്റൽ മെച്ചപ്പെടുത്തൽ"ജോസഫ് റെഡ്മോണും അലി ഫർഹാദിയും 2018-ൽ അൽഗോരിതത്തിന്റെ ഒരു പുതിയ പതിപ്പ് പ്രസിദ്ധീകരിച്ചു. ഡാർക്ക്നെറ്റ്-53 ആർക്കിടെക്ചറിലാണ് ഇത് നിർമ്മിച്ചിരിക്കുന്നത്. സ്വതന്ത്ര ലോജിസ്റ്റിക് ക്ലാസിഫയറുകൾ YOLOv3-ലെ സോഫ്റ്റ്‌മാക്സ് ആക്ടിവേഷൻ മെക്കാനിസത്തെ മാറ്റിസ്ഥാപിച്ചു.

പരിശീലന സമയത്ത് ബൈനറി ക്രോസ്-എൻട്രോപി നഷ്ടം ഉപയോഗിച്ചു. ഡാർക്ക്നെറ്റ്-19 മെച്ചപ്പെടുത്തി ഡാർക്ക്നെറ്റ്-53 എന്ന് പുനർനാമകരണം ചെയ്തു, അതിന് ഇപ്പോൾ 53 കൺവല്യൂഷണൽ പാളികളുണ്ട്. ഇത് കൂടാതെ, പ്രവചനങ്ങൾ മൂന്ന് വ്യത്യസ്ത സ്കെയിലുകളിലാണ് നടത്തിയത്, ഇത് ചെറിയ കാര്യങ്ങൾ പ്രവചിക്കുന്നതിൽ അതിന്റെ കൃത്യത വർദ്ധിപ്പിക്കാൻ YOLOv3-നെ സഹായിച്ചു.

YOLOv3

ജോസഫ് റെഡ്മോന്റെ അവസാന YOLO പതിപ്പ് YOLOv3 ആയിരുന്നു, കാരണം തന്റെ ജോലി ലോകത്തെ ദോഷകരമായി ബാധിക്കാതിരിക്കാൻ കൂടുതൽ YOLO മെച്ചപ്പെടുത്തലുകളിൽ (അല്ലെങ്കിൽ കമ്പ്യൂട്ടർ വിഷൻ ഏരിയയിൽ പോലും) പ്രവർത്തിക്കേണ്ടതില്ലെന്ന് അദ്ദേഹം തീരുമാനിച്ചു. അതുല്യമായ ഒബ്‌ജക്റ്റ്-ഡിറ്റക്ഷൻ ആർക്കിടെക്ചറുകൾ നിർമ്മിക്കുന്നതിനുള്ള ഒരു ആരംഭ പോയിന്റായി ഇത് ഇപ്പോൾ കൂടുതലായി ഉപയോഗിക്കുന്നു.

4. യോലോവ്4

അലക്സി ബോച്ച്കോവ്സ്കി, ചിയെൻ-യാവോ വാങ്, ഹോങ്-യുവാൻ മാർക്ക് ലിയാവോ എന്നിവർ പ്രസിദ്ധീകരിച്ചു.YOLov4: ഒബ്ജക്റ്റ് ഡിറ്റക്ഷന്റെ ഒപ്റ്റിമൽ വേഗതയും കൃത്യതയും” 2020 ഏപ്രിലിൽ, ഇത് YOLO അൽഗോരിതത്തിന്റെ നാലാമത്തെ ആവർത്തനമായിരുന്നു.

വെയ്റ്റഡ് റെസിഡ്യൂവൽ കണക്ഷനുകൾ, ക്രോസ്-സ്റ്റേജ്-പാർഷ്യൽ കണക്ഷനുകൾ, ക്രോസ് മിനി-ബാച്ച് നോർമലൈസേഷൻ, സ്വയം-എതിരാളി പരിശീലനം, മിഷ് ആക്ടിവേഷൻ, ഡ്രോപ്പ് ബ്ലോക്ക്, CIOU നഷ്ടം എന്നിവയെല്ലാം SPDarknet53 ആർക്കിടെക്ചറിന്റെ ഭാഗമായി അവതരിപ്പിച്ചു.

YOLOv4

YOLOv4 യോലോ കുടുംബത്തിന്റെ പിൻഗാമിയാണ്, എന്നിരുന്നാലും ഇത് വികസിപ്പിച്ചെടുത്തത് പ്രത്യേക ശാസ്ത്രജ്ഞരാണ് (ജോസഫ് റെഡ്മോണും അലി ഫർഹാദിയും അല്ല). SPDarknet53 നട്ടെല്ല്, സ്പേഷ്യൽ പിരമിഡ് പൂളിംഗ്, കഴുത്തായി PANet പാത്ത്-അഗ്രിഗേഷൻ, YOLOv3 തല എന്നിവ അതിന്റെ വാസ്തുവിദ്യയിൽ ഉൾപ്പെടുന്നു.

അനന്തരഫലമായി, അതിന്റെ രക്ഷിതാവായ YOLOv3-മായി താരതമ്യപ്പെടുത്തുമ്പോൾ, YOLOv4 10% ഉയർന്ന ശരാശരി കൃത്യതയും സെക്കൻഡിൽ 12% മികച്ച ഫ്രെയിമുകളും നേടുന്നു.

5. YOLov5

യൊലൊവ്൪ COCO ഡാറ്റാസെറ്റിൽ മുൻകൂട്ടി പരിശീലിപ്പിച്ച YOLO മോഡലിനെ അടിസ്ഥാനമാക്കിയുള്ള ഒബ്ജക്റ്റ് ഐഡന്റിഫിക്കേഷൻ മോഡലുകളുടെയും അൽഗോരിതങ്ങളുടെയും ഒരു ശ്രേണി ഉൾപ്പെടുന്ന ഒരു ഓപ്പൺ സോഴ്സ് പ്രോജക്റ്റ് ആണ്.

കോമ്പൗണ്ട്-സ്കെയിൽഡ് ഒബ്ജക്റ്റ് ഐഡന്റിഫിക്കേഷൻ മോഡലുകളുടെ ഒരു ശേഖരമാണ് YOLOv5 TTA, മോഡൽ അസംബ്ലി, ഹൈപ്പർപാരാമീറ്റർ വികസനം, ONNX, CoreML, TFLite എന്നിവയിലേക്ക് കയറ്റുമതി ചെയ്യുന്നതിനുള്ള എളുപ്പമുള്ള കഴിവുകളോടെ, COCO ഡാറ്റാസെറ്റിൽ പരിശീലനം നേടി. YOLOv5 തനതായ സമീപനങ്ങളൊന്നും നടപ്പിലാക്കുകയോ വികസിപ്പിക്കുകയോ ചെയ്യാത്തതിനാൽ, ഔപചാരിക പേപ്പർ പുറത്തിറക്കാൻ കഴിഞ്ഞില്ല. ഇത് YOLOv3 ന്റെ PyTorch വിപുലീകരണമാണ്.

അതിന്റെ സ്പോൺസർഷിപ്പിന് കീഴിൽ "പുതിയ YOLO" പതിപ്പ് പ്രസിദ്ധീകരിക്കാൻ Ultranytics ഈ സാഹചര്യം ഉപയോഗിച്ചു. അഞ്ച് പ്രീ-ട്രെയിൻഡ് മോഡലുകളും ആക്‌സസ് ചെയ്യാനായതിനാൽ, YOLOv5 മോഡലുകൾ പരിശീലിപ്പിക്കുന്നതിനും ഉപയോഗിക്കുന്നതിനുമുള്ള നിരവധി പാഠങ്ങളും നിർദ്ദേശങ്ങളുമുള്ള YOLOv5 ഹോംപേജ് തികച്ചും നേരായതും പ്രൊഫഷണലായി ഘടനാപരവും എഴുതിയതുമാണ്.

YOLO പരിമിതികൾ

YOLO എന്നത് പരിഹരിക്കാനുള്ള ഏറ്റവും വലിയ സാങ്കേതികതയാണെന്ന് തോന്നുന്നുവെങ്കിലും ഒബ്ജക്റ്റ് കണ്ടെത്തൽ പ്രശ്നങ്ങൾ, ഇതിന് നിരവധി പോരായ്മകളുണ്ട്. ഓരോ ഗ്രിഡിനും ഒരു ഇനം മാത്രമേ തിരിച്ചറിയാൻ കഴിയൂ എന്നതിനാൽ, ഗ്രൂപ്പുകളിൽ സംഭവിക്കുന്ന ചിത്രങ്ങളിലെ ചെറിയ കാര്യങ്ങൾ കണ്ടെത്താനും വേർതിരിക്കാനും YOLO ബുദ്ധിമുട്ടുന്നു. കൂട്ടത്തിലെ ചെറിയ കാര്യങ്ങൾ, ഉറുമ്പുകളുടെ കൂട്ടം പോലെ, YOLO-യ്ക്ക് തിരിച്ചറിയാനും കണ്ടെത്താനും പ്രയാസമാണ്.

ഫാസ്റ്റ് ആർ‌സി‌എൻ‌എൻ പോലെയുള്ള സാവധാനത്തിലുള്ള ഒബ്‌ജക്റ്റ് ഐഡന്റിഫിക്കേഷൻ രീതികളുമായി താരതമ്യപ്പെടുത്തുമ്പോൾ, YOLO യുടെ സവിശേഷതയും കുറഞ്ഞ കൃത്യതയാണ്.

YOLOv5 ഉപയോഗിച്ച് ആരംഭിക്കുക

ഒരു YOLOv5 പ്രവർത്തനക്ഷമമായി കാണാൻ നിങ്ങൾക്ക് താൽപ്പര്യമുണ്ടെങ്കിൽ, പരിശോധിക്കുക ഔദ്യോഗിക GitHub ഒപ്പം PyTorch-ൽ YOLOv5.

തീരുമാനം

YOLOv5-ന്റെ പ്രാരംഭ പതിപ്പ് വളരെ വേഗമേറിയതും പ്രവർത്തനക്ഷമതയുള്ളതും ഉപയോഗിക്കാൻ ലളിതവുമാണ്. YOLOv5, YOLO കുടുംബത്തിലേക്ക് ഒരു പുതിയ മോഡൽ ആർക്കിടെക്ചറും ചേർക്കുന്നില്ലെങ്കിലും, ഒബ്‌ജക്റ്റ് ഡിറ്റക്ടറുകളുടെ അത്യാധുനികത വർദ്ധിപ്പിക്കുന്ന ഒരു പുതിയ PyTorch പരിശീലനവും വിന്യാസ ചട്ടക്കൂടും ഇത് നൽകുന്നു.

കൂടാതെ, YOLOv5 അങ്ങേയറ്റം ഉപയോക്തൃ-സൗഹൃദമാണ് കൂടാതെ ബെസ്‌പോക്ക് ഒബ്‌ജക്‌റ്റുകളിൽ ഉപയോഗിക്കാൻ തയ്യാറായ "ബോക്‌സിന് പുറത്ത്" വരുന്നു.

YOLO-യുടെ ആമുഖം: തത്സമയ ഒബ്ജക്റ്റ് കണ്ടെത്തൽ

അപ്പോൾ, എന്താണ് YOLO?

YOLO പ്രവർത്തിക്കുന്നു