ऑब्जेक्ट डिटेक्शन हा इमेज वर्गीकरणाचा एक प्रकार आहे ज्यामध्ये न्यूरल नेटवर्क इमेजमधील वस्तूंचा अंदाज घेते आणि त्यांच्याभोवती बाउंडिंग बॉक्स काढते. वर्गांच्या प्रीसेट सेटला अनुरूप असलेल्या इमेजमधील गोष्टी शोधणे आणि स्थानिकीकरण करणे याला ऑब्जेक्ट डिटेक्शन असे म्हणतात.
ऑब्जेक्ट डिटेक्शन (ऑब्जेक्ट रेकग्निशन म्हणूनही ओळखले जाते) हे कॉम्प्युटर व्हिजनचे विशेषतः महत्त्वपूर्ण सबडोमेन आहे कारण शोध, ओळख आणि स्थानिकीकरण यांसारखी कार्ये वास्तविक-जगातील संदर्भांमध्ये विस्तृत अनुप्रयोग शोधतात.
YOLO दृष्टिकोन तुम्हाला ही कामे करण्यात मदत करू शकतो. या निबंधात, आम्ही YOLO काय आहे, ते कसे कार्य करते, भिन्न भिन्नता आणि बरेच काही यासह ते जवळून पाहू.
तर, योलो म्हणजे काय?
YOLO ही रिअल-टाइम ऑब्जेक्ट ओळखण्याची आणि छायाचित्रांमध्ये ओळखण्याची एक पद्धत आहे. यू ओन्ली लूक वन्स असे हे संक्षिप्त रूप आहे. रेडमंड वगैरे. 2015 मध्ये IEEE/CVF कॉन्फरन्स ऑन कॉम्प्युटर व्हिजन अँड पॅटर्न रिकग्निशन (CVPR) मध्ये सुरुवातीला प्रकाशित झालेल्या एका पेपरमध्ये दृष्टिकोन प्रस्तावित केला.
पेपरला ओपनसीव्ही पीपल्स चॉइस अवॉर्ड देण्यात आला. मागील ऑब्जेक्ट ओळखण्याच्या पद्धतींच्या विपरीत, ज्याने शोध घेण्यासाठी वर्गीकरणाचा पुनर्प्रयोग केला, YOLO ने एंड-टू-एंडचा वापर प्रस्तावित केला. मज्जासंस्थेसंबंधीचा नेटवर्क जे एकाच वेळी बाउंडिंग बॉक्स आणि क्लास संभाव्यता यांचा अंदाज लावते.
YOLO ऑब्जेक्ट ओळखण्यासाठी मूलभूतपणे नवीन दृष्टीकोन घेऊन, मागील रिअल-टाइम ऑब्जेक्ट शोध पद्धतींना सहजतेने मागे टाकून अत्याधुनिक परिणाम तयार करते.
YOLO कार्यरत आहे
YOLO पद्धत चित्राला N ग्रिडमध्ये विभाजित करते, प्रत्येक समान आकाराच्या SxS आयामी क्षेत्रासह. यातील प्रत्येक N ग्रिडमध्ये समाविष्ट असलेली वस्तू शोधणे आणि ते शोधण्याचे काम आहे.
हे ग्रिड्स, या बदल्यात, सेल निर्देशांकाच्या सापेक्ष B बाउंडिंग बॉक्स निर्देशांक, तसेच आयटमचे नाव आणि सेलमध्ये ऑब्जेक्ट उपस्थित असण्याची शक्यता वर्तवतात. वेगवेगळ्या बाउंडिंग बॉक्सच्या अंदाजांसह एकाच वस्तूचा अंदाज लावणाऱ्या अनेक पेशींमुळे, हे तंत्र गणनेत लक्षणीय घट करते कारण शोध आणि ओळख दोन्ही चित्रातील पेशींद्वारे हाताळले जातात.
तथापि, ते बरेच डुप्लिकेट अंदाज तयार करते. या समस्येचे निराकरण करण्यासाठी, YOLO नॉन-मॅक्सिमल सप्रेशन वापरते. YOLO नॉन-मॅक्सिमल सप्रेशनमध्ये कमी संभाव्यता स्कोअरसह सर्व बाउंडिंग बॉक्स दाबते.
YOLO हे प्रत्येक पर्यायाशी जोडलेल्या संभाव्यता स्कोअरचे परीक्षण करून आणि सर्वोच्च स्कोअर असलेला एक निवडून करते. वर्तमान उच्च संभाव्यता बाउंडिंग बॉक्ससह युनियनवर सर्वात मोठे छेदनबिंदू असलेले बाउंडिंग बॉक्स नंतर दाबले जातात.
बाउंडिंग बॉक्स पूर्ण होईपर्यंत ही प्रक्रिया सुरू ठेवली जाते.
YOLO चे विविध प्रकार
आम्ही काही सर्वात सामान्य YOLO आवृत्त्या पाहू. चला सुरू करुया.
1. YOLOv1
सुरुवातीच्या YOLO आवृत्तीची घोषणा 2015 मध्ये प्रकाशनात करण्यात आली होती “तुम्ही फक्त एकदाच पहा: युनिफाइड, रिअल-टाइम ऑब्जेक्ट डिटेक्शनजोसेफ रेडमॉन, संतोष दिव्वाला, रॉस गिरशिक आणि अली फरहादी यांनी.
त्याची गती, अचूकता आणि शिकण्याच्या क्षमतेमुळे, YOLO ने ऑब्जेक्ट ओळखण्याच्या क्षेत्रावर त्वरीत वर्चस्व मिळवले आणि सर्वात जास्त वापरले जाणारे अल्गोरिदम बनले. ऑब्जेक्ट डिटेक्शनला वर्गीकरण समस्या म्हणून संबोधित करण्याऐवजी, लेखकांनी भौगोलिकदृष्ट्या विभक्त बाउंडिंग बॉक्स आणि संबंधित वर्ग संभाव्यतेसह प्रतिगमन समस्या म्हणून संपर्क साधला, ज्याचे निराकरण त्यांनी एकल वापरून केले. मज्जासंस्थेसंबंधीचा नेटवर्क.
YOLOv1 ने रिअल-टाइममध्ये 45 फ्रेम्स प्रति सेकंदाने फोटोंवर प्रक्रिया केली, तर एक लहान प्रकार, फास्ट YOLO, प्रति सेकंद 155 फ्रेम्सने प्रक्रिया केली आणि तरीही इतर रीअल-टाइम डिटेक्टरच्या दुप्पट mAP मिळवली.
2. YOLOv2
एका वर्षानंतर, 2016 मध्ये, जोसेफ रेडमन आणि अली फरहादी यांनी पेपरमध्ये YOLOv2 (YOLO9000 म्हणूनही ओळखले जाते) जारी केले.YOLO9000: अधिक चांगले, वेगवान, मजबूत. "
रीअल-टाइममध्ये चालत असताना देखील 9000 भिन्न वस्तू श्रेणींचा अंदाज लावण्याची मॉडेलची क्षमता त्याला 9000 असे पदनाम मिळवून दिली. नवीन मॉडेल आवृत्तीला एकाच वेळी ऑब्जेक्ट शोधणे आणि वर्गीकरण डेटासेटचे प्रशिक्षण देण्यात आले नाही तर नवीन आधाररेखा म्हणून डार्कनेट-19 देखील मिळाले. मॉडेल
कारण YOLOv2 ला देखील मोठे यश मिळाले आणि ते त्वरीत पुढील अत्याधुनिक ऑब्जेक्ट ओळखण्याचे मॉडेल बनले, इतर अभियंत्यांनी अल्गोरिदमसह प्रयोग करण्यास सुरुवात केली आणि त्यांच्या स्वतःच्या, अद्वितीय YOLO आवृत्त्या तयार केल्या. त्यापैकी काहींवर पेपरमध्ये विविध मुद्यांवर चर्चा केली जाईल.
3. YOLOv3
पेपरमध्ये "YOLOv3: एक वाढीव सुधारणा,” जोसेफ रेडमन आणि अली फरहादी यांनी 2018 मध्ये अल्गोरिदमची नवीन आवृत्ती प्रकाशित केली. ती डार्कनेट-53 आर्किटेक्चरवर तयार केली गेली. स्वतंत्र लॉजिस्टिक क्लासिफायर्सने YOLOv3 मधील सॉफ्टमॅक्स सक्रियकरण यंत्रणा बदलली.
प्रशिक्षणादरम्यान बायनरी क्रॉस-एंट्रॉपी नुकसान वापरले गेले. डार्कनेट-19 वर्धित केले गेले आणि त्याचे नाव डार्कनेट-53 असे ठेवले गेले, ज्यात आता 53 कॉन्व्होल्युशनल लेयर आहेत. त्याशिवाय, अंदाज तीन वेगळ्या स्केलवर केले गेले, ज्यामुळे YOLOv3 ला छोट्या गोष्टींचे अंदाज बांधण्यात अचूकता वाढवण्यास मदत झाली.
YOLOv3 ही जोसेफ रेडमॉनची अंतिम YOLO आवृत्ती होती, कारण त्याच्या कामाचा जगावर हानिकारक प्रभाव पडू नये म्हणून त्याने पुढील कोणत्याही YOLO सुधारणांवर (किंवा संगणकाच्या दृष्टीच्या क्षेत्रातही) काम न करण्याचे निवडले. हे आता मुख्यतः अनन्य ऑब्जेक्ट-डिटेक्शन आर्किटेक्चर्स तयार करण्यासाठी प्रारंभिक बिंदू म्हणून वापरले जाते.
4. योलोव्ह4
अलेक्सी बोचकोव्स्की, चिएन-याओ वांग आणि हाँग-युआन मार्क लियाओ यांनी प्रकाशित "YOLOv4: इष्टतम गती आणि ऑब्जेक्ट शोधण्याची अचूकताएप्रिल 2020 मध्ये, जे YOLO अल्गोरिदमचे चौथे पुनरावृत्ती होते.
SPDarknet53 आर्किटेक्चरचा भाग म्हणून भारित अवशिष्ट कनेक्शन, क्रॉस-स्टेज-आंशिक कनेक्शन, क्रॉस-मिनी-बॅच सामान्यीकरण, स्व-विरोध प्रशिक्षण, मिश सक्रियकरण, ड्रॉप ब्लॉक आणि CIoU नुकसान हे सर्व सादर केले गेले.
YOLOv4 हा YOLO कुटुंबाचा वंशज आहे, तथापि, तो स्वतंत्र शास्त्रज्ञांनी विकसित केला आहे (जोसेफ रेडमन आणि अली फरहादी नाही). SPDarknet53 पाठीचा कणा, अवकाशीय पिरॅमिड पूलिंग, मान म्हणून PANet पथ-एकत्रीकरण आणि YOLOv3 हेड त्याची वास्तुकला बनवते.
परिणामस्वरुप, त्याच्या मूळ, YOLOv3, YOLOv4 च्या तुलनेत 10% जास्त सरासरी अचूकता आणि 12% चांगल्या फ्रेम्स प्रति सेकंद मेट्रिक्स मिळवतात.
5. YOLOv5
YOLOv5 हा एक मुक्त-स्रोत प्रकल्प आहे ज्यामध्ये COCO डेटासेटवर पूर्व-प्रशिक्षित केलेल्या YOLO मॉडेलवर आधारित ऑब्जेक्ट आयडेंटिफिकेशन मॉडेल्स आणि अल्गोरिदमची श्रेणी समाविष्ट आहे.
YOLOv5 हा कंपाऊंड-स्केल्ड ऑब्जेक्ट ओळख मॉडेलचा संग्रह आहे TTA, मॉडेल असेंब्ली, हायपरपॅरामीटर डेव्हलपमेंट आणि ONNX, CoreML, आणि TFLite साठी सुलभ क्षमतांसह COCO डेटासेटवर प्रशिक्षित. कारण YOLOv5 कोणत्याही अद्वितीय दृष्टिकोनाची अंमलबजावणी करत नाही किंवा विकसित करत नाही, औपचारिक पेपर सोडला जाऊ शकत नाही. हे फक्त YOLOv3 चे PyTorch विस्तार आहे.
Ultranytics ने या परिस्थितीचा वापर त्याच्या प्रायोजकत्वाखाली “नवीन YOLO” आवृत्ती प्रसिद्ध करण्यासाठी केला. कारण तेथे पाच पूर्व-प्रशिक्षित मॉडेल देखील प्रवेशयोग्य आहेत, YOLOv5 मुख्यपृष्ठ हे अगदी सरळ आणि व्यावसायिकरित्या संरचित आणि लिहिलेले आहे, प्रशिक्षण आणि YOLOv5 मॉडेल्सचा वापर करण्याबाबत अनेक धडे आणि सूचना आहेत.
YOLO मर्यादा
जरी YOLO हे निराकरण करण्याचे सर्वात मोठे तंत्र असल्याचे दिसते ऑब्जेक्ट शोध समस्या, त्यात अनेक तोटे आहेत. कारण प्रत्येक ग्रिड फक्त एक आयटम ओळखू शकतो, YOLO ला गटांमध्ये आढळणाऱ्या चित्रांमधील लहान गोष्टी शोधण्यात आणि वेगळे करण्यात अडचण येते. थवामधील लहान गोष्टी, जसे की मुंग्यांचा थवा, YOLO ला ओळखणे आणि शोधणे कठीण आहे.
फास्ट RCNN सारख्या लक्षणीयरीत्या हळुवार ऑब्जेक्ट ओळखण्याच्या पद्धतींशी तुलना केल्यास, YOLO देखील कमी अचूकतेने वैशिष्ट्यीकृत आहे.
YOLOv5 वापरणे सुरू करा
तुम्हाला YOLOv5 कृतीत पाहण्यात स्वारस्य असल्यास, पहा अधिकृत GitHub आणि PyTorch मध्ये YOLOv5.
निष्कर्ष
YOLOv5 ची प्रारंभिक आवृत्ती अत्यंत जलद, कार्यक्षम आणि वापरण्यास सोपी आहे. YOLOv5 YOLO कुटुंबात कोणतेही नवीन मॉडेल आर्किटेक्चर जोडत नसले तरी, ते एक नवीन PyTorch प्रशिक्षण आणि तैनाती फ्रेमवर्क प्रदान करते जे ऑब्जेक्ट डिटेक्टरसाठी अत्याधुनिक स्थिती वाढवते.
शिवाय, YOLOv5 अत्यंत वापरकर्ता-अनुकूल आहे आणि बेस्पोक ऑब्जेक्ट्सवर वापरण्यासाठी “आउट ऑफ द बॉक्स” तयार आहे.
प्रत्युत्तर द्या