অবজেক্ট ডিটেকশন হল এক ধরনের ইমেজ শ্রেণীকরণ যেখানে একটি নিউরাল নেটওয়ার্ক একটি ইমেজের আইটেমগুলিকে অনুমান করে এবং তাদের চারপাশে বাউন্ডিং বাক্স আঁকে। একটি চিত্রে জিনিসগুলি সনাক্ত করা এবং স্থানীয়করণ করা যা ক্লাসগুলির একটি প্রিসেট সেটের সাথে সামঞ্জস্যপূর্ণ হয় তাকে অবজেক্ট সনাক্তকরণ হিসাবে উল্লেখ করা হয়।
অবজেক্ট ডিটেকশন (অবজেক্ট রিকগনিশন নামেও পরিচিত) হল কম্পিউটার ভিশনের একটি বিশেষভাবে উল্লেখযোগ্য সাবডোমেন কারণ সনাক্তকরণ, সনাক্তকরণ এবং স্থানীয়করণের মতো কাজগুলি বাস্তব-বিশ্বের প্রসঙ্গে বিস্তৃত প্রয়োগ খুঁজে পায়।
YOLO পদ্ধতি আপনাকে এই কাজগুলি করতে সাহায্য করতে পারে। এই প্রবন্ধে, আমরা YOLO কে ঘনিষ্ঠভাবে দেখব, এটি কী, এটি কীভাবে কাজ করে, বিভিন্ন বৈচিত্র এবং আরও অনেক কিছু সহ।
তাই, YOLO কি?
YOLO হল ফটোগ্রাফে রিয়েল-টাইম অবজেক্ট শনাক্তকরণ এবং স্বীকৃতির একটি পদ্ধতি। এটি ইউ অনলি লুক ওয়ানস এর সংক্ষিপ্ত রূপ। রেডমন্ড এট আল। 2015 সালে IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)-এ প্রাথমিকভাবে প্রকাশিত একটি গবেষণাপত্রে পদ্ধতির প্রস্তাব করেছেন।
ওপেনসিভি পিপলস চয়েস অ্যাওয়ার্ড পেপারে দেওয়া হয়। পূর্ববর্তী অবজেক্ট শনাক্তকরণ পদ্ধতির বিপরীতে, যা শনাক্তকরণের জন্য শ্রেণীবদ্ধকারীকে পুনরায় ব্যবহার করে, YOLO একটি এন্ড-টু-এন্ড ব্যবহারের প্রস্তাব করে। স্নায়বিক নেটওয়ার্ক যা একই সাথে বাউন্ডিং বাক্স এবং ক্লাস সম্ভাব্যতার পূর্বাভাস দেয়।
YOLO বস্তু শনাক্তকরণে মৌলিকভাবে নতুন পদ্ধতি গ্রহণ করে, আগের রিয়েল-টাইম অবজেক্ট সনাক্তকরণ পদ্ধতিগুলিকে সহজে ছাড়িয়ে যাওয়ার মাধ্যমে অত্যাধুনিক ফলাফল তৈরি করে।
YOLO কাজ করছে
YOLO পদ্ধতিটি ছবিকে N গ্রিডে বিভক্ত করে, প্রতিটিতে সমান-আকারের SxS মাত্রিক সেক্টর রয়েছে। এই এন গ্রিডগুলির প্রতিটি এটিতে থাকা বস্তুটি সনাক্তকরণ এবং সনাক্ত করার দায়িত্বে রয়েছে।
এই গ্রিডগুলি, ঘুরে, সেল স্থানাঙ্কের সাথে সম্পর্কিত B বাউন্ডিং বক্স স্থানাঙ্কের পূর্বাভাস দেয়, সেইসাথে আইটেমের নাম এবং কোষে বস্তুর উপস্থিতির সম্ভাবনা। একই আইটেমের ভবিষ্যদ্বাণী করার কারণে অনেক কোষ বিভিন্ন বাউন্ডিং বাক্সের ভবিষ্যদ্বাণী করে, এই কৌশলটি গণনাকে উল্লেখযোগ্যভাবে হ্রাস করে কারণ সনাক্তকরণ এবং স্বীকৃতি উভয়ই ছবি থেকে কোষ দ্বারা পরিচালিত হয়।
যাইহোক, এটি অনেক নকল ভবিষ্যদ্বাণী তৈরি করে। এই সমস্যা সমাধানের জন্য, YOLO নন-ম্যাক্সিমাল সাপ্রেশন নিযুক্ত করে। YOLO নন-ম্যাক্সিমাল সাপ্রেশনে কম সম্ভাব্যতা স্কোর সহ সমস্ত বাউন্ডিং বাক্সকে দমন করে।
YOLO প্রতিটি বিকল্পের সাথে সংযুক্ত সম্ভাব্যতা স্কোর পরীক্ষা করে এবং সর্বোচ্চ স্কোর সহ একটি নির্বাচন করে এটি করে। বর্তমান উচ্চ সম্ভাবনার বাউন্ডিং বক্স সহ ইউনিয়নের উপর সবচেয়ে বড় ছেদযুক্ত বাউন্ডিং বক্সগুলি তখন চাপা হয়৷
বাউন্ডিং বাক্সগুলি সম্পূর্ণ না হওয়া পর্যন্ত এই প্রক্রিয়াটি অব্যাহত থাকে।
YOLO এর বিভিন্ন বৈচিত্র
আমরা সবচেয়ে সাধারণ কিছু YOLO সংস্করণ দেখব। চল শুরু করি.
1. YOLOv1
প্রাথমিক YOLO সংস্করণ 2015 সালে প্রকাশনায় ঘোষণা করা হয়েছিল "আপনি শুধুমাত্র একবার দেখুন: ইউনিফাইড, রিয়েল-টাইম অবজেক্ট ডিটেকশনজোসেফ রেডমন, সন্তোষ দিভভালা, রস গিরশিক এবং আলী ফারহাদি দ্বারা।
এর গতি, নির্ভুলতা এবং শেখার ক্ষমতার কারণে, YOLO দ্রুত বস্তু সনাক্তকরণের ক্ষেত্রে আধিপত্য বিস্তার করে এবং সর্বাধিক ব্যবহৃত অ্যালগরিদম হয়ে ওঠে। বস্তুর সনাক্তকরণকে একটি শ্রেণিবিন্যাসের সমস্যা হিসাবে সম্বোধন করার পরিবর্তে, লেখকরা এটিকে ভৌগলিকভাবে পৃথক করা বাউন্ডিং বাক্স এবং সংশ্লিষ্ট শ্রেণির সম্ভাব্যতাগুলির সাথে একটি রিগ্রেশন সমস্যা হিসাবে যোগাযোগ করেছিলেন, যা তারা একটি একক ব্যবহার করে সমাধান করেছিলেন স্নায়বিক নেটওয়ার্ক.
YOLOv1 রিয়েল-টাইমে প্রতি সেকেন্ডে 45 ফ্রেমে ফটোগুলি প্রক্রিয়া করে, যেখানে একটি ছোট রূপ, ফাস্ট ইওলো, প্রতি সেকেন্ডে 155 ফ্রেমে প্রক্রিয়া করে এবং এখনও অন্যান্য রিয়েল-টাইম ডিটেক্টরের দ্বিগুণ এমএপি পেয়েছে।
2. YOLOv2
এক বছর পরে, 2016 সালে, জোসেফ রেডমন এবং আলি ফারহাদি কাগজে YOLOv2 (YOLO9000 নামেও পরিচিত) প্রকাশ করেন।YOLO9000: আরও ভাল, দ্রুত, শক্তিশালী. "
রিয়েল-টাইমে চলমান থাকাকালীন এমনকি 9000টি স্বতন্ত্র আইটেম বিভাগের পূর্বাভাস দেওয়ার মডেলটির ক্ষমতা এটি 9000 উপাধি অর্জন করেছে। নতুন মডেল সংস্করণটিকে একই সাথে অবজেক্ট সনাক্তকরণ এবং শ্রেণিবিন্যাস ডেটাসেটগুলিতে প্রশিক্ষণ দেওয়া হয়নি, এটি নতুন বেসলাইন হিসাবে ডার্কনেট-19ও পেয়েছে। মডেল.
যেহেতু YOLOv2 একটি বড় সাফল্য ছিল এবং দ্রুত পরবর্তী অত্যাধুনিক বস্তুর স্বীকৃতি মডেল হয়ে ওঠে, অন্যান্য প্রকৌশলীরা অ্যালগরিদম নিয়ে পরীক্ষা-নিরীক্ষা শুরু করে এবং তাদের নিজস্ব, অনন্য YOLO সংস্করণ তৈরি করে। তাদের কিছু পেপারে বিভিন্ন পয়েন্টে আলোচনা করা হবে।
3. YOLOv3
কাগজে "YOLOv3: একটি ক্রমবর্ধমান উন্নতি,” জোসেফ রেডমন এবং আলী ফারহাদি 2018 সালে অ্যালগরিদমের একটি নতুন সংস্করণ প্রকাশ করেছেন। এটি Darknet-53 আর্কিটেকচারে নির্মিত হয়েছিল। স্বাধীন লজিস্টিক ক্লাসিফায়ারগুলি YOLOv3 এ সফটম্যাক্স অ্যাক্টিভেশন মেকানিজম প্রতিস্থাপন করেছে।
প্রশিক্ষণের সময় বাইনারি ক্রস-এনট্রপি ক্ষতি ব্যবহৃত হয়েছিল। ডার্কনেট-19 উন্নত করা হয়েছে এবং ডার্কনেট-53 নামকরণ করা হয়েছে, যার এখন 53টি কনভোল্যুশনাল লেয়ার রয়েছে। তা ছাড়াও, ভবিষ্যদ্বাণীগুলি তিনটি স্বতন্ত্র স্কেলে করা হয়েছিল, যা YOLOv3কে ক্ষুদ্র জিনিসগুলির ভবিষ্যদ্বাণীতে এর নির্ভুলতা বাড়াতে সাহায্য করেছিল৷
YOLOv3 ছিল জোসেফ রেডমনের চূড়ান্ত YOLO সংস্করণ, যেহেতু তিনি তার কাজের ক্ষতিকর প্রভাব এড়াতে YOLO এর আর কোন উন্নতিতে (বা এমনকি কম্পিউটার ভিশন এলাকায়) কাজ না করার সিদ্ধান্ত নিয়েছেন। এটি এখন বেশিরভাগই অনন্য অবজেক্ট-ডিটেকশন আর্কিটেকচার নির্মাণের সূচনা বিন্দু হিসাবে ব্যবহৃত হয়।
4. Yolov4
আলেক্সি বোচকোভস্কি, চিয়েন-ইয়াও ওয়াং এবং হং-ইয়ুয়ান মার্ক লিয়াও "প্রকাশিতYOLOv4: সর্বোত্তম গতি এবং বস্তু সনাক্তকরণের সঠিকতা2020 সালের এপ্রিলে, যা ছিল YOLO অ্যালগরিদমের চতুর্থ পুনরাবৃত্তি।
ওজনযুক্ত অবশিষ্ট সংযোগ, ক্রস-স্টেজ-আংশিক সংযোগ, ক্রস মিনি-ব্যাচ স্বাভাবিককরণ, স্ব-প্রতিপক্ষ প্রশিক্ষণ, মিশ অ্যাক্টিভেশন, ড্রপ ব্লক, এবং CIoU ক্ষতি সবই SPDarknet53 আর্কিটেকচারের অংশ হিসাবে চালু করা হয়েছিল।
YOLOv4 হল YOLO পরিবারের একটি বংশধর, তবে, এটি পৃথক বিজ্ঞানীদের দ্বারা তৈরি করা হয়েছিল (জোসেফ রেডমন এবং আলী ফারহাদি নয়)। SPDarknet53 ব্যাকবোন, স্থানিক পিরামিড পুলিং, ঘাড় হিসাবে PANet পাথ-এগ্রিগেশন এবং YOLOv3 হেড এর স্থাপত্য তৈরি করে।
ফলস্বরূপ, যখন এর পিতামাতার সাথে তুলনা করা হয়, YOLOv3, YOLOv4 10% উচ্চতর গড় নির্ভুলতা এবং প্রতি সেকেন্ড মেট্রিক্সে 12% ভাল ফ্রেম অর্জন করে।
5. YOLOv5
YOLOv5 এটি একটি ওপেন-সোর্স প্রজেক্ট যেটিতে YOLO মডেলের উপর ভিত্তি করে অবজেক্ট আইডেন্টিফিকেশন মডেল এবং অ্যালগরিদমের একটি পরিসর রয়েছে যা COCO ডেটাসেটে প্রাক-প্রশিক্ষিত হয়েছে।
YOLOv5 হল যৌগ-স্কেল করা বস্তু শনাক্তকরণ মডেলের একটি সংগ্রহ TTA, মডেল অ্যাসেম্বলি, হাইপারপ্যারামিটার ডেভেলপমেন্ট এবং ONNX, CoreML, এবং TFLite-এ রপ্তানির জন্য সহজ ক্ষমতা সহ COCO ডেটাসেটে প্রশিক্ষিত। যেহেতু YOLOv5 কোনো অনন্য পন্থা বাস্তবায়ন বা বিকাশ করে না, তাই আনুষ্ঠানিক কাগজ প্রকাশ করা যায়নি। এটি কেবল YOLOv3 এর PyTorch এক্সটেনশন।
Ultranytics তার স্পনসরশিপের অধীনে "নতুন YOLO" সংস্করণ প্রচার করতে এই দৃশ্যটি ব্যবহার করেছে। যেহেতু এখানে পাঁচটি প্রাক-প্রশিক্ষিত মডেল অ্যাক্সেসযোগ্য, YOLOv5 হোমপেজটি বেশ সহজবোধ্য এবং পেশাগতভাবে কাঠামোগত এবং লিখিত, প্রশিক্ষণ এবং YOLOv5 মডেলগুলি ব্যবহার করার বিষয়ে অনেকগুলি পাঠ এবং পরামর্শ সহ।
YOLO সীমাবদ্ধতা
যদিও YOLO সমাধানের জন্য সর্বশ্রেষ্ঠ কৌশল বলে মনে হচ্ছে অবজেক্ট সনাক্তকরণ সমস্যা, এটা অপূর্ণতা একটি সংখ্যা আছে. যেহেতু প্রতিটি গ্রিড শুধুমাত্র একটি আইটেম শনাক্ত করতে পারে, YOLO-এর গোষ্ঠীতে ঘটে যাওয়া ছবিগুলিতে ছোট জিনিসগুলি সনাক্ত করতে এবং আলাদা করতে অসুবিধা হয়৷ পিঁপড়ার ঝাঁকের মতো ছোট ছোট জিনিসগুলি শনাক্ত করা এবং সনাক্ত করা YOLO-এর পক্ষে কঠিন।
দ্রুত RCNN-এর মতো উল্লেখযোগ্যভাবে ধীরগতির বস্তু শনাক্তকরণ পদ্ধতির সাথে তুলনা করলে, YOLO একইভাবে কম নির্ভুলতার দ্বারা চিহ্নিত করা হয়।
YOLOv5 ব্যবহার করা শুরু করুন
আপনি যদি একটি YOLOv5 কাজ করতে আগ্রহী হন তবে দেখুন অফিসিয়াল গিটহাব এবং PyTorch-এ YOLOv5.
উপসংহার
YOLOv5-এর প্রাথমিক সংস্করণটি অত্যন্ত দ্রুত, কার্যকারিতাপূর্ণ এবং ব্যবহারে সহজ৷ যদিও YOLOv5 YOLO পরিবারে কোনও নতুন মডেল আর্কিটেকচার যোগ করে না, এটি একটি নতুন PyTorch প্রশিক্ষণ এবং স্থাপনার কাঠামো প্রদান করে যা অবজেক্ট ডিটেক্টরগুলির জন্য শিল্পের অবস্থাকে উন্নত করে।
অধিকন্তু, YOLOv5 অত্যন্ত ব্যবহারকারী-বান্ধব এবং এটি "বক্সের বাইরে" বেসপোক অবজেক্টে ব্যবহারের জন্য প্রস্তুত।
নির্দেশিকা সমন্ধে মতামত দিন