ගැඹුරු ඉගෙනීම භාවිතා කරමින් වස්තු හඳුනාගැනීම සඳහා සවිස්තරාත්මක මාර්ගෝපදේශයක්

සමූහ ඡායාරූපයක මුහුණු හඳුනා ගැනීමට ඔබේ ස්මාර්ට් ජංගම දුරකතනයේ කැමරාවට ඇති හැකියාව ගැන ඔබ කවදා හෝ පැහැදී තිබේද?

ස්වයංක්‍රීයව ධාවනය වන මෝටර් රථ බාධාවකින් තොරව ගමනාගමනය කරන ආකාරය, පදිකයින් සහ වෙනත් වාහන ඇදහිය නොහැකි නිරවද්‍යතාවයකින් හඳුනා ගන්නා ආකාරය ගැන ඔබ මවිතයට පත් වී ඇති.

මෙම පෙනෙන අද්භූත ජයග්‍රහණ සිදු කළ හැකි වන්නේ වස්තු හඳුනාගැනීමෙනි, එය පර්යේෂණයේ සිත් ඇදගන්නා විෂයයකි. සරලව කිවහොත්, වස්තු හඳුනාගැනීම යනු පින්තූර හෝ වීඩියෝ තුළ ඇති වස්තූන් හඳුනා ගැනීම සහ ස්ථානගත කිරීමයි.

පරිගණකවලට අවට ලෝකය "දැකීම" සහ අවබෝධ කර ගැනීමට ඉඩ සලසන තාක්ෂණය එයයි.

නමුත් මෙම ඇදහිය නොහැකි ක්රියා පටිපාටිය ක්රියාත්මක වන්නේ කෙසේද? ඒක අපි දකිනවා ගැඹුරු ඉගෙනීම ඇත වස්තු හඳුනාගැනීමේ ක්ෂේත්රයේ විප්ලවීය වෙනසක් ඇති කළේය. එය අපගේ දෛනික ජීවිතයට සෘජු බලපෑමක් ඇති කරන යෙදුම් මාලාවක් සඳහා මාර්ගය විවෘත කරයි.

මෙම ලිපියෙන්, අපි තාක්‍ෂණය සමඟ අප අන්තර්ක්‍රියා කරන ආකාරය නැවත හැඩගැස්වීමේ විභවය ඇති ආකාරය ඉගෙන ගනිමින්, ගැඹුරු ඉගෙනුම් මත පදනම් වූ වස්තු හඳුනාගැනීමේ ආකර්ෂණීය ක්ෂේත්‍රය හරහා අපි යන්නෙමු.

වස්තු හඳුනාගැනීම යනු හරියටම කුමක්ද?

වඩාත්ම එකක් මූලික පරිගණක දැක්ම කාර්යයන් යනු වස්තු හඳුනාගැනීමයි, එයට රූපයක හෝ වීඩියෝවක විවිධ අයිතම සොයා ගැනීම සහ ස්ථානගත කිරීම ඇතුළත් වේ.

රූප වර්ගීකරණය සමඟ සසඳන විට, එක් එක් වස්තුවේ පන්ති ලේබලය නිර්ණය කරන විට, වස්තු හඳුනාගැනීම එක් එක් වස්තුවේ පැවැත්ම හඳුනා ගැනීම පමණක් නොව එක් එක් වස්තුව වටා මායිම් පෙට්ටි ඇඳීමෙන් තවත් පියවරක් ඉදිරියට යයි.

එහි ප්රතිඵලයක් වශයෙන්, අපට එකවරම උනන්දුවක් දක්වන වස්තූන් වර්ග හඳුනාගෙන ඒවා නිවැරදිව ස්ථානගත කළ හැකිය.

ඇතුළුව බොහෝ යෙදුම් සඳහා වස්තූන් හඳුනාගැනීමේ හැකියාව අත්‍යවශ්‍ය වේ ස්වයංක්‍රීය රිය පැදවීම, ඔත්තු බැලීම, මුහුණු හඳුනා ගැනීම සහ වෛද්‍ය ප්‍රතිරූපණය.

මෙම දුෂ්කර අභියෝගය කැපී පෙනෙන නිරවද්‍යතාවයකින් සහ තත්‍ය කාලීන කාර්ය සාධනය සමඟින් හැසිරවීමට, ගැඹුරු ඉගෙනුම් මත පදනම් වූ ශිල්පීය ක්‍රම මඟින් වස්තු හඳුනාගැනීම පරිවර්තනය කර ඇත.

වස්තු හඳුනාගැනීමේ කර්මාන්තය වෙනස් කරමින් මෙම දුෂ්කරතා මඟහරවා ගැනීමේ ප්‍රබල උපාය මාර්ගයක් ලෙස ගැඹුරු ඉගෙනීම මෑතකදී මතු වී ඇත.

R-CNN පවුල සහ යාලෝ පවුල යනු වස්තු හඳුනාගැනීමේ සුප්‍රසිද්ධ ආදර්ශ පවුල් දෙකක් වන අතර එය මෙම ලිපියෙන් විමසා බලනු ඇත.

R-CNN පවුල: පුරෝගාමී වස්තු හඳුනාගැනීම

R-CNN, Fast R-CNN, සහ Faster R-CNN ඇතුළත් R-CNN පවුලට ස්තුති වන්නට මුල් වස්තු හඳුනාගැනීමේ පර්යේෂණ සැලකිය යුතු දියුණුවක් අත්කර ගත්තේය.

එහි ත්‍රි-මොඩියුල ගෘහනිර්මාණ ශිල්පය සමඟින්, R-CNN යෝජිත කලාප විශේෂාංග උකහා ගැනීමට CNN භාවිතා කළ අතර රේඛීය SVM භාවිතා කරමින් වර්ගීකරණය කරන ලද වස්තු භාවිතා කළේය.

R-CNN නිවැරදියි, නමුත් අපේක්ෂක ප්‍රදේශයේ ලංසු අවශ්‍ය වූ බැවින් එය යම් කාලයක් ගත විය. මෙය Fast R-CNN මගින් විසඳන ලද අතර, සියලු මොඩියුල තනි මාදිලියකට ඒකාබද්ධ කිරීමෙන් කාර්යක්ෂමතාව වැඩි කරන ලදී.

පුහුණුවීම් අතරතුර කලාපීය යෝජනා නිර්මාණය කර වැඩිදියුණු කළ කලාපීය යෝජනා ජාලයක් (RPN) එකතු කිරීමෙන් වේගවත් R-CNN කාර්ය සාධනය සැලකිය යුතු ලෙස වැඩිදියුණු කළ අතර තත්‍ය කාලීන වස්තු හඳුනාගැනීමක් ලබා ගත්තේය.

R-CNN සිට වේගවත් R-CNN දක්වා

R-CNN පවුල, එනම් "කලාපීය-පාදක Convolutional Neural Networks" වස්තු හඳුනාගැනීමේ පුරෝගාමී දියුණුවක් ලබා ඇත.

මෙම පවුලට R-CNN, Fast R-CNN, සහ Faster R-CNN ඇතුළත් වේ, ඒවා සියල්ලම වස්තු ප්‍රාදේශීයකරණය සහ හඳුනාගැනීමේ කාර්යයන් සඳහා නිර්මාණය කර ඇත.

2014 දී හඳුන්වා දුන් මුල් R-CNN, වස්තු හඳුනා ගැනීම සහ ප්‍රාදේශීයකරණය සඳහා සංකෝචන ස්නායු ජාල සාර්ථක ලෙස භාවිතා කිරීම පෙන්නුම් කළේය.

එය කලාපීය යෝජනාව, CNN සමඟ විශේෂාංග නිස්සාරණය සහ රේඛීය ආධාරක දෛශික යන්ත්‍ර (SVM) වර්ගීකරණ සමඟ වස්තු වර්ගීකරණය ඇතුළත් තුන්-පියවර උපාය මාර්ගයක් විය.

2015 දී Fast R-CNN දියත් කිරීමෙන් පසුව, කලාපීය යෝජනාව සහ වර්ගීකරණය එක් ආකෘතියකට ඒකාබද්ධ කිරීම, පුහුණුවීම් සහ අනුමාන කාලය නාටකාකාර ලෙස අඩු කිරීම මගින් වේග ගැටළු විසඳන ලදී.

වේගවත් R-CNN, 2016 දී නිකුත් කරන ලදී, වේගයෙන් යෝජනා කිරීමට සහ ක්ෂේත්‍ර සංශෝධනය කිරීමට පුහුණුවීම් අතරතුර කලාප යෝජනා ජාලයක් (RPN) ඇතුළත් කිරීමෙන් වේගය සහ නිරවද්‍යතාවය වැඩි දියුණු කරන ලදී.

එහි ප්‍රතිඵලයක් වශයෙන්, වේගවත් R-CNN වස්තු හඳුනාගැනීමේ කාර්යයන් සඳහා ප්‍රමුඛතම ඇල්ගොරිතමයක් ලෙස ස්ථාපිත වී ඇත.

SVM වර්ගීකාරක සංස්ථාගත කිරීම R-CNN පවුලේ සාර්ථකත්වයට ඉතා වැදගත් වූ අතර, පරිගණක දැක්මේ ප්‍රදේශය වෙනස් කිරීම සහ ගැඹුරු ඉගෙනුම් පාදක වස්තු හඳුනාගැනීමේ අනාගත ජයග්‍රහණ සඳහා මග පාදයි.

ශක්තීන්:

ඉහළ දේශීයකරණ වස්තු හඳුනාගැනීමේ නිරවද්‍යතාවය.
වේගවත් R-CNN හි ඒකාබද්ධ සැලසුම මගින් නිරවද්‍යතාවය සහ කාර්යක්ෂමතාව සමතුලිත වේ.

දුර්වලතා:

R-CNN සහ Fast R-CNN සමඟ අනුමාන කිරීම තරමක් වෙහෙසකාරී විය හැකිය.
වේගවත් R-CNN එහි උපරිමයෙන් ක්‍රියා කිරීමට නම්, කලාපීය යෝජනා රාශියක් තවමත් අවශ්‍ය විය හැකිය.

YOLO පවුල: තත්‍ය කාලීන වස්තු හඳුනාගැනීම

YOLO පවුල, "ඔබ වරක් පමණක් බලන්න" සංකල්පය මත පදනම් වූ නිරවද්‍යතාවය කැප කරන අතරම තත්‍ය කාලීන වස්තු හඳුනාගැනීම අවධාරණය කරයි.

මුල් YOLO ආකෘතිය සමන්විත වූයේ මායිම් පෙට්ටි සහ පන්ති ලේබල් සෘජුවම පුරෝකථනය කරන තනි ස්නායු ජාලයකිනි.

අඩු පුරෝකථන නිරවද්‍යතාවයක් තිබියදීත්, YOLO හට තත්පරයට රාමු 155 දක්වා වේගයකින් ක්‍රියා කළ හැක. YOLOv2, YOLO9000 ලෙසද හැඳින්වේ, වස්තු පන්ති 9,000 ක් පුරෝකථනය කිරීමෙන් සහ වඩාත් ශක්තිමත් අනාවැකි සඳහා නැංගුරම් පෙට්ටි ඇතුළත් කිරීමෙන් මුල් ආකෘතියේ සමහර අඩුපාඩු ආමන්ත්‍රණය කළේය.

YOLOv3 වඩාත් පුළුල් විශේෂාංග අනාවරක ජාලයක් සමඟින් තව දුරටත් වැඩිදියුණු විය.

YOLO පවුලේ අභ්‍යන්තර කටයුතු

YOLO (ඔබ එක් වරක් පමණක් බලන්න) පවුලේ වස්තු හඳුනාගැනීමේ ආකෘති පරිගණක දැක්මෙහි කැපී පෙනෙන ජයග්‍රහණයක් ලෙස මතු වී ඇත.

2015 දී හඳුන්වා දුන් YOLO, මායිම් පෙට්ටි සහ පන්ති ලේබල් සෘජුව අපේක්ෂා කිරීමෙන් වේගය සහ තත්‍ය කාලීන වස්තු හඳුනාගැනීම සඳහා ප්‍රමුඛත්වය දෙයි.

යම් නිරවද්‍යතාවයක් කැප කළද, එය තත්‍ය කාලීන ඡායාරූප විශ්ලේෂණය කරයි, එය කාලය තීරණාත්මක යෙදුම් සඳහා ප්‍රයෝජනවත් කරයි.

YOLOv2 විවිධ අයිතම පරිමාණයන් සමඟ කටයුතු කිරීම සඳහා නැංගුරම් පෙට්ටි ඇතුළත් කර ඇති අතර වස්තු පන්ති 9,000 කට අධික ප්‍රමාණයක් අපේක්ෂා කිරීම සඳහා බොහෝ දත්ත කට්ටල පිළිබඳව පුහුණු කරන ලදී.

2018 දී, YOLOv3 වඩාත් ගැඹුරු විශේෂාංග අනාවරක ජාලයක් සමඟින් පවුල තව තවත් වැඩිදියුණු කළ අතර, කාර්ය සාධනය කැප නොකර නිරවද්‍යතාව වැඩි දියුණු කළේය.

YOLO පවුල රූපය ජාලකයකට බෙදීමෙන් මායිම් පෙට්ටි, පන්ති සම්භාවිතා සහ වස්තු ලකුණු පුරෝකථනය කරයි. එය වේගය සහ නිරවද්‍යතාවය කාර්යක්ෂමව මුසු කරයි, එය භාවිතයට අනුවර්තනය කරයි ස්වයංක්‍රීය වාහන, නිරීක්ෂණ, සෞඛ්‍ය සේවා, සහ වෙනත් ක්ෂේත්‍ර.

YOLO මාලාව සැලකිය යුතු නිරවද්‍යතාවයක් කැප නොකර තත්‍ය කාලීන විසඳුම් ලබා දීමෙන් වස්තු හඳුනාගැනීම පරිවර්තනය කර ඇත.

YOLO සිට YOLOv2 සහ YOLOv3 දක්වා, මෙම පවුල නවීන ගැඹුරු ඉගෙනුම් පාදක වස්තු හඳුනාගැනීමේ පද්ධති සඳහා ප්‍රමිතිය ස්ථාපිත කරමින් කර්මාන්ත හරහා වස්තු හඳුනාගැනීම වැඩිදියුණු කිරීමේදී සැලකිය යුතු දියුණුවක් ලබා ඇත.

ශක්තීන්:

ඉහළ රාමු අනුපාත යටතේ තත්‍ය කාලීන වස්තූන් හඳුනා ගැනීම.
මායිම් කොටු අනාවැකි වල ස්ථායීතාවය YOLOv2 සහ YOLOv3 හි හඳුන්වා දී ඇත.

දුර්වලතා:

YOLO මාදිලි වලට වේගය වෙනුවෙන් යම් නිරවද්‍යතාවයක් අත්හැරිය හැක.

ආදර්ශ පවුල් සංසන්දනය: නිරවද්‍යතාවය එදිරිව කාර්යක්ෂමතාව

R-CNN සහ YOLO පවුල් සංසන්දනය කරන විට, නිරවද්‍යතාවය සහ කාර්යක්ෂමතාව වැදගත් වෙළඳාමක් බව පැහැදිලිය. R-CNN පවුලේ ආකෘති නිරවද්‍යතාවයෙන් විශිෂ්ට වන නමුත් ඒවායේ ත්‍රි-මොඩියුල ගෘහ නිර්මාණ ශිල්පය හේතුවෙන් අනුමාන කිරීමේදී මන්දගාමී වේ.

අනෙක් අතට, YOLO පවුල, තත්‍ය කාලීන කාර්ය සාධනයට ප්‍රමුඛත්වය දෙන අතර, යම් නිරවද්‍යතාවයක් නැති කර ගනිමින් කැපී පෙනෙන වේගයක් සපයයි. මෙම ආදර්ශ පවුල් අතර තීරණය තීරණය වන්නේ යෙදුමේ නිශ්චිත අවශ්‍යතා මගිනි.

R-CNN පවුලේ ආකෘති අතිශයින්ම නිරවද්‍යතාවයක් අවශ්‍ය වන වැඩ බර සඳහා වඩාත් සුදුසු විය හැකි අතර YOLO පවුලේ ආකෘති තත්‍ය කාලීන යෙදුම් සඳහා සුදුසු වේ.

වස්තු හඳුනාගැනීමෙන් ඔබ්බට: සැබෑ ලෝක යෙදුම්

සම්මත වස්තු හඳුනාගැනීමේ කාර්යයන් වලින් ඔබ්බට, ගැඹුරු ඉගෙනුම් මත පදනම් වූ වස්තු හඳුනාගැනීම පුළුල් පරාසයක භාවිතයන් සොයාගෙන ඇත.

එහි අනුවර්තනය වීමේ හැකියාව සහ නිරවද්‍යතාවය සංකීර්ණ අභියෝගවලට මුහුණ දෙමින් සහ ව්‍යාපාර පරිවර්තනය කරමින් විවිධ අංශවල නව අවස්ථා නිර්මාණය කර ඇත.

ස්වයංක්‍රීය වාහන: ආරක්ෂිත රිය පැදවීම සඳහා ප්‍රමිතිය සැකසීම

ආරක්ෂිත සහ විශ්වාසනීය සංචලනය සහතික කිරීම සඳහා ස්වයංක්‍රීය මෝටර් රථවල වස්තු හඳුනාගැනීම ඉතා වැදගත් වේ.

ගැඹුරු ඉගෙනුම් ආකෘති පදිකයින්, පාපැදිකරුවන්, වෙනත් මෝටර් රථ සහ විය හැකි මාර්ග අනතුරු හඳුනාගැනීම සහ ස්ථානගත කිරීම මගින් ස්වයංක්‍රීය රියදුරු පද්ධති සඳහා තීරණාත්මක තොරතුරු සැපයීම.

මෙම මාදිලි වාහනවලට තත්‍ය කාලීන තේරීම් කිරීමට සහ ගැටුම් වළක්වා ගැනීමට ඉඩ සලසයි, ස්වයං-රියදුරු මෝටර් රථ මිනිස් රියදුරන් සමඟ සහජීවනයෙන් පවතින අනාගතයකට අපව සමීප කරයි.

සිල්ලර කර්මාන්තයේ කාර්යක්ෂමතාව සහ ආරක්ෂාව වැඩි කිරීම

සිල්ලර ව්‍යාපාරය එහි ක්‍රියාකාරිත්වය බෙහෙවින් වැඩිදියුණු කිරීම සඳහා ගැඹුරු ඉගෙනුම් පාදක වස්තු හඳුනාගැනීම වැළඳගෙන ඇත.

වස්තු හඳුනාගැනීම ගබඩා රාක්කවල නිෂ්පාදන හඳුනා ගැනීමට සහ ලුහුබැඳීමට උපකාරී වන අතර, වඩාත් ඵලදායී ලෙස නැවත ගබඩා කිරීමට සහ තොගයෙන් පිටත තත්ත්වයන් අඩු කිරීමට ඉඩ සලසයි.

තවද, වස්තු හඳුනාගැනීමේ ඇල්ගොරිතම වලින් සමන්විත නිරීක්ෂණ පද්ධති සොරකම් වැළැක්වීමට සහ වෙළඳසැල් ආරක්ෂාව පවත්වා ගැනීමට උපකාරී වේ.

සෞඛ්‍ය සේවයේ වෛද්‍ය නිරූපණ දියුණුව

ගැඹුරු ඉගෙනුම් මත පදනම් වූ වස්තු හඳුනාගැනීම සෞඛ්‍ය සේවා අංශයේ වෛද්‍ය ප්‍රතිරූපණයේදී අත්‍යවශ්‍ය මෙවලමක් බවට පත්ව ඇත.

එය X-කිරණ, MRI ස්කෑන්, සහ පිළිකා හෝ විකෘතිතා වැනි වෙනත් වෛද්‍ය පින්තූරවල අසාමාන්‍යතා හඳුනා ගැනීමට සෞඛ්‍ය වෘත්තිකයන්ට සහාය වේ.

අවධානය යොමු කළ යුතු නිශ්චිත ස්ථාන හඳුනා ගැනීම සහ ඉස්මතු කිරීම මගින් මුල් රෝග විනිශ්චය සහ ප්‍රතිකාර සැලසුම් කිරීමේදී වස්තු හඳුනාගැනීමේ සහාය වේ.

ආරක්ෂාව සහ නිරීක්ෂණ මගින් ආරක්ෂාව වැඩි දියුණු කිරීම

වස්තු හඳුනාගැනීම ආරක්‍ෂක සහ නිරීක්ෂණ යෙදුම්වල ඇදහිය නොහැකි තරම් ප්‍රයෝජනවත් විය හැක.

ගැඹුරු ඉගෙනුම් ඇල්ගොරිතම සෙනඟ නැරඹීමට, සැක කටයුතු හැසිරීම් හඳුනා ගැනීමට සහ පොදු ස්ථාන, ගුවන් තොටුපළ සහ ප්‍රවාහන මධ්‍යස්ථානවල ඇති විය හැකි අනතුරු හඳුනා ගැනීමට සහාය වීම.

වීඩියෝ සංග්‍රහ අඛණ්ඩව ඇගයීම, ආරක්ෂක කඩවීම් වැළැක්වීම සහ මහජන ආරක්ෂාව සහතික කිරීම මගින් මෙම පද්ධතිවලට තත්‍ය කාලීනව ආරක්ෂක වෘත්තිකයන්ට අනතුරු ඇඟවීමට හැකිය.

වත්මන් බාධක සහ අනාගත අපේක්ෂාවන්

ගැඹුරු ඉගෙනුම් පාදක වස්තු හඳුනාගැනීමේ සැලකිය යුතු දියුණුවක් තිබියදීත්, ගැටළු පවතී. වස්තු හඳුනාගැනීමේදී බොහෝ විට සංවේදී තොරතුරු කළමනාකරණය කිරීම අවශ්‍ය වන බැවින් දත්ත රහස්‍යභාවය බරපතල සැලකිල්ලකි.

තවත් ප්‍රධාන ගැටලුවක් වන්නේ එදිරිවාදී ප්‍රහාරවලට ඔරොත්තු දීම සහතික කිරීමයි.

පර්යේෂකයන් තවමත් ආකෘති සාමාන්යකරණය සහ අර්ථකථනය වැඩි කිරීමට ක්රම සොයමින් සිටිති.

බහු වස්තු හඳුනා ගැනීම, වීඩියෝ වස්තු ලුහුබැඳීම සහ තත්‍ය කාලීන ත්‍රිමාණ වස්තු හඳුනාගැනීම කෙරෙහි අවධානය යොමු කරමින් පවතින පර්යේෂණ සමඟින් අනාගතය දීප්තිමත් බව පෙනේ.

ගැඹුරු ඉගෙනුම් ආකෘතීන් අඛණ්ඩව වර්ධනය වන බැවින් අපි ඊටත් වඩා නිවැරදි හා කාර්යක්ෂම විසඳුම් ඉක්මනින් අපේක්ෂා කළ යුතුය.

නිගමනය

ගැඹුරු ඉගෙනීම වස්තු හඳුනාගැනීම පරිවර්තනය කර ඇති අතර, වැඩි නිරවද්‍යතාවයකින් සහ කාර්යක්‍ෂමතාවයකින් යුත් යුගයක් උදාකරයි. R-CNN සහ YOLO පවුල් තීරනාත්මක භූමිකාවන් ඉටු කර ඇති අතර, එක් එක් විශේෂිත යෙදුම් සඳහා එකිනෙකට වෙනස් හැකියාවන් ඇත.

ගැඹුරු ඉගෙනුම් පාදක වස්තු හඳුනාගැනීම අංශවල විප්ලවීය වෙනසක් සිදු කරන අතර ස්වයංක්‍රීය වාහනවල සිට සෞඛ්‍ය ආරක්ෂණය දක්වා ආරක්ෂාව සහ කාර්යක්ෂමතාව වැඩි දියුණු කරයි.

පර්යේෂණ දියුණුව, දුෂ්කරතා ආමන්ත්‍රණය කිරීම සහ නව ක්ෂේත්‍ර ගවේෂණය කිරීමත් සමඟ වස්තු හඳුනාගැනීමේ අනාගතය වෙන කවරදාටත් වඩා දීප්තිමත් ලෙස පෙනේ.

වස්තු හඳුනාගැනීම ප්‍රමුඛව ගැඹුරු ඉගෙනීමේ බලය අප වැළඳ ගන්නා විට පරිගණක දර්ශනයේ නව යුගයක උපත අපි දකිමු.