আপনি যদি কখনও বিষয়বস্তু, শব্দ বা অন্যান্য তথ্যের জন্য নথির স্তুপের মধ্যে দিয়ে ঘণ্টার পর ঘণ্টা কাটিয়ে থাকেন, তাহলে OCR আপনার নতুন সেরা বন্ধু হতে পারে। পিডিএফ রিডার বা অন্যান্য ডকুমেন্ট ম্যানেজমেন্ট টুল ব্যবহার করার ক্ষমতা থাকা আপনার অনেক সময় বাঁচাতে পারে। ব্যবসায় আমাদের মধ্যে বেশিরভাগই ক্রমাগত দক্ষতার উন্নতি এবং ক্রিয়াকলাপকে স্ট্রীমলাইন করার উপায়গুলি অনুসন্ধান করে থাকে।
এই প্রচেষ্টায়, OCR একটি দরকারী টুল হতে পারে। আমরা এই অংশে অপটিক্যাল ক্যারেক্টার রিকগনিশন (OCR) কে ঘনিষ্ঠভাবে দেখব, এটি কী, এটি কীভাবে কাজ করে এবং আরও অনেক কিছু সহ।
তাহলে, (OCR) অপটিক্যাল ক্যারেক্টার রিকগনিশন ঠিক কী?
টেক্সট রিকগনিশন অপটিক্যাল ক্যারেক্টার রিকগনিশন (OCR) এর আরেকটি নাম।
একটি OCR টুল ব্যবহার করে স্ক্যান করা কাগজপত্র, ক্যামেরার ছবি এবং শুধুমাত্র-ইমেজ পিডিএফ থেকে ডেটা বের করা হয় এবং পুনরায় ব্যবহার করা হয়। OCR সফ্টওয়্যার ছবি থেকে অক্ষর বের করে, শব্দে রূপান্তর করে এবং তারপরে বাক্য একত্রিত করে, যা মূল পাঠ্যের অ্যাক্সেস এবং পরিবর্তনের অনুমতি দেয়।
এটি হাত দ্বারা ডেটা প্রবেশের প্রয়োজনীয়তাও সরিয়ে দেয়। OCR সিস্টেমগুলি হার্ডওয়্যার এবং সফ্টওয়্যারের মিশ্রণ ব্যবহার করে শারীরিক, মুদ্রিত নথিগুলিকে মেশিন-পাঠযোগ্য পাঠ্যে পরিণত করে। পাঠ্যটি হার্ডওয়্যার দ্বারা অনুলিপি করা বা পড়া হয় (যেমন একটি অপটিক্যাল স্ক্যানার বা ডেডিকেটেড সার্কিট বোর্ড), এবং অতিরিক্ত প্রক্রিয়াকরণ সাধারণত সফ্টওয়্যার দ্বারা পরিচালিত হয়।
কৃত্রিম বুদ্ধিমত্তা (AI) OCR সফ্টওয়্যারে ব্যবহার করা যেতে পারে বুদ্ধিমান চরিত্র সনাক্তকরণ (ICR) এর আরও জটিল কৌশলগুলি অর্জন করতে, যেমন আলাদা ভাষা বা হাতের লেখার শৈলী। ওসিআর সাধারণত হার্ড কপি আইনি বা ঐতিহাসিক নথিগুলিকে পিডিএফ নথিতে রূপান্তর করতে ব্যবহৃত হয়, যা পরে সম্পাদনা, বিন্যাস এবং অনুসন্ধান করা যেতে পারে যেন সেগুলি একটি ওয়ার্ড প্রসেসর ব্যবহার করে লেখা হয়েছে।
আপনি যখন একটি ফর্ম বা একটি রসিদ স্ক্যান করেন, উদাহরণস্বরূপ, আপনার কম্পিউটার এটি একটি চিত্র ফাইল হিসাবে সংরক্ষণ করে৷ আপনি একটি টেক্সট এডিটর দিয়ে ছবির ফাইলের শব্দগুলি পরিবর্তন, অনুসন্ধান বা গণনা করতে পারবেন না। যাইহোক, আপনি OCR ব্যবহার করে ছবিটিকে একটি পাঠ্য নথিতে রূপান্তর করতে পারেন এবং বিষয়বস্তুগুলিকে পাঠ্য ডেটা হিসাবে সংরক্ষণ করতে পারেন।
এটা কিভাবে কাজ করে?
পূর্বে বলা হয়েছে, একটি OCR সিস্টেম হার্ডওয়্যার এবং সফ্টওয়্যার উভয়ই নিয়ে গঠিত। পরিষেবাটির লক্ষ্য হল একটি প্রকৃত নথির বিষয়বস্তু মূল্যায়ন করা এবং টুকরোগুলিকে একটি স্ক্রিপ্টে রূপান্তর করা যা তারপরে ডেটা প্রক্রিয়া করতে ব্যবহার করা যেতে পারে।
পোস্টাল এবং মেল বাছাই পরিষেবাগুলি বিবেচনা করুন, উদাহরণস্বরূপ। মেলকে আরও দক্ষতার সাথে শ্রেণীবদ্ধ করার জন্য দ্রুত উত্স প্রক্রিয়াকরণ এবং ঠিকানা ফেরত দেওয়ার ক্ষমতার জন্য OCR অপরিহার্য। প্রোগ্রামের সাফল্যের জন্য নিম্নলিখিত তিনটি পন্থা অত্যন্ত গুরুত্বপূর্ণ:
1. ছবি প্রাক-প্রক্রিয়াকরণ
এই কৌশলটি প্রথম ধাপে নথির প্রকৃত আকৃতিকে একটি ছবিতে পরিবর্তন করে, যেমন একটি রেকর্ড ছবি। এই পদক্ষেপের লক্ষ্য হল মেশিনের উপস্থাপনাকে যথাসম্ভব নির্ভুল করে তোলার পাশাপাশি যেকোনো অবাঞ্ছিত বিচ্যুতি দূর করা।
এর পরে, ধারণাটি কালো এবং সাদাতে রূপান্তরিত হয় এবং উজ্জ্বল বনাম অন্ধকার অঞ্চলের (অক্ষর) জন্য মূল্যায়ন করা হয়। OCR প্রযুক্তি ব্যবহার করে, ছবিকে তারপর আলাদা অংশে বিভক্ত করা হয়, যেমন স্প্রেডশীট, টেক্সট বা ইনসেট গ্রাফিক্স।
2. এআই ক্যারেক্টার রিকগনিশন
অক্ষর এবং অঙ্কগুলিকে আলাদা করতে, AI চিত্রের অন্ধকার অঞ্চলগুলি পরীক্ষা করে৷ একটি সময়ে একটি শব্দ, বাক্যাংশ বা অনুচ্ছেদ লক্ষ্য করতে, AI সাধারণত নিম্নলিখিত পদ্ধতিগুলির মধ্যে একটি ব্যবহার করে:
- প্যাটার্ন রিকগনিশন: এআই সিস্টেমকে প্রশিক্ষণ দেওয়ার জন্য, প্রযুক্তিগুলি বিভিন্ন ভাষা, পাঠ্য বিন্যাস এবং হস্তাক্ষর ব্যবহার করে। মিল শনাক্ত করতে, অ্যালগরিদম শনাক্ত করা অক্ষর চিত্রের অক্ষরগুলিকে ইতিমধ্যেই শিখে নেওয়া নোটগুলির সাথে তুলনা করে৷
- বৈশিষ্ট্য স্বীকৃতি: নতুন অক্ষর সনাক্ত করার জন্য, সিস্টেম নির্দিষ্ট চরিত্রের বৈশিষ্ট্যের উপর ভিত্তি করে নিয়ম নিযুক্ত করে। একটি বৈশিষ্ট্য হল একটি অক্ষরে কোণীয়, ক্রস করা বা বক্ররেখার সংখ্যা।
অ্যালগরিদম অনন্য অক্ষর সনাক্ত করতে নির্দিষ্ট অক্ষর বৈশিষ্ট্যের উপর ভিত্তি করে মানদণ্ড ব্যবহার করে। একটি অক্ষরের মধ্যে কোণ, ক্রসিং বা নমন রেখার পরিমাণ, উদাহরণস্বরূপ, একটি বৈশিষ্ট্য।
3. পোস্ট-প্রিপ্রসেসিং
পোস্ট-প্রসেসিংয়ের সময়, এআই চূড়ান্ত ফাইলের ত্রুটিগুলি সংশোধন করে। একটি কৌশল হল এআইকে পরিভাষার একটি অভিধানে শিক্ষিত করা যা কাগজে ব্যবহৃত হবে। তারপরে, কোনো ব্যাখ্যা যেন AI এর শব্দভান্ডারের বাইরে না হয় তা নিশ্চিত করতে, AI-এর আউটপুটকে সেই শব্দ/ফর্ম্যাটে সীমাবদ্ধ করুন।
OCR এর সুবিধা
- OCR প্রযুক্তির প্রধান সুবিধা হল সময় সাশ্রয় এবং ভুল কমানো। এটি জিপ ফাইলগুলিতে ডেটা সংকুচিত করার অনুমতি দেয়, এমন কিছু যা একটি বাস্তব মুদ্রিত পৃষ্ঠা সম্পন্ন করতে পারে না।
- অপটিক্যাল ক্যারেক্টার রিকগনিশন ব্যবহার করে ডেটা অনুসন্ধান করা যেতে পারে। স্ক্যান করা ফাইলগুলি যেগুলি মেশিন-পাঠযোগ্য ফাইলগুলিতে রূপান্তরিত হয়েছে সেগুলি যে কোনও ফর্ম্যাটে সংরক্ষণ করা যেতে পারে যা কোনও সংস্থার অভ্যন্তরীণ সার্ভারে অনুসন্ধান করা যেতে পারে বা ইন্টারনেটে বিশ্বব্যাপী উপলব্ধ করা যেতে পারে।
- OCR প্রায়শই অন্যান্য কৃত্রিম বুদ্ধিমত্তা সিস্টেমের সাথে ব্যবহার করা হয়। উদাহরণস্বরূপ, স্ব-চালিত গাড়িগুলি লাইসেন্স প্লেট এবং রাস্তার চিহ্নগুলি স্ক্যান করে এবং পড়ে, সোশ্যাল মিডিয়া পোস্টিংগুলিতে ব্র্যান্ডের লোগো সনাক্ত করে এবং বিজ্ঞাপনের ফটোগুলিতে পণ্য প্যাকেজিংকে স্বীকৃতি দেয়৷ এই ধরনের কৃত্রিম বুদ্ধিমত্তা প্রযুক্তি সংস্থাগুলিকে আরও ভাল বিপণন এবং অপারেশনাল সিদ্ধান্ত নিতে সাহায্য করে যা অর্থ সাশ্রয় করে এবং গ্রাহকের সন্তুষ্টি বাড়ায়।
- বিদ্যমান এবং নতুন তথ্য সম্পূর্ণরূপে অনুসন্ধানযোগ্য জ্ঞান সংরক্ষণাগারে রূপান্তরিত করা যেতে পারে। অতিরিক্ত জ্ঞান প্রক্রিয়াকরণের জন্য তারা স্বয়ংক্রিয়ভাবে পাঠ্য ডাটাবেস প্রক্রিয়া করার জন্য ডেটা বিশ্লেষণ সরঞ্জাম ব্যবহার করতে পারে।
- অপটিক্যাল ক্যারেক্টার রিকগনিশন (OCR) একটি শক্তিশালী টুল যা যেকোনো ভাষার স্ক্রিপ্ট চিনতে পারে। ওসিআর-এর এই ক্ষমতা, যখন ইউনিকোড স্ট্যান্ডার্ড এবং অনুবাদ সফ্টওয়্যার যেমন Google অনুবাদের সাথে যুক্ত করা হয়, তখন প্রতিটি স্ক্যান করা এবং ডিজিটাইজড নথিকে অন্য যেকোনো ভাষায় অনুবাদ করার অনুমতি দেয়। একটি সুবিধা যা মানব অনুবাদকদের প্রয়োজনীয়তা এবং তাদের সময়সাপেক্ষ প্রচেষ্টাকে দূর করে।
OCR এর ক্ষেত্রে ব্যবহার করুন
অপটিক্যাল ক্যারেক্টার রিকগনিশনের সবচেয়ে সুপরিচিত ব্যবহার হল মুদ্রিত কাগজের নথিকে মেশিন-রিডেবল টেক্সট ডকুমেন্টে (OCR) রূপান্তর করা। একটি স্ক্যান করা কাগজের নথি ওসিআর-প্রসেস করার পরে, মাইক্রোসফ্ট ওয়ার্ড বা গুগল ডক্সের মতো ওয়ার্ড প্রসেসর ব্যবহার করে পাঠ্য সম্পাদনা করা যেতে পারে।
আমাদের দৈনন্দিন জীবনে অনেক সুপরিচিত সিস্টেম এবং পরিষেবাগুলি ওসিআর-এর উপর নির্ভর করে, যা সাধারণত একটি অদেখা প্রযুক্তি হিসাবে ব্যবহৃত হয়।
ডেটা ইনপুট অটোমেশন, অন্ধ এবং দৃষ্টি প্রতিবন্ধীদের সহায়তা করা এবং সার্চ ইঞ্জিনের জন্য নথির সূচীকরণ, যেমন পাসপোর্ট, লাইসেন্স প্লেট, ইনভয়েস, ব্যাঙ্ক স্টেটমেন্ট, ব্যবসায়িক কার্ড, এবং স্বয়ংক্রিয় নম্বর প্লেট শনাক্তকরণ, ওসিআর প্রযুক্তির সমস্ত প্রয়োজনীয় কিন্তু কম পরিচিত ব্যবহার। .
কাগজ এবং স্ক্যান করা ছবি নথিগুলিকে মেশিন-পাঠযোগ্য, অনুসন্ধানযোগ্য PDF ফাইলে রূপান্তর করে, OCR বিগ-ডেটা মডেলিংয়ের অপ্টিমাইজেশনের জন্য অনুমতি দেয়। প্রাথমিকভাবে যে নথিগুলিতে পাঠ্য স্তর নেই সেগুলিতে OCR প্রয়োগ না করে, গুরুত্বপূর্ণ তথ্য প্রক্রিয়াকরণ এবং নিষ্কাশন স্বয়ংক্রিয় হতে পারে না।
স্ক্যান করা কাগজগুলি এখন একটি বিগ-ডেটা সিস্টেমে অন্তর্ভুক্ত করা যেতে পারে যা OCR পাঠ্য স্বীকৃতির জন্য ধন্যবাদ, ব্যাঙ্ক স্টেটমেন্ট, চুক্তি এবং অন্যান্য প্রয়োজনীয় মুদ্রিত নথিগুলি থেকে গ্রাহকের ডেটা পড়তে পারে।
সংস্থাগুলি ডেটা মাইনিং ইনপুট স্টেজ স্বয়ংক্রিয় করতে OCR ব্যবহার করতে পারে, কর্মীদের অসংখ্য ছবি নথি বিশ্লেষণ করার পরিবর্তে এবং ম্যানুয়ালি একটি স্বয়ংক্রিয় বিগ-ডেটা প্রক্রিয়াকরণ পাইপলাইনে ইনপুটগুলি খাওয়ানোর পরিবর্তে।
OCR সফ্টওয়্যার ইমেজ থেকে টেক্সট চিনতে পারে, ফটোগ্রাফ থেকে টেক্সট বের করতে পারে এবং নিম্নলিখিত ফরম্যাটে টেক্সট ফাইল সেভ করতে পারে: JPG, JPEG, PNG, BMP, tiff, PDF, এবং অন্যান্য।
আইনি ব্যবসা, যা সর্বাধিক কাগজপত্র তৈরি করে, বিভিন্ন উপায়ে অপটিক্যাল চরিত্র স্বীকৃতি ব্যবহার করে। সমস্ত মুদ্রিত নথি - হলফনামা, রায়, ফাইল, ঘোষণা, উইল এবং আরও অনেক কিছু - সহজতম OCR স্ক্যানার ব্যবহার করে ডিজিটাইজ করা, সংরক্ষণ করা এবং অনুসন্ধান করা যেতে পারে।
এই পদ্ধতিগুলি জাপানি এবং হিন্দির মতো অন্যান্য ভাষাগত লিপিতে আইনি রেকর্ডের জন্য ব্যবহার করা যেতে পারে, কারণ ওসিআর প্রযুক্তি রোমান অক্ষর ব্যবহার করে না এমন ভাষায় প্রসারিত হয়। ওসিআর প্রযুক্তি অতীতের উপর উল্লেখযোগ্যভাবে নির্ভর করে এমন একটি ব্যবসার জন্য অতীতের অসংখ্য উদাহরণে মসৃণ অ্যাক্সেস প্রদান করতে পারে।
OCR এর আবেদন
- ট্র্যাফিক লক্ষণ সনাক্তকরণ.
- একটি ক্যামেরা দিয়ে, আপনি নম্বর প্লেট চিনতে পারেন।
- তথ্য প্রবেশ, নিষ্কাশন, এবং প্রক্রিয়াকরণ সব স্বয়ংক্রিয় হয়.
- বিমানবন্দরে, পাসপোর্ট স্বীকৃত হয় এবং ডেটা বের করা হয়।
- ব্যবসায়িক কার্ডের তথ্য ব্যবহার করে একটি পরিচিতি তালিকা তৈরি করা।
- অন্ধ এবং দৃষ্টি প্রতিবন্ধী ব্যক্তিদের তাদের উচ্চস্বরে পড়ার জন্য কাগজপত্রের পাঠোদ্ধার করা।
- মুদ্রিত সামগ্রীর ইলেকট্রনিক ছবির মাধ্যমে অনুসন্ধান করা সম্ভব করে তোলে।
- ঐতিহাসিক উপাদান যেমন জার্নাল এবং সংবাদপত্রের অনুসন্ধানযোগ্য সংরক্ষণাগার তৈরি করা।
- চেক, পাসপোর্ট, চালান, ব্যাঙ্ক স্টেটমেন্ট, রসিদ এবং প্রো ফর্মা চালানের মতো বাণিজ্যিক নথিগুলির জন্য ডেটা এন্ট্রি।
উপসংহার
OCR (অপটিক্যাল ক্যারেক্টার রিকগনিশন) কাগজের নথি স্ক্যান এবং ডিজিটাইজ করার একটি কৌশল। এটি ফটো, হাতে লেখা উপাদান এবং মুদ্রিত নথি থেকে সম্পূর্ণরূপে অনুসন্ধানযোগ্য ডিজিটাল ফাইল তৈরি করে।
যেহেতু এই প্রযুক্তিগুলি আরও লাভজনক এবং উপলব্ধ হয়ে উঠেছে, ওসিআর হল একটি নিখুঁত উদাহরণ যে কীভাবে AI সমাধানগুলি ডাটাবেস আধুনিকীকরণকে চালিত করছে।
সংক্ষেপে বলতে গেলে, ওসিআর একটি অসাধারণ প্রযুক্তি যার বিপুল সম্ভাবনা রয়েছে। আজকের বিশ্বে এই ধরনের যন্ত্রগুলি ইতিমধ্যেই বেশ পরিশীলিত৷ অপরদিকে অপটিক্যাল ক্যারেক্টার রিকগনিশন ভবিষ্যতে উন্নত হবে।
কৃত্রিম বুদ্ধিমত্তা (AI) পরবর্তী বছরগুলিতে সবচেয়ে প্রভাবশালী প্রবণতাগুলির মধ্যে একটি হয়ে উঠতে প্রস্তুত, তথ্য সম্পর্কে আমাদের চিন্তাভাবনা পরিবর্তন করে৷
নির্দেশিকা সমন্ধে মতামত দিন