সুচিপত্র[লুকান][দেখান]
আরে, আপনি কি জানেন, NVIDIA-এর তাত্ক্ষণিক NeRF নিউরাল রেন্ডারিং মডেলের সাহায্যে 3D ডেটা ইনপুট থেকে সেকেন্ডে একটি 2D দৃশ্য তৈরি করা যেতে পারে এবং সেই দৃশ্যের ফটোগ্রাফ মিলিসেকেন্ডে রেন্ডার করা যেতে পারে?
ইনভার্স রেন্ডারিং নামে পরিচিত কৌশলটি ব্যবহার করে স্থির ফটোগ্রাফের সংগ্রহকে একটি ডিজিটাল 3D পরিবেশে দ্রুত রূপান্তর করা সম্ভব, যা এআইকে বাস্তব জগতে কীভাবে আলো কাজ করে তা অনুকরণ করতে সক্ষম করে।
এটি তার ধরণের প্রথম মডেলগুলির মধ্যে একটি যা অতি-দ্রুত নিউরাল নেটওয়ার্ক প্রশিক্ষণ এবং দ্রুত রেন্ডারিংকে একত্রিত করতে পারে, একটি কৌশল যা NVIDIA-এর গবেষণা দল তৈরি করেছে যা অবিশ্বাস্যভাবে দ্রুত অপারেশন সম্পন্ন করে - প্রায় তাত্ক্ষণিকভাবে।
এই নিবন্ধটি NVIDIA এর NeRF এর গতি, ব্যবহারের ক্ষেত্রে এবং অন্যান্য বিষয়গুলি সহ গভীরভাবে পরীক্ষা করবে।
সুতরাং, কি এনআরএফ?
NeRF হল নিউরাল রেডিয়েন্স ফিল্ড, যা অল্প সংখ্যক ইনপুট ভিউ ব্যবহার করে একটি অন্তর্নিহিত ক্রমাগত ভলিউমেট্রিক দৃশ্য ফাংশন পরিমার্জন করে জটিল দৃশ্যের অনন্য দৃশ্য তৈরি করার একটি কৌশলকে বোঝায়।
ইনপুট হিসাবে 2D ফটোর সংগ্রহ দেওয়া হলে, NVIDIA-এর NeRFs নিয়োগ করে নিউরাল নেটওয়ার্ক 3D দৃশ্য উপস্থাপন এবং জেনারেট করতে।
এলাকার চারপাশের বিভিন্ন কোণ থেকে অল্প সংখ্যক ফটোর জন্য প্রয়োজন স্নায়বিক নেটওয়ার্ক, প্রতিটি ফ্রেমে ক্যামেরার অবস্থান সহ।
এই ছবিগুলো যত তাড়াতাড়ি তোলা হয় ততই ভালো, বিশেষ করে চলন্ত অভিনেতা বা বস্তুর দৃশ্যে।
3D ছবি তোলার প্রক্রিয়া চলাকালীন খুব বেশি গতি থাকলে AI-উত্পন্ন 2D দৃশ্যটি ধোঁকা দেওয়া হবে।
3D পরিবেশের যেকোনো স্থান থেকে প্রতিটি দিকে নির্গত আলোর রঙের ভবিষ্যদ্বাণী করে, NeRF কার্যকরভাবে সম্পূর্ণ চিত্রটি তৈরি করার জন্য এই ডেটার রেখে যাওয়া ফাঁকগুলি পূরণ করে।
যেহেতু সঠিক ইনপুট পাওয়ার পর NeRF কয়েক মিলিসেকেন্ডের মধ্যে একটি 3D দৃশ্য তৈরি করতে পারে, এটি এখন পর্যন্ত দ্রুততম NeRF পদ্ধতি।
NeRF এত দ্রুত কাজ করে যে এটি কার্যত তাত্ক্ষণিক, তাই এর নাম। যদি বহুভুজ জালের মতো স্ট্যান্ডার্ড 3D উপস্থাপনাগুলি ভেক্টর ছবি হয়, তবে NeRFগুলি হল বিটম্যাপ চিত্র: তারা একটি বস্তু থেকে বা দৃশ্যের ভিতর থেকে যেভাবে আলো নির্গত হয় তা ঘনভাবে ক্যাপচার করে।
তাত্ক্ষণিক এনআরএফ 3D-এর জন্য অপরিহার্য কারণ ডিজিটাল ক্যামেরা এবং JPEG কম্প্রেশন 2D ফটোগ্রাফিতে হয়েছে, নাটকীয়ভাবে 3D ক্যাপচার এবং শেয়ার করার গতি, সুবিধা এবং নাগাল বাড়িয়েছে।
তাত্ক্ষণিক NeRF ভার্চুয়াল জগতের জন্য অবতার বা এমনকি সম্পূর্ণ দৃশ্যাবলী তৈরি করতে ব্যবহার করা যেতে পারে।
পোলারয়েড ফটোগুলির প্রারম্ভিক দিনগুলিতে শ্রদ্ধা জানাতে, NVIDIA গবেষণা দল অ্যান্ডি ওয়ারহোলের একটি তাত্ক্ষণিক ছবি তোলার একটি বিখ্যাত শট পুনরায় তৈরি করেছে এবং তাত্ক্ষণিক NeRF ব্যবহার করে এটিকে একটি 3D দৃশ্যে রূপান্তর করেছে৷
এটা কি সত্যিই 1,000 গুণ দ্রুত?
একটি 3D দৃশ্যের জটিলতা এবং মানের উপর নির্ভর করে, NeRF এর আগে তৈরি হতে কয়েক ঘন্টা সময় লাগতে পারে।
AI প্রক্রিয়াটিকে ব্যাপকভাবে ত্বরান্বিত করেছে, কিন্তু সঠিকভাবে প্রশিক্ষণের জন্য এটি এখনও কয়েক ঘন্টা সময় নিতে পারে। মাল্টি-রেজোলিউশন হ্যাশ এনকোডিং নামক একটি পদ্ধতি ব্যবহার করে, NVIDIA দ্বারা অগ্রণী, তাত্ক্ষণিক NeRF রেন্ডারের সময়কে 1,000 ফ্যাক্টর দ্বারা কমিয়ে দেয়।
ছোট CUDA নিউরাল নেটওয়ার্ক প্যাকেজ এবং NVIDIA CUDA টুলকিট মডেল তৈরি করতে ব্যবহার করা হয়েছিল। NVIDIA-এর মতে, যেহেতু এটি একটি লাইটওয়েট নিউরাল নেটওয়ার্ক, এটিকে প্রশিক্ষিত করা যায় এবং একটি একক NVIDIA GPU-তে ব্যবহার করা যেতে পারে, NVIDIA টেনসর কোর কার্ডগুলি দ্রুত গতিতে কাজ করে।
ব্যবহারের ক্ষেত্রে
স্ব-চালিত অটোমোবাইলগুলি এই প্রযুক্তির অন্যতম উল্লেখযোগ্য অ্যাপ্লিকেশন। এই যানবাহনগুলি মূলত তাদের আশেপাশের কল্পনা করেই চলে।
যাইহোক, আজকের প্রযুক্তির সমস্যা হল এটি আনাড়ি এবং একটু বেশি সময় নেয়।
যাইহোক, ইন্সট্যান্ট এনআরএফ ব্যবহার করে, বাস্তব-বিশ্বের বস্তুর আকার এবং আকৃতি আনুমানিক/বোঝার জন্য একটি স্ব-চালিত গাড়ির জন্য যা প্রয়োজন তা হল স্থির ছবি তোলা, সেগুলিকে 3D তে পরিণত করা এবং তারপর সেই তথ্য ব্যবহার করা।
মেটাভার্সে এখনও অন্য ব্যবহার হতে পারে বা ভিডিও গেম উৎপাদন শিল্প।
যেহেতু ইনস্ট্যান্ট এনআরএফ আপনাকে দ্রুত অবতার বা এমনকি পুরো ভার্চুয়াল বিশ্ব তৈরি করতে দেয়, এটি সত্য।
প্রায় সামান্য 3 ডি অক্ষর মডেলিং প্রয়োজন হবে কারণ আপনাকে যা করতে হবে তা হল নিউরাল নেটওয়ার্ক চালানো, এবং এটি আপনার জন্য একটি চরিত্র তৈরি করবে।
উপরন্তু, NVIDIA এখনও অতিরিক্ত মেশিন লার্নিং-সম্পর্কিত অ্যাপ্লিকেশনের জন্য এই প্রযুক্তি প্রয়োগের অন্বেষণ করছে।
উদাহরণস্বরূপ, এটি পূর্বের তুলনায় আরো সঠিকভাবে ভাষা অনুবাদ করতে এবং সাধারণ-উদ্দেশ্য উন্নত করতে ব্যবহার করা যেতে পারে গভীর জ্ঞানার্জন অ্যালগরিদম এখন বিস্তৃত পরিসরের কাজের জন্য ব্যবহার করা হচ্ছে।
উপসংহার
অনেক গ্রাফিক্স সমস্যা সমস্যার মসৃণতা বা স্পর্সিটি ব্যবহার করার জন্য টাস্ক-নির্দিষ্ট ডেটা স্ট্রাকচারের উপর নির্ভর করে।
NVIDIA-এর মাল্টি-রেজোলিউশন হ্যাশ এনকোডিং দ্বারা অফার করা ব্যবহারিক শিক্ষা-ভিত্তিক বিকল্প কাজের চাপ নির্বিশেষে স্বয়ংক্রিয়ভাবে প্রাসঙ্গিক বিশদে মনোনিবেশ করে।
ভিতরে জিনিসগুলি কীভাবে কাজ করে সে সম্পর্কে আরও জানতে, অফিসিয়ালটি দেখুন GitHub সংগ্রহস্থল।
নির্দেশিকা সমন্ধে মতামত দিন