ভাষা শনাক্তকরণ এবং প্রজন্মের জন্য প্রশিক্ষিত বৃহৎ নিউরাল নেটওয়ার্ক সাম্প্রতিক বছরগুলোতে বিভিন্ন কাজে অসামান্য ফলাফল প্রদর্শন করেছে। GPT-3 প্রমাণ করেছে যে বৃহৎ ভাষা মডেলগুলি (LLMs) অল্প-শট শেখার জন্য ব্যবহার করা যেতে পারে এবং ব্যাপক টাস্ক-নির্দিষ্ট ডেটা বা মডেল প্যারামিটার পরিবর্তনের প্রয়োজন ছাড়াই চমৎকার ফলাফল পেতে পারে।
Google, সিলিকন ভ্যালি টেক বিহেমথ, PaLM, বা Pathways Language Model, বিশ্বব্যাপী প্রযুক্তি শিল্পে পরবর্তী প্রজন্মের AI-ভাষা মডেল হিসেবে উপস্থাপন করেছে। গুগল একটি নতুন অন্তর্ভুক্ত করেছে কৃত্রিম বুদ্ধিমত্তা এআই-ভাষা মডেলের মান উন্নত করার কৌশলগত লক্ষ্য নিয়ে PaLM-এ স্থাপত্য।
এই পোস্টে, আমরা পাম অ্যালগরিদমকে বিস্তারিতভাবে পরীক্ষা করব, এতে প্রশিক্ষণের জন্য ব্যবহৃত পরামিতিগুলি, এটি যে সমস্যার সমাধান করে এবং আরও অনেক কিছু সহ।
Google এর PaLM অ্যালগরিদম?
পাথওয়েস ল্যাঙ্গুয়েজ মডেল কি পাএলএম জন্য দাঁড়ায় পাথওয়েজ এআই আর্কিটেকচারকে শক্তিশালী করার জন্য এটি Google দ্বারা তৈরি একটি নতুন অ্যালগরিদম। কাঠামোর প্রধান লক্ষ্য হল একবারে এক মিলিয়ন স্বতন্ত্র ক্রিয়াকলাপ করা।
এর মধ্যে জটিল ডেটার পাঠোদ্ধার থেকে ডিডাক্টিভ যুক্তি পর্যন্ত সবকিছুই অন্তর্ভুক্ত। PaLM-এর বর্তমান AI অত্যাধুনিক এবং সেইসাথে মানুষের ভাষা ও যুক্তির কাজে অতিক্রম করার ক্ষমতা রয়েছে।
এর মধ্যে রয়েছে ফিউ-শট লার্নিং, যা অনুকরণ করে যে কীভাবে মানুষ নতুন জিনিস শেখে এবং নতুন চ্যালেঞ্জ মোকাবেলা করার জন্য বিভিন্ন জ্ঞানের বিটগুলিকে একত্রিত করে যা আগে কখনও দেখা যায়নি, এমন একটি মেশিনের সুবিধা যা তার সমস্ত জ্ঞানকে নতুন চ্যালেঞ্জের সমাধান করতে ব্যবহার করতে পারে; PaLM-এ এই দক্ষতার একটি উদাহরণ হল এটি এমন একটি কৌতুক ব্যাখ্যা করার ক্ষমতা যা এটি আগে কখনও শোনেনি।
PaLM বিভিন্ন চ্যালেঞ্জিং কাজের উপর অনেক যুগান্তকারী দক্ষতা প্রদর্শন করেছে, যার মধ্যে ভাষা বোঝা এবং সৃষ্টি, বহুধাপে গাণিতিক কোড-সম্পর্কিত কার্যকলাপ, সাধারণ জ্ঞানের যুক্তি, অনুবাদ এবং আরও অনেক কিছু।
এটি বহুভাষিক NLP সেট ব্যবহার করে জটিল সমস্যাগুলি সমাধান করার ক্ষমতা প্রদর্শন করেছে। PaLM বিশ্বব্যাপী প্রযুক্তি বাজার দ্বারা কারণ এবং প্রভাব, ধারণাগত সমন্বয়, স্বতন্ত্র গেমস এবং অন্যান্য অনেক কিছু আলাদা করতে ব্যবহার করা যেতে পারে।
এটি মাল্টিস্টেপ লজিক্যাল ইনফারেন্স, গভীর ভাষা, বিশ্ব জ্ঞান এবং অন্যান্য কৌশল ব্যবহার করে অনেক প্রসঙ্গের জন্য গভীরভাবে ব্যাখ্যা তৈরি করতে পারে।
গুগল কিভাবে PaLM অ্যালগরিদম তৈরি করেছে?
PaLM-এ Google-এর যুগান্তকারী কর্মক্ষমতার জন্য, পাথওয়েগুলি 540 বিলিয়ন প্যারামিটার পর্যন্ত স্কেল করার জন্য নির্ধারিত হয়েছে। এটি একটি মডেল হিসাবে স্বীকৃত যা দক্ষতার সাথে এবং কার্যকরভাবে অসংখ্য ডোমেন জুড়ে সাধারণীকরণ করতে পারে। Google-এ Pathways অ্যাক্সিলারেটরের জন্য ডিস্ট্রিবিউটেড কম্পিউটিং ডেভেলপ করার জন্য নিবেদিত৷
PaLM হল একটি ডিকোডার-কেবল ট্রান্সফরমার মডেল যা পাথওয়ে সিস্টেম ব্যবহার করে প্রশিক্ষিত হয়েছে। Google এর মতে, PaLM বেশ কয়েকটি কাজের চাপে অত্যাধুনিক কিছু শট পারফরম্যান্স সফলভাবে অর্জন করেছে। PaLM সবচেয়ে বড় TPU-ভিত্তিক সিস্টেম কনফিগারেশনে প্রশিক্ষণ প্রসারিত করতে পাথওয়ে সিস্টেম ব্যবহার করেছে, যা প্রথমবারের মতো 6144 চিপ নামে পরিচিত।
এআই-ভাষা মডেলের জন্য একটি প্রশিক্ষণ ডেটাসেট ইংরেজি এবং অন্যান্য বহুভাষিক ডেটাসেটের মিশ্রণে তৈরি। একটি "ক্ষতিহীন" শব্দভান্ডার সহ, এতে উচ্চ-মানের ওয়েব সামগ্রী, আলোচনা, বই, গিটহাব কোড, উইকিপিডিয়া এবং আরও অনেক কিছু রয়েছে৷ লসলেস শব্দভাণ্ডার হোয়াইটস্পেস ধরে রাখার জন্য এবং ইউনিকোড অক্ষরগুলিকে ভাঙ্গার জন্য স্বীকৃত যা শব্দভাণ্ডারে নেই বাইটগুলিতে।
PaLM একটি স্ট্যান্ডার্ড ট্রান্সফরমার মডেল আর্কিটেকচার এবং একটি ডিকোডার কনফিগারেশন ব্যবহার করে Google এবং Pathways দ্বারা তৈরি করা হয়েছে যাতে SwiGLU অ্যাক্টিভেশন, সমান্তরাল স্তর, RoPE এম্বেডিং, শেয়ার করা ইনপুট-আউটপুট এম্বেডিং, মাল্টি-কোয়েরি মনোযোগ এবং কোনও পক্ষপাত বা শব্দভান্ডার অন্তর্ভুক্ত ছিল। অন্যদিকে, PaLM Google এবং Pathways এর AI-ভাষা মডেলের জন্য একটি শক্ত ভিত্তি প্রদান করতে প্রস্তুত।
PaLM প্রশিক্ষণের জন্য ব্যবহৃত পরামিতি
গত বছর, Google Pathways লঞ্চ করেছে, একটি একক মডেল যা হাজার হাজার, লক্ষ লক্ষ না হলেও প্রশিক্ষিত হতে পারে—যাকে "পরবর্তী প্রজন্মের AI আর্কিটেকচার" বলে ডাকা হয়েছে কারণ এটি শুধুমাত্র একটি জিনিস করতে প্রশিক্ষিত হওয়ার বিদ্যমান মডেলের সীমাবদ্ধতাগুলি অতিক্রম করতে পারে৷ . বর্তমান মডেলগুলির ক্ষমতা প্রসারিত করার পরিবর্তে, একটি একক কাজ সম্পন্ন করার জন্য নতুন মডেলগুলি প্রায়ই নিচ থেকে তৈরি করা হয়।
ফলস্বরূপ, তারা হাজার হাজার বিভিন্ন ক্রিয়াকলাপের জন্য কয়েক হাজার মডেল তৈরি করেছে। এটি একটি সময়সাপেক্ষ এবং সম্পদ-নিবিড় কাজ।
Google Pathways এর মাধ্যমে প্রমাণ করেছে যে একটি একক মডেল বিভিন্ন ধরনের ক্রিয়াকলাপ পরিচালনা করতে পারে এবং নতুন কাজগুলিকে আরও দ্রুত এবং দক্ষতার সাথে শিখতে বর্তমান প্রতিভাকে আঁকতে এবং একত্রিত করতে পারে।
মাল্টিমোডাল মডেল যা একই সাথে দৃষ্টি, ভাষাগত বোধগম্যতা এবং শ্রবণ প্রক্রিয়াকরণ অন্তর্ভুক্ত করে পথের মাধ্যমে সক্ষম হতে পারে। পাথওয়েস ল্যাঙ্গুয়েজ মডেল (PaLM) এর 4 বিলিয়ন প্যারামিটার মডেলের জন্য অসংখ্য TPU v540 পড জুড়ে একটি একক মডেলের প্রশিক্ষণের অনুমতি দেয়।
PaLM, একটি ঘন ডিকোডার-অনলি ট্রান্সফরমার মডেল, কাজের চাপের বিস্তৃত পরিসরে অত্যাধুনিক কিছু শট পারফরম্যান্সকে ছাড়িয়ে যায়। PaLM দুটি TPU v4 Pods-এ প্রশিক্ষিত হচ্ছে যা একটি ডেটা সেন্টার নেটওয়ার্ক (DCN) এর মাধ্যমে সংযুক্ত।
এটি মডেল এবং ডেটা সমান্তরালতার সুবিধা নেয়। গবেষকরা PaLM-এর জন্য প্রতিটি পডে 3072 টিপিইউ v4 প্রসেসর নিযুক্ত করেছেন, যা 768 হোস্টের সাথে সংযুক্ত ছিল। গবেষকদের মতে, এটি এখনও পর্যন্ত প্রকাশিত সবচেয়ে বড় TPU কনফিগারেশন, যা তাদের পাইপলাইনের সমান্তরালতাকে নিয়োগ না করেই প্রশিক্ষণ স্কেল করার অনুমতি দেয়।
পাইপ লাইনিং হল সাধারণভাবে একটি পাইপলাইনের মাধ্যমে CPU থেকে নির্দেশনা সংগ্রহ করার প্রক্রিয়া। মডেলের স্তরগুলি পর্যায়ক্রমে বিভক্ত যা পাইপলাইন মডেল সমান্তরালতার (বা পাইপলাইন সমান্তরালতা) মাধ্যমে সমান্তরালে প্রক্রিয়া করা যেতে পারে।
অ্যাক্টিভেশন মেমরি পরবর্তী ধাপে পাঠানো হয় যখন একটি পর্যায় একটি মাইক্রো-ব্যাচের জন্য ফরওয়ার্ড পাস সম্পূর্ণ করে। নিম্নোক্ত পর্যায়টি তার পশ্চাৎগামী প্রচার শেষ করলে গ্রেডিয়েন্টগুলি পিছনের দিকে পাঠানো হয়।
PaLM ব্রেকথ্রু ক্ষমতা
PaLM বিভিন্ন কঠিন কাজের মধ্যে গ্রাউন্ড ব্রেকিং ক্ষমতা প্রদর্শন করে। এখানে বেশ কয়েকটি উদাহরণ রয়েছে:
1. ভাষা সৃষ্টি এবং বোঝা
PaLM ইংরেজিতে 29টি ভিন্ন NLP টাস্কে পরীক্ষা করা হয়েছিল।
কয়েকটি শটের ভিত্তিতে, PaLM 540B পূর্ববর্তী বড় মডেল যেমন GLaM, GPT-3, Megatron-Turing NLG, Gopher, Chinchilla, এবং LaMDA-কে 28টির মধ্যে 29টি কাজের মধ্যে ছাড়িয়ে গেছে, যার মধ্যে ওপেন-ডোমেন ক্লোজড-বুক ভেরিয়েন্ট প্রশ্ন-উত্তর টাস্ক রয়েছে। , ক্লোজ এবং বাক্য-সমাপ্তির কাজ, উইনোগ্রাড-স্টাইলের কাজ, ইন-কনটেক্সট রিডিং কম্প্রিহেনশন টাস্ক, কমনসেন্স রিজনিং টাস্ক, সুপারগ্লুই টাস্ক এবং প্রাকৃতিক অনুমান।
বেশ কিছু BIG-বেঞ্চের কাজগুলিতে, PaLM চমৎকার প্রাকৃতিক ভাষা ব্যাখ্যা এবং প্রজন্মের দক্ষতা প্রদর্শন করে। উদাহরণস্বরূপ, মডেলটি কারণ এবং প্রভাবের মধ্যে পার্থক্য করতে পারে, নির্দিষ্ট পরিস্থিতিতে ধারণাগত সমন্বয় বুঝতে পারে এবং এমনকি একটি ইমোজি থেকে সিনেমাটি অনুমান করতে পারে। যদিও প্রশিক্ষণ সংস্থার মাত্র 22% নন-ইংরেজি, PaLM ইংরেজি NLP কাজগুলি ছাড়াও অনুবাদ সহ বহুভাষিক NLP বেঞ্চমার্কগুলিতে ভাল কাজ করে।
2. যুক্তি
PaLM মডেলের আকারকে চেইন-অফ-থট-এর সাথে মিশ্রিত করে যা বহুধাপীয় গাণিতিক বা কমনসেন্স যুক্তির প্রয়োজনে যুক্তি চ্যালেঞ্জের ক্ষেত্রে যুগান্তকারী দক্ষতা প্রদর্শনের জন্য প্রম্পট করে।
পূর্ববর্তী এলএলএম, যেমন গোফার, কর্মক্ষমতা বাড়ানোর ক্ষেত্রে মডেল আকার থেকে কম উপকৃত হয়েছিল। চেইন-অফ-থট প্রম্পটিং সহ PaLM 540B তিনটি গাণিতিক এবং দুটি কমনসেন্স থিঙ্কিং ডেটাসেটে ভাল ফল করেছে।
PaLM 55% এর আগের সেরা স্কোরকে ছাড়িয়ে গেছে, যা GPT-3 175B মডেলকে 7500টি সমস্যার একটি প্রশিক্ষণ সেটের সাথে ফাইন-টিউনিং করে এবং GSM58K-এর 8 শতাংশ সমস্যা সমাধানের জন্য একটি বাহ্যিক ক্যালকুলেটর এবং যাচাইকারীর সাথে একত্রিত করে, একটি 8-শট প্রম্পটিং ব্যবহার করে হাজার হাজার কঠিন গ্রেড স্কুল স্তরের গণিত প্রশ্নের বেঞ্চমার্ক।
এই নতুন স্কোরটি বিশেষভাবে লক্ষণীয় কারণ এটি 60-9 বছর বয়সীদের দ্বারা অভিজ্ঞ 12% গড় বাধার কাছে পৌঁছেছে। এটি ইন্টারনেটে পাওয়া যায় না এমন আসল জোকসগুলিতেও প্রতিক্রিয়া জানাতে পারে।
3. কোড জেনারেশন
LLM-গুলিকে কোডিং কাজগুলিতেও ভাল পারফর্ম করতে দেখানো হয়েছে, যার মধ্যে একটি প্রাকৃতিক ভাষার বর্ণনা (টেক্সট-টু-কোড) থেকে কোড তৈরি করা, ভাষার মধ্যে কোড অনুবাদ করা এবং সংকলন ত্রুটিগুলি সমাধান করা। প্রাক-প্রশিক্ষণ ডেটাসেটে মাত্র 5% কোড থাকা সত্ত্বেও, PaLM 540B একটি একক মডেলে কোডিং এবং প্রাকৃতিক ভাষা উভয় কাজেই ভালো পারফর্ম করে।
এর কয়েকটি শট পারফরম্যান্স অবিশ্বাস্য, কারণ এটি 12 গুণ কম পাইথন কোড সহ প্রশিক্ষণের সময় সূক্ষ্ম-টিউনড কোডেক্স 50B-এর সাথে মেলে। এই অনুসন্ধানটি পূর্বের অনুসন্ধানগুলির সাথে সমর্থন করে যে বড় মডেলগুলি ছোট মডেলের চেয়ে বেশি নমুনা দক্ষ হতে পারে কারণ তারা একাধিক থেকে আরও কার্যকরভাবে শিক্ষা স্থানান্তর করতে পারে প্রোগ্রামিং ভাষা এবং সরল ভাষার ডেটা।
উপসংহার
PaLM একটি ঘন ডিকোডার-অনলি ট্রান্সফরমার মডেলের একটি ভাল-অধ্যয়ন করা, সু-প্রতিষ্ঠিত রেসিপি সহ একটি 4-বিলিয়ন প্যারামিটার মডেলকে কার্যকরভাবে প্রশিক্ষণের মাধ্যমে দুটি TPU v540 পডের উপর হাজার হাজার এক্সিলারেটর প্রসেসরে স্কেল করার পাথওয়ে সিস্টেমের ক্ষমতা দেখায়।
এটি মডেল স্কেলের সীমানা ঠেলে প্রাকৃতিক ভাষা প্রক্রিয়াকরণ, যুক্তি এবং কোডিং চ্যালেঞ্জের একটি পরিসীমা জুড়ে যুগান্তকারী কয়েক-শট কর্মক্ষমতা অর্জন করে।
নির্দেশিকা সমন্ধে মতামত দিন