বড় ভাষার মডেল: আপনার যা জানা দরকার

সুচিপত্র[লুকান][দেখান]

একটি বড় ভাষা মডেল কি?
এলএলএম কীভাবে প্রশিক্ষিত হয়?+-
- একটি ট্রান্সফরমার আর্কিটেকচারের সাথে প্রাক-প্রশিক্ষণ
- ফাইন-টিউনিং
বড় ভাষার মডেলের সীমাবদ্ধতা+-
উপসংহার

কৃত্রিম বুদ্ধিমত্তার একটি ক্লাসিক সমস্যা হ'ল এমন একটি মেশিনের সন্ধান করা যা মানুষের ভাষা বুঝতে পারে।

উদাহরণস্বরূপ, আপনার পছন্দের সার্চ ইঞ্জিনে "কাছের ইতালীয় রেস্তোরাঁ" অনুসন্ধান করার সময়, একটি অ্যালগরিদমকে আপনার প্রশ্নের প্রতিটি শব্দ বিশ্লেষণ করতে হবে এবং প্রাসঙ্গিক ফলাফলগুলি আউটপুট করতে হবে৷ একটি শালীন অনুবাদ অ্যাপকে ইংরেজিতে একটি নির্দিষ্ট শব্দের প্রেক্ষাপট বুঝতে হবে এবং ভাষাগুলির মধ্যে ব্যাকরণের পার্থক্যগুলির জন্য কোনওভাবে অ্যাকাউন্ট করতে হবে।

এই সমস্ত কাজ এবং আরও অনেক কিছু কম্পিউটার বিজ্ঞানের সাবফিল্ড হিসাবে পরিচিত স্বাভাবিক ভাষা প্রক্রিয়াকরণ বা এনএলপি। এনএলপি-তে অগ্রগতির ফলে অ্যামাজনের অ্যালেক্সার মতো ভার্চুয়াল সহকারী থেকে স্প্যাম ফিল্টার পর্যন্ত ব্যবহারিক অ্যাপ্লিকেশনের একটি বিস্তৃত অ্যারের দিকে পরিচালিত হয়েছে যা দূষিত ইমেল সনাক্ত করে।

এনএলপির সবচেয়ে সাম্প্রতিক অগ্রগতি হল একটি ধারণা বড় ভাষা মডেল বা এলএলএম। LLM যেমন GPT-3 এত শক্তিশালী হয়ে উঠেছে যে তারা প্রায় যেকোনো NLP কাজ বা ব্যবহারের ক্ষেত্রে সফল বলে মনে হয়।

এই প্রবন্ধে, আমরা LLMগুলি ঠিক কী, এই মডেলগুলিকে কীভাবে প্রশিক্ষিত করা হয় এবং তাদের বর্তমান সীমাবদ্ধতাগুলি সম্পর্কে দেখব।

একটি বড় ভাষা মডেল কি?

এর মূলে, একটি ভাষা মডেল হল একটি অ্যালগরিদম যা জানে যে শব্দের ক্রম একটি বৈধ বাক্য কতটা সম্ভব।

কয়েকশ বইয়ের উপর প্রশিক্ষিত একটি খুব সহজ ভাষা মডেল বলতে সক্ষম হওয়া উচিত যে "তিনি বাড়ি গিয়েছিলেন" "বাড়ি গেলেন" এর চেয়ে বেশি বৈধ।

আমরা যদি ইন্টারনেট থেকে স্ক্র্যাপ করা একটি বিশাল ডেটাসেট দিয়ে অপেক্ষাকৃত ছোট ডেটাসেট প্রতিস্থাপন করি, তাহলে আমরা একটি ধারণার কাছে যেতে শুরু করি বড় ভাষা মডেল.

ব্যবহার নিউরাল নেটওয়ার্ক, গবেষকরা প্রচুর পরিমাণে পাঠ্য ডেটার উপর এলএলএম প্রশিক্ষণ দিতে পারেন। মডেলটি যে পরিমাণ পাঠ্য ডেটা দেখেছে তার কারণে, LLM একটি ক্রমানুসারে পরবর্তী শব্দের পূর্বাভাস দিতে খুব ভাল হয়ে ওঠে।

মডেলটি এত পরিশীলিত হয়ে উঠেছে, এটি অনেকগুলি NLP কাজ সম্পাদন করতে পারে। এই কাজগুলির মধ্যে পাঠ্যের সংক্ষিপ্তকরণ, অভিনব বিষয়বস্তু তৈরি করা এবং এমনকি মানুষের মতো কথোপকথন অনুকরণ করা অন্তর্ভুক্ত।

বড় ভাষার মডেল প্রম্পটের উপর ভিত্তি করে অভিনব বিষয়বস্তু তৈরি করতে পারে

উদাহরণস্বরূপ, অত্যন্ত জনপ্রিয় GPT-3 ভাষার মডেলটি 175 বিলিয়ন প্যারামিটারের সাথে প্রশিক্ষিত এবং এখন পর্যন্ত সবচেয়ে উন্নত ভাষার মডেল হিসাবে বিবেচিত হয়।

এটি কাজের কোড তৈরি করতে, সম্পূর্ণ নিবন্ধ লিখতে এবং যেকোনো বিষয়ে প্রশ্নের উত্তর দিতে সক্ষম।

এলএলএম কীভাবে প্রশিক্ষিত হয়?

আমরা সংক্ষিপ্তভাবে এই বিষয়টিকে স্পর্শ করেছি যে LLM-গুলি তাদের প্রশিক্ষণের ডেটার আকারের জন্য তাদের শক্তির অনেকটাই ঋণী। আমরা কেন তাদের "বড়" ভাষার মডেল বলি তার একটি কারণ রয়েছে।

একটি ট্রান্সফরমার আর্কিটেকচারের সাথে প্রাক-প্রশিক্ষণ

প্রাক-প্রশিক্ষণ পর্যায়ে, একটি ভাষার সাধারণ গঠন এবং নিয়ম শিখতে এলএলএমগুলিকে বিদ্যমান পাঠ্য ডেটার সাথে পরিচয় করিয়ে দেওয়া হয়।

বিগত কয়েক বছরে, এলএলএমগুলিকে ডেটাসেটগুলিতে প্রাক-প্রশিক্ষিত করা হয়েছে যা পাবলিক ইন্টারনেটের একটি উল্লেখযোগ্য অংশকে কভার করে। উদাহরণস্বরূপ, GPT-3 এর ভাষা মডেল থেকে ডেটার উপর প্রশিক্ষণ দেওয়া হয়েছিল সাধারণ ক্রল ডেটাসেট, 50 মিলিয়নেরও বেশি ডোমেন থেকে স্ক্র্যাপ করা ওয়েব পোস্ট, ওয়েব পেজ এবং ডিজিটাইজড বইগুলির একটি সংগ্রহ।

বৃহদায়তন ডেটাসেট তারপর একটি মডেল হিসাবে পরিচিত করা হয় ট্রান্সফরমার. ট্রান্সফরমার এক প্রকার গভীর নিউরাল নেটওয়ার্ক এটি ক্রমিক ডেটার জন্য সেরা কাজ করে।

বড় ভাষার মডেল ট্রান্সফরমার ব্যবহার করে

ট্রান্সফরমার ব্যবহার করে একটি এনকোডার-ডিকোডার আর্কিটেকচার ইনপুট এবং আউটপুট পরিচালনার জন্য। মূলত, ট্রান্সফরমারে দুটি নিউরাল নেটওয়ার্ক থাকে: একটি এনকোডার এবং একটি ডিকোডার। এনকোডার ইনপুট পাঠ্যের অর্থ বের করতে পারে এবং এটি একটি ভেক্টর হিসাবে সংরক্ষণ করতে পারে। ডিকোডার তখন ভেক্টর গ্রহণ করে এবং পাঠ্যের ব্যাখ্যা তৈরি করে।

যাইহোক, মূল ধারণা যা ট্রান্সফরমার আর্কিটেকচারকে এত ভালভাবে কাজ করতে দেয় তা হল a এর সংযোজন স্ব-মনোযোগ প্রক্রিয়া. স্ব-মনোযোগের ধারণাটি মডেলটিকে একটি প্রদত্ত বাক্যে সবচেয়ে গুরুত্বপূর্ণ শব্দগুলিতে মনোযোগ দেওয়ার অনুমতি দেয়। প্রক্রিয়াটি এমনকি ক্রমানুসারে অনেক দূরে থাকা শব্দগুলির মধ্যে ওজন বিবেচনা করে।

স্ব-মনোযোগের আরেকটি সুবিধা হল প্রক্রিয়াটি সমান্তরাল হতে পারে। ক্রমানুসারে ডেটা প্রক্রিয়াকরণের পরিবর্তে, ট্রান্সফরমার মডেলগুলি একবারে সমস্ত ইনপুট প্রক্রিয়া করতে পারে। এটি ট্রান্সফরমারগুলিকে অন্যান্য পদ্ধতির তুলনায় তুলনামূলকভাবে দ্রুত প্রচুর পরিমাণে ডেটা প্রশিক্ষণ দিতে সক্ষম করে।

ফাইন-টিউনিং

প্রাক-প্রশিক্ষণ পর্যায়ের পর, আপনি বেস এলএলএম-এর প্রশিক্ষণের জন্য নতুন পাঠ্য প্রবর্তন করতে পারেন। আমরা এই প্রক্রিয়া কল ফাইন টিউনিং এবং প্রায়শই একটি নির্দিষ্ট কাজের জন্য এলএলএম-এর আউটপুট আরও উন্নত করতে ব্যবহৃত হয়।

উদাহরণস্বরূপ, আপনি আপনার টুইটার অ্যাকাউন্টের জন্য সামগ্রী তৈরি করতে একটি LLM ব্যবহার করতে চাইতে পারেন। পছন্দসই আউটপুট সম্পর্কে ধারণা দেওয়ার জন্য আমরা আপনার পূর্ববর্তী টুইটগুলির বেশ কয়েকটি উদাহরণ সহ মডেলটি সরবরাহ করতে পারি।

ফাইন-টিউনিংয়ের কয়েকটি ভিন্ন ধরনের আছে।

বড় ভাষা মডেল অল্প শট শেখার সক্ষম

অল্প-শট লার্নিং একটি মডেলকে অনুরূপ আউটপুট কীভাবে তৈরি করা যায় সেই প্রত্যাশা সহ একটি মডেলকে অল্প সংখ্যক উদাহরণ দেওয়ার প্রক্রিয়াকে বোঝায়। এক শট শেখার শুধুমাত্র একটি একক উদাহরণ প্রদান করা ছাড়া একটি অনুরূপ প্রক্রিয়া.

বড় ভাষার মডেলের সীমাবদ্ধতা

জিপিটি-৩ এর মতো এলএলএমগুলি ফাইন-টিউনিং না করেও প্রচুর পরিমাণে ব্যবহারের ক্ষেত্রে সক্ষম। যাইহোক, এই মডেলগুলি এখনও তাদের নিজস্ব সীমাবদ্ধতার সাথে আসে।

বিশ্বের একটি শব্দার্থিক বোঝার অভাব

পৃষ্ঠে, এলএলএমগুলি বুদ্ধিমত্তা প্রদর্শন করে বলে মনে হয়। যাইহোক, এই মডেলগুলি একই ভাবে কাজ করে না মানুষের মস্তিষ্ক করে LLM শুধুমাত্র আউটপুট তৈরি করতে পরিসংখ্যানগত গণনার উপর নির্ভর করে। তাদের নিজস্ব ধারণা এবং ধারণাগুলিকে যুক্তিযুক্ত করার ক্ষমতা নেই।

এই কারণে, একটি LLM অযৌক্তিক উত্তরগুলি আউটপুট করতে পারে কারণ শব্দগুলিকে "সঠিক" বা "পরিসংখ্যানগতভাবে সম্ভবত" বলে মনে হয় যখন সেই নির্দিষ্ট ক্রমে স্থাপন করা হয়।

অলীক

GPT-3 এর মতো মডেলগুলিও ভুল প্রতিক্রিয়ার শিকার হয়। এলএলএমগুলি পরিচিত একটি ঘটনা থেকে ভুগতে পারে অমূলপ্রত্যক্ষ যেখানে মডেলগুলি কোনও সচেতনতা ছাড়াই একটি বাস্তবিকভাবে ভুল প্রতিক্রিয়া আউটপুট করে যে প্রতিক্রিয়াটির বাস্তবে কোনও ভিত্তি নেই।

উদাহরণস্বরূপ, একজন ব্যবহারকারী মডেলটিকে সর্বশেষ আইফোন সম্পর্কে স্টিভ জবসের চিন্তাভাবনা ব্যাখ্যা করতে বলতে পারেন। মডেলটি তার প্রশিক্ষণ ডেটার উপর ভিত্তি করে পাতলা বাতাস থেকে একটি উদ্ধৃতি তৈরি করতে পারে।

পক্ষপাত এবং সীমিত জ্ঞান

অন্যান্য অনেক অ্যালগরিদমের মতো, বৃহৎ ভাষার মডেলগুলি প্রশিক্ষণের ডেটাতে উপস্থিত পক্ষপাতগুলিকে উত্তরাধিকার সূত্রে ধারণ করতে পারে। যেহেতু আমরা তথ্য পুনরুদ্ধার করার জন্য LLM-এর উপর আরও নির্ভর করতে শুরু করি, এই মডেলগুলির বিকাশকারীদের পক্ষপাতমূলক প্রতিক্রিয়াগুলির সম্ভাব্য ক্ষতিকারক প্রভাবগুলি প্রশমিত করার উপায় খুঁজে বের করা উচিত।

অনুরূপ ক্ষমতায়, মডেলের প্রশিক্ষণ ডেটার অন্ধ দাগগুলিও মডেলটিকে বাধা দেবে। বর্তমানে, বড় ভাষার মডেলদের প্রশিক্ষণের জন্য কয়েক মাস সময় লাগে। এই মডেলগুলি ডেটাসেটের উপরও নির্ভর করে যা সুযোগের মধ্যে সীমাবদ্ধ। এই কারণেই ChatGPT-এর 2021 সালের আগে ঘটে যাওয়া ইভেন্টগুলির সীমিত জ্ঞান রয়েছে।

উপসংহার

বৃহৎ ভাষার মডেলে আমরা কীভাবে প্রযুক্তি এবং সাধারণভাবে আমাদের বিশ্বের সাথে যোগাযোগ করি তা সত্যিকারের পরিবর্তন করার সম্ভাবনা রয়েছে।

ইন্টারনেটে উপলভ্য বিপুল পরিমাণ ডেটা গবেষকদের ভাষার জটিলতাগুলিকে মডেল করার একটি উপায় দিয়েছে। যাইহোক, পথ ধরে, এই ভাষা মডেলগুলি পৃথিবীর মতো মানুষের মতো বোঝার উপর তুলে ধরেছে বলে মনে হচ্ছে।

যেহেতু জনসাধারণ সঠিক আউটপুট প্রদানের জন্য এই ভাষা মডেলগুলিকে বিশ্বাস করতে শুরু করে, গবেষকরা এবং বিকাশকারীরা ইতিমধ্যেই গার্ডেল যুক্ত করার উপায় খুঁজে পাচ্ছেন যাতে প্রযুক্তিটি নৈতিক থাকে৷

এলএলএম-এর ভবিষ্যৎ কী বলে আপনি মনে করেন?

বড় ভাষার মডেল: আপনার যা জানা দরকার

একটি বড় ভাষা মডেল কি?

এলএলএম কীভাবে প্রশিক্ষিত হয়?