فهرست مندرجات[پنهان شدن][نمایش]
GPT-3، شبکه عصبی بزرگ لحظه ای، در می 2020 توسط OpenAI، استارتاپ هوش مصنوعی که توسط ایلان ماسک و سام آلتمن تأسیس شده است. GPT-3 یک مدل زبان پیشرفته با 175 میلیارد پارامتر در مقایسه با 1,5 میلیارد پارامتر در GPT-2 قبلی خود است.
GPT-3 از مدل NLG Turing مایکروسافت (Turing Natural Language Generation) که قبلاً رکورد بزرگترین شبکه عصبی با 17 میلیارد پارامتر را در اختیار داشت، بهتر عمل کرد.
مدل زبان مورد ستایش، نقد و حتی موشکافی قرار گرفته است. همچنین کاربردهای جدید و جذابی را ایجاد کرده است. و اکنون گزارش هایی وجود دارد که GPT-4، نسخه بعدی OpenAI است مدل زبان، در واقع به زودی خواهد آمد.
اگر می خواهید درباره GPT-4 بیشتر بدانید، به سایت مناسبی رسیده اید. ما در این مقاله به بررسی عمیق GPT-4 خواهیم پرداخت و پارامترهای آن، نحوه مقایسه آن با سایر مدل ها و موارد دیگر را پوشش خواهیم داد.
بنابراین، GPT-4 چیست؟
برای درک دامنه GPT-4، ابتدا باید GPT-3، پیش ساز آن را درک کنیم. GPT-3 (ترانسفورماتور از پیش آموزش دیده، نسل سوم) یک ابزار مستقل تولید محتوا است.
کاربران داده ها را در a وارد می کنند فراگیری ماشین به گفته OpenAI، مدلی که متعاقباً میتواند در پاسخ مقادیر زیادی نوشته مرتبط تولید کند. GPT-4 به طور قابل توجهی در انجام چند کار در شرایط چند شات بهتر خواهد بود - نوعی از فراگیری ماشین - نزدیکتر کردن نتایج به نتایج انسانها.
هزینه ساخت GPT-3 صدها میلیون پوند است، اما پیشبینی میشود که GPT-4 هزینه بیشتری داشته باشد زیرا مقیاس آن پانصد برابر بیشتر خواهد بود. برای در نظر گرفتن این موضوع،
GPT-4 ممکن است به اندازه سیناپس ها در مغز ویژگی داشته باشد. GPT-4 عمدتاً از همان روشهای GPT-3 استفاده میکند، بنابراین بهجای اینکه یک جهش پارادایم باشد، GPT-4 آنچه را که GPT-3 در حال حاضر انجام میدهد گسترش میدهد - اما با قابلیت استنتاج بسیار بیشتر.
GPT-3 به کاربران اجازه می داد تا زبان طبیعی را برای مقاصد عملی وارد کنند، اما هنوز برای طراحی سریعی که نتایج خوبی به همراه داشته باشد، نیاز به تخصص داشت. GPT-4 به طور قابل توجهی در پیش بینی اهداف کاربران بهتر خواهد بود.
پارامترهای GPT-4 چه خواهند بود؟
علیرغم اینکه GPT-4 یکی از مورد انتظارترین پیشرفت های هوش مصنوعی است، هیچ چیز در مورد GPT-XNUMX مشخص نیست: چه شکلی خواهد بود، چه ویژگی هایی خواهد داشت و چه قدرت هایی خواهد داشت.
سال گذشته، آلتمن یک پرسش و پاسخ انجام داد و جزئیات کمی در مورد جاه طلبی های OpenAI برای GPT-4 فاش کرد. به گفته آلتمن، این بزرگتر از GPT-3 نخواهد بود. بعید است که GPT-4 بیشترین استفاده را داشته باشد مدل زبان. اگرچه این مدل در مقایسه با نسل های قبلی بسیار بزرگ خواهد بود شبکه های عصبی، اندازه آن مشخصه متمایز آن نخواهد بود. GPT-3 و Gopher قابل قبول ترین نامزدها هستند (175B-280B).
انویدیا و Megatron-Turing NLG مایکروسافت این رکورد را در اختیار داشتند متراکم ترین شبکه عصبی پارامترها در 530B - سه برابر GPT-3 - تا این اواخر که Google PalM آن را روی 540B قرار داد. با کمال تعجب، تعداد زیادی از مدل های کمتر از MT-NLG عملکرد بهتری داشتند.
طبق یک اتصال قانون قدرت، جارد کاپلان از OpenAI و همکارانش در سال 2020 تعیین کردند که وقتی پردازش افزایش بودجه بیشتر صرف افزایش تعداد پارامترها می شود، عملکرد به بیشترین میزان بهبود می یابد. گوگل، انویدیا، مایکروسافت، OpenAI، DeepMind و سایر شرکتهای مدلسازی زبان مطیع مقررات بودند.
آلتمن نشان داد که آنها دیگر بر ساخت مدل های عظیم تمرکز نمی کنند، بلکه بیشتر روی به حداکثر رساندن عملکرد مدل های کوچکتر تمرکز می کنند.
محققان OpenAI از طرفداران اولیه فرضیه مقیاس بندی بودند، اما آنها ممکن است کشف کرده باشند که مسیرهای اضافی و قبلاً کشف نشده ممکن است به مدل های برتر منجر شود. GPT-4 به این دلایل به طور قابل توجهی بزرگتر از GPT-3 نخواهد بود.
OpenAI تمرکز بیشتری روی جنبههای دیگر، مانند دادهها، الگوریتمها، پارامترسازی و همترازی خواهد داشت، که این پتانسیل را دارند که فواید قابل توجهی را سریعتر به همراه داشته باشند. باید منتظر بمانیم و ببینیم یک مدل با پارامترهای 100T چه کاری می تواند انجام دهد.
امتیاز کلیدی:
- اندازه مدل: GPT-4 بزرگتر از GPT-3 خواهد بود، اما نه چندان (MT-NLG 530B و PaLM 540B). اندازه مدل قابل توجه نخواهد بود.
- بهینه بودن: GPT-4 از منابع بیشتری نسبت به GPT-3 استفاده خواهد کرد. بینش های بهینه جدیدی را در مورد پارامترسازی (هیپرپارامترهای بهینه) و روش های مقیاس بندی (تعداد نشانه های آموزشی به اندازه اندازه مدل مهم است) پیاده سازی می کند.
- چندوجهی: GPT-4 فقط قادر به ارسال و دریافت پیام های متنی (نه چند وجهی) خواهد بود. OpenAI به دنبال آن است که مدلهای زبانی را قبل از انتقال به مدلهای چندوجهی به محدودیتهای خود برساند دال 2، که آنها پیش بینی می کنند که در نهایت از سیستم های تک وجهی پیشی می گیرد.
- پراکندگی: GPT-4، مانند پیشینیان خود GPT-2 و GPT-3، یک مدل متراکم خواهد بود (همه پارامترها برای پردازش هر ورودی مورد استفاده قرار خواهند گرفت). در آینده، پراکندگی اهمیت بیشتری پیدا خواهد کرد.
- هم ترازی: GPT-4 نزدیک تر از GPT-3 به ما نزدیک می شود. آنچه را که از InstructGPT آموخته است، که با کمک انسان توسعه داده شده است، قرار خواهد داد. با این حال، همگرایی هوش مصنوعی فاصله زیادی دارد و تلاشها باید به جای اغراق، با دقت ارزیابی شوند.
نتیجه
هوش عمومی مصنوعی. این یک هدف بزرگ است، اما توسعه دهندگان OpenAI برای رسیدن به آن تلاش می کنند. هدف AGI ایجاد یک مدل یا "عامل" است که قادر به درک و انجام هر فعالیتی است که شخص می تواند انجام دهد.
GPT-4 ممکن است گام بعدی برای دستیابی به این هدف باشد و به نظر چیزی خارج از یک فیلم علمی تخیلی است. ممکن است تعجب کنید که دستیابی به AGI چقدر واقع بینانه است.
به گفته ری کورزویل، مدیر مهندسی گوگل، ما تا سال 2029 به این نقطه عطف خواهیم رسید. با در نظر گرفتن این موضوع، با نزدیک شدن به AGI (هوش عمومی مصنوعی) نگاهی عمیق تر به GPT-4 و پیامدهای این مدل بیندازیم.
پاسخ دهید