Съдържание[Крия][Покажи]
GPT-3, голямата невронна мрежа на момента, беше публикувана през май 2020 г. от OpenAI, стартъпът с изкуствен интелект, съосновател на Илон Мъск и Сам Алтман. GPT-3 е авангарден езиков модел със 175 милиарда параметра в сравнение с 1,5 милиарда параметра в своя предшественик GPT-2.
GPT-3 превъзхожда модела NLG Turing на Microsoft (Turing Natural Language Generation), който преди това държеше рекорда за най-голямата невронна мрежа със 17 милиарда параметра.
Езиковият модел е възхваляван, критикуван и дори разглеждан внимателно; също така породи нови и интригуващи приложения. И сега има съобщения, че GPT-4, следващото издание на OpenAI езиков модел, наистина ще дойде скоро.
Пристигнахте на правилния сайт, ако искате да научите повече за GPT-4. Ще разгледаме GPT-4 задълбочено в тази статия, обхващайки неговите параметри, как се сравнява с други модели и др.
И така, какво е GPT-4?
За да разберем обхвата на GPT-4, първо трябва да разберем GPT-3, неговия предшественик. GPT-3 (Generative Pre-trained Transformer, трето поколение) е автономен инструмент за генериране на съдържание.
Потребителите въвеждат данни в a машинно обучение модел, който впоследствие може да произведе огромни количества подходящо писане в отговор, според OpenAI. GPT-4 ще бъде значително по-добър при многозадачност в условия на няколко изстрела - един вид машинно обучение – доближаване на резултатите още повече до тези на хората.
Изграждането на GPT-3 струва стотици милиони паунда, но се предвижда GPT-4 да струва значително повече, защото ще бъде петстотин пъти по-голям по мащаб. За да поставим това в перспектива,
GPT-4 може да има толкова характеристики, колкото синапсите в мозъка. GPT-4 ще използва основно същите методи като GPT-3, така че вместо да бъде парадигмен скок, GPT-4 ще разшири това, което GPT-3 постига в момента - но със значително по-голяма способност за извод.
GPT-3 позволява на потребителите да въвеждат естествен език за практически цели, но все пак се нуждаеше от опит, за да се създаде подкана, която да даде добри резултати. GPT-4 ще бъде значително по-добър в прогнозирането на намеренията на потребителите.
Какви ще бъдат параметрите на GPT-4?
Въпреки че е един от най-очакваните постижения на AI, нищо не се знае за GPT-4: как ще изглежда, какви характеристики ще има и какви правомощия ще има.
Миналата година Altman направи Q&A и разкри няколко подробности за амбициите на OpenAI за GPT-4. Той няма да бъде по-голям от GPT-3, според Алтман. GPT-4 едва ли ще бъде най-широко използваният езиков модел. Въпреки че моделът ще бъде огромен в сравнение с предишните поколения невронни мрежи, размерът му няма да бъде негова отличителна характеристика. GPT-3 и Gopher са най-правдоподобните кандидати (175B-280B).
Nvidia и Megatron-Turing NLG на Microsoft държаха рекорда за най-плътната невронна мрежа параметри при 530B – три пъти повече от GPT-3 – доскоро, когато PaLM на Google го взе на 540B. Изненадващо, множество по-малки модели превъзхождаха MT-NLG.
Според силата на връзката, Джаред Каплан и колегите от OpenAI определиха през 2020 г., че когато увеличенията на бюджета за обработка се изразходват предимно за увеличаване на броя на параметрите, производителността се подобрява най-много. Google, Nvidia, Microsoft, OpenAI, DeepMind и други компании за езиково моделиране послушно спазваха разпоредбите.
Алтман посочи, че вече не се концентрират върху конструирането на масивни модели, а по-скоро върху максимизирането на производителността на по-малките модели.
Изследователите на OpenAI бяха ранни привърженици на хипотезата за мащабиране, но може би са открили, че допълнителни, неоткрити по-рано пътища могат да доведат до превъзходни модели. GPT-4 няма да бъде значително по-голям от GPT-3 поради тези причини.
OpenAI ще постави по-голям фокус върху други аспекти, като данни, алгоритми, параметризация и подравняване, които имат потенциала да донесат значителни ползи по-бързо. Ще трябва да изчакаме и да видим какво може да направи модел със 100T параметри.
Ключови точки:
- Размер на модела: GPT-4 ще бъде по-голям от GPT-3, но не много (MT-NLG 530B и PaLM 540B). Размерът на модела ще бъде незабележим.
- оптималност: GPT-4 ще използва повече ресурси от GPT-3. Той ще приложи нови прозрения за оптималност в параметризацията (оптимални хиперпараметри) и методите за мащабиране (броят на обучаващите токени е толкова важен, колкото и размера на модела).
- Мултимодалност: GPT-4 ще може да изпраща и получава само текстови съобщения (не мултимодални). OpenAI се стреми да изтласка езиковите модели до техните граници, преди да премине към мултимодални модели като ДАЛЕ 2, което те предвиждат в крайна сметка да надмине унимодалните системи.
- Оскъдност: GPT-4, подобно на своите предшественици GPT-2 и GPT-3, ще бъде плътен модел (всички параметри ще се използват за обработка на всеки даден вход). В бъдеще оскъдността ще стане по-важна.
- Подравняване: GPT-4 ще ни доближи по-близо от GPT-3. Той ще постави това, което е научил от InstructGPT, който е разработен с човешки принос. Все пак конвергенцията на ИИ е далеч и усилията трябва да бъдат внимателно оценени, а не преувеличени.
Заключение
Изкуствен общ интелект. Това е голяма цел, но разработчиците на OpenAI работят за постигането й. Целта на AGI е да създаде модел или „агент“, способен да разбира и извършва всяка дейност, която човек може.
GPT-4 може да е следващата стъпка в постигането на тази цел и звучи като нещо от научнофантастичен филм. Може да се чудите колко реалистично е да постигнете AGI.
Ще достигнем този етап до 2029 г., според Рей Курцвейл, инженерен директор на Google. Имайки това предвид, нека да разгледаме по-задълбочено GPT-4 и последствията от този модел, докато се доближаваме до AGI (Изкуствен общ интелект).
Оставете коментар