Мазмуну[Жашыруу][Көрсөтүү]
GPT-3, учурдун чоң нейрон тармагы, 2020-жылдын май айында жарык көргөн OpenAI, Илон Маск жана Сэм Альтман негиздеген AI стартапы. GPT-3 мурунку GPT-175деги 1,5 миллиард параметрге салыштырмалуу 2 миллиард параметри бар алдыңкы тил модели.
GPT-3 Microsoftтун NLG Turing моделинен (Turing Natural Language Generation) ашып өттү, ал буга чейин 17 миллиард параметр менен эң чоң нейрондук тармак боюнча рекорд койгон.
Тилдин моделин мактап, сындап, жада калса кылдаттык менен карап чыкты; ал ошондой эле жаңы жана кызыктуу колдонууларды пайда кылды. Ал эми азыр GPT-4, OpenAI кезектеги чыгарылышы деген маалыматтар бар тил модели, чынында эле жакында келет.
GPT-4 жөнүндө көбүрөөк билгиңиз келсе, сиз туура сайтка келдиңиз. Биз бул макалада анын параметрлерин, анын башка моделдерге салыштырмалуулугун жана башкаларды камтыган GPT-4ти тереңирээк карап чыгабыз.
Ошентип, GPT-4 деген эмне?
GPT-4тун масштабын түшүнүү үчүн, биз алгач GPT-3, анын прекурсорун түшүнүшүбүз керек. GPT-3 (Generative Pre-trained Transformer, үчүнчү муундагы) бул автономдуу мазмун жаратуучу курал.
Колдонуучулар маалыматтарды а машина үйрөнүү OpenAI ылайык, кийинчерээк жооп катары тиешелүү жазууларды массалык түрдө чыгара турган модель. GPT-4 бир нече атуучу шарттарда көп тапшырманы аткарууда кыйла жакшыраак болот - бир түрү машина үйрөнүү - натыйжаларды адамдарга дагы жакындатуу.
GPT-3 курууга жүз миллиондогон фунт сарпталат, бирок GPT-4 бир кыйла кымбатка турганы болжолдонууда, анткени анын масштабы беш жүз эсе чоң болот. Муну көз караш менен кароо үчүн,
GPT-4 мээдеги синапстар сыяктуу көптөгөн өзгөчөлүктөргө ээ болушу мүмкүн. GPT-4 негизинен GPT-3 сыяктуу эле ыкмаларды колдонот, ошондуктан парадигма секирик эмес, GPT-4 учурда GPT-3 эмнени аткарып жатканын кеңейтет, бирок бир кыйла көбүрөөк тыянак чыгаруу мүмкүнчүлүгү менен.
GPT-3 колдонуучуларга практикалык максаттар үчүн табигый тилди киргизүүгө мүмкүндүк берди, бирок ал дагы эле жакшы натыйжаларды бере турган тездикти иштеп чыгуу үчүн кандайдыр бир тажрыйбаны талап кылды. GPT-4 колдонуучулардын ниетин алдын ала айтууда кыйла жакшыраак болот.
GPT-4 параметрлери кандай болот?
Көбүнчө күтүлгөн AI жетишкендиктеринин бири болгонуна карабастан, GPT-4 жөнүндө эч нерсе белгисиз: ал кандай болот, кандай мүнөздөмөлөргө ээ болот жана кандай ыйгарым укуктарга ээ болот.
Өткөн жылы Альтман суроо-жооп жасап, OpenAIдин GPT-4 үчүн амбициялары жөнүндө бир нече маалыматтарды ачып берди. Алтмандын айтымында, ал GPT-3тен чоң болбойт. GPT-4 эң кеңири колдонулушу күмөн тил модели. Бул модель мурунку муундарга салыштырмалуу абдан чоң болот да нейрон тармактары, анын өлчөмү анын айырмалоочу өзгөчөлүгү болбойт. GPT-3 жана Gopher эң ишенимдүү талапкерлер (175B-280B).
Nvidia жана Microsoft компаниясынын Megatron-Turing NLG компаниялары рекорд коюшту эң жыш нейрон тармагы 530B параметрлери – GPT-3ке караганда үч эсе көп – Google'дун PaLM аны 540B деңгээлинде алганга чейин. Таң калыштуусу, азыраак моделдердин бир тобу MT-NLGден ашып түштү.
Күч мыйзамына ылайык, OpenAIдин кызматкери Жаред Каплан жана кесиптештери 2020-жылы бюджеттин көбөйүшүн иштетүүдө негизинен параметрлердин санын көбөйтүүгө жумшалса, натыйжалуулук эң жакшыраак болорун аныкташкан. Google, Nvidia, Microsoft, OpenAI, DeepMind жана башка тилди моделдөөчү компаниялар жоболорго баш ийишчү.
Альтман алар мындан ары массалык моделдерди курууга эмес, тескерисинче, кичине моделдердин иштөөсүн максималдуу түрдө жогорулатууга көңүл буруп жатканын белгиледи.
OpenAI изилдөөчүлөрү масштабдуу гипотезанын алгачкы жактоочулары болгон, бирок алар кошумча, мурда ачылбаган жолдор мыкты моделдерге алып келиши мүмкүн экенин байкашкан. GPT-4 ушул себептерден улам GPT-3тен кыйла чоң болбойт.
OpenAI тезирээк олуттуу пайда алып келе турган маалыматтар, алгоритмдер, параметрлөө жана тегиздөө сыяктуу башка аспектилерге көбүрөөк көңүл бурат. Биз күтүшүбүз керек жана 100T параметрлери бар модель эмне кыла аларын көрүшүбүз керек.
Негизги учурлар:
- Моделдин өлчөмү: GPT-4 GPT-3ке караганда чоңураак болот, бирок көп эмес (MT-NLG 530B жана PaLM 540B). Модельдин өлчөмү өзгөчө болот.
- Оптималдуу: GPT-4 GPT-3 караганда көбүрөөк ресурстарды колдонот. Ал параметрлештирүү (оптималдуу гиперпараметрлер) жана масштабдоо ыкмалары боюнча жаңы оптималдуу түшүнүктөрдү ишке ашырат (окутуу белгилеринин саны модель өлчөмү сыяктуу эле маанилүү).
- Мультимодалдуулук: GPT-4 тексттик билдирүүлөрдү гана жөнөтө жана кабыл ала алат (мультимодаль эмес). OpenAI сыяктуу мультимодалдык моделдерге өтүүдөн мурун тил моделдерин чегине чейин түртүүгө умтулат ДАЛЛЕ 2, алар болжолдоп жаткан нерсе, бара-бара унемодалдык системалардан ашып кетет.
- Сейректүүлүк: GPT-4, анын мурунку GPT-2 жана GPT-3 сыяктуу, жыш модель болот (бардык параметрлер ар кандай берилген киргизүүнү иштетүү үчүн колдонулат). Келечекте сейректүүлүк маанилүү болуп калат.
- тегиздөө: GPT-4 бизге GPT-3ке караганда көбүрөөк жакындайт. Ал адамдын салымы менен иштелип чыккан InstructGPTтен үйрөнгөндөрүн коёт. Ошентсе да, AI конвергенциясы өтө алыс жана күч-аракеттерди апыртуунун ордуна кылдаттык менен баалоо керек.
жыйынтыктоо
Жасалма жалпы интеллект. Бул чоң максат, бирок OpenAI иштеп чыгуучулары ага жетүү үчүн иштеп жатышат. AGIнин максаты - адам түшүнө алган жана каалаган иш-аракеттерди жасай алган моделди же "агентти" түзүү.
GPT-4 бул максатка жетүү үчүн кийинки кадам болушу мүмкүн, жана бул илимий фантастикалык фильмден бир нерседей угулат. Сиз AGIге жетүү канчалык реалдуу деп ойлонуп жатсаңыз болот.
Google компаниясынын инженердик директору Рэй Курцвейлдин айтымында, биз 2029-жылга чейин бул этапка жетебиз. Ушуну эске алуу менен, келгиле, AGI (Жасалма Жалпы Интеллект) жакындаган сайын GPT-4 жана бул моделдин кесепеттерин тереңирээк карап чыгалы.
Таштап Жооп