Големите невронни мрежи, които са били обучени за разпознаване и генериране на език, демонстрираха изключителни резултати в различни задачи през последните години. GPT-3 доказа, че големите езикови модели (LLM) могат да се използват за учене с няколко изстрела и да се получат отлични резултати, без да се изискват обширни данни за специфични задачи или промяна на параметрите на модела.
Google, технологичният гигант от Силиконовата долина, представи PaLM, или Pathways Language Model, в световната технологична индустрия като следващото поколение модел на AI език. Google включи нов изкуствен интелект архитектура в PaLM със стратегически цели за подобряване на качеството на модела на AI език.
В тази публикация ще разгледаме подробно алгоритъма на Palm, включително параметрите, използвани за обучението му, проблема, който решава, и много други.
Какво е Алгоритъмът PaLM на Google?
Езиков модел Pathways е какво ДЛАН означава. Това е нов алгоритъм, разработен от Google с цел укрепване на архитектурата на Pathways AI. Основната цел на структурата е да извършва милион различни дейности наведнъж.
Те включват всичко - от дешифриране на сложни данни до дедуктивно разсъждение. PaLM има способността да надмине сегашното AI състояние на техниката, както и хората по езикови и разсъждаващи задачи.
Това включва Few-Shot Learning, което имитира как хората научават нови неща и комбинират различни части от знания, за да се справят с нови предизвикателства, които никога не са били виждани преди, с предимството на машина, която може да използва цялото си знание за решаване на нови предизвикателства; един пример за това умение в PaLM е способността му да обяснява шега, която никога не е чувал преди.
PaLM демонстрира много революционни умения за различни предизвикателни задачи, включително разбиране и създаване на език, дейности, свързани с многоетапен аритметичен код, разсъждения със здрав разум, превод и много други.
Той демонстрира способността си да решава сложни проблеми, използвайки многоезични комплекти за НЛП. PaLM може да се използва от световния технологичен пазар за разграничаване на причина и следствие, концептуални комбинации, различни игри и много други неща.
Той също така може да генерира задълбочени обяснения за много контексти, използвайки многоетапно логически извод, дълбок език, глобални знания и други техники.
Как Google разработи алгоритъма PaLM?
За революционната производителност на Google в PaLM, пътищата са планирани да мащабират до 540 милиарда параметра. Той е признат за единствения модел, който може ефективно и ефективно да обобщава в множество области. Pathways в Google е посветена на разработването на разпределени изчисления за ускорители.
PaLM е трансформаторен модел само за декодер, който е обучен с помощта на системата Pathways. Според Google PaLM успешно е постигнал най-съвременна производителност за няколко изстрела при няколко работни натоварвания. PaLM използва системата Pathways, за да разшири обучението до най-голямата TPU-базирана системна конфигурация, известна като 6144 чипа за първи път.
Набор от данни за обучение за модела на AI език се състои от смесица от английски и други многоезични набори от данни. С речник „без загуби“, той съдържа висококачествено уеб съдържание, дискусии, книги, код на GitHub, Wikipedia и много други. Речникът без загуби се разпознава за запазване на интервали и разбиване на Unicode знаци, които не са в речника, на байтове.
PaLM е разработен от Google и Pathways, използвайки стандартна архитектура на модел на трансформатор и конфигурация на декодера, която включва активиране на SwiGLU, паралелни слоеве, RoPE вграждане, споделени входно-изходни вграждания, внимание към множество заявки и без пристрастия или речник. PaLM, от друга страна, е готов да осигури солидна основа за модела на AI на Google и Pathways.
Параметри, използвани за обучение на PaLM
Миналата година Google пусна Pathways, един модел, който може да бъде обучен да прави хиляди, ако не и милиони неща – наречен „архитектура на изкуствен интелект от следващо поколение“, тъй като може да преодолее ограниченията на съществуващите модели да бъде обучен да прави само едно нещо . Вместо да разширяват възможностите на настоящите модели, новите модели често се изграждат отдолу нагоре, за да изпълнят една задача.
В резултат на това те са създали десетки хиляди модели за десетки хиляди различни дейности. Това е трудоемка и ресурсоемка задача.
Google доказа чрез Pathways, че един модел може да се справи с различни дейности и да използва и комбинира настоящите таланти, за да научи нови задачи по-бързо и ефективно.
Мултимодалните модели, които включват визия, езиково разбиране и слухова обработка, всички по едно и също време, могат да бъдат активирани чрез пътища. Pathways Language Model (PaLM) позволява обучението на един модел в множество TPU v4 Pods благодарение на своя модел от 540 милиарда параметри.
PaLM, модел Transformer само за плътен декодер, превъзхожда най-съвременната производителност на няколко изстрела в широк спектър от работни натоварвания. PaLM се обучава на два TPU v4 Pods, които са свързани чрез мрежа от центрове за данни (DCN).
Той се възползва от паралелизма както на модела, така и на данните. Изследователите са използвали 3072 TPU v4 процесора във всеки Pod за PaLM, които са били свързани към 768 хоста. Според изследователите това е най-голямата TPU конфигурация, разкрита досега, което им позволява да мащабират обучението, без да използват паралелизъм на тръбопровода.
Облицовката на тръбата е процесът на събиране на инструкции от процесора чрез тръбопровод като цяло. Слоевете на модела са разделени на фази, които могат да се обработват паралелно чрез паралелизъм на тръбопроводния модел (или тръбопроводен паралелизъм).
Паметта за активиране се изпраща към следващата стъпка, когато един етап завърши прехода за микро-партида. След това градиентите се изпращат назад, когато следващият етап завърши своето обратно разпространение.
Възможности за пробив на PaLM
PaLM показва революционни способности в редица трудни задачи. Ето няколко примера:
1. Създаване и разбиране на език
PaLM беше поставен на изпитание върху 29 различни НЛП задачи на английски език.
На базата на няколко изстрела, PaLM 540B превъзхожда предишните големи модели като GLaM, GPT-3, Megatron-Turing NLG, Gopher, Chinchilla и LaMDA при 28 от 29 задачи, включително задачи с отговор на въпроси с отворен домейн и затворена книга , задачи за затваряне и завършване на изречения, задачи в стил Winograd, задачи за разбиране на четене в контекст, задачи за разсъждение със здрав разум, задачи SuperGLUE и естествен извод.
При няколко BIG-бенч задачи, PaLM демонстрира отлична интерпретация на естествен език и умения за генериране. Например, моделът може да прави разлика между причина и следствие, да разбира концептуални комбинации в определени ситуации и дори да отгатне филма от емоджи. Въпреки че само 22% от обучителния корпус не е на английски език, PaLM се представя добре при многоезични показатели за НЛП, включително превод, в допълнение към задачите на НЛП на английски.
2. Разум
PaLM съчетава размера на модела с верижна мисъл, която подтиква да демонстрира пробивни умения при предизвикателства за разсъждение, изискващи многоетапна аритметика или разсъждения от здрав разум.
Предишните LLM, като Gopher, се възползваха по-малко от размера на модела по отношение на подобряване на производителността. PaLM 540B с подкана за верижна мисъл се справи добре с три аритметични и два набора от данни за здрав разум.
PaLM превъзхожда предишния най-добър резултат от 55%, който беше получен чрез фина настройка на модела GPT-3 175B с набор от 7500 задачи и комбинирането му с външен калкулатор и верификатор за решаване на 58% от проблемите в GSM8K, a еталон за хиляди трудни въпроси по математика на ниво училище, използвайки подкана с 8 изстрела.
Този нов резултат е особено забележителен, тъй като се доближава до средните 60% от препятствията, срещани от 9-12-годишните. Може също да отговаря на оригинални шеги, които не са налични в интернет.
3. Генериране на код
Доказано е също, че LLM се представят добре при задачи по кодиране, включително генериране на код от описание на естествен език (текст към код), превод на код между езици и разрешаване на грешки при компилация. Въпреки че има само 5% код в набора от данни за предварително обучение, PaLM 540B се представя добре както при кодиране, така и при задачи на естествен език в един модел.
Неговото представяне на няколко изстрела е невероятно, тъй като съвпада с фино настроения Codex 12B, докато тренира с 50 пъти по-малко код на Python. Това откритие подкрепя предишни констатации, че по-големите модели могат да бъдат по-ефективни от по-малките модели, тъй като могат по-ефективно да прехвърлят обучение от множество програмни езици и данни на обикновен език.
Заключение
PaLM показва капацитета на системата Pathways да се мащабира до хиляди ускорителни процесори върху два TPU v4 Pods, като ефективно обучава модел с 540 милиарда параметри с добре проучена, добре установена рецепта на модел Transformer, предназначен само за плътен декодер.
Той постига революционна производителност с няколко изстрела в редица предизвикателства, свързани с обработката на естествен език, разсъжденията и кодирането, като премества границите на мащаба на модела.
Оставете коментар