Преглед садржаја[Сакрити][Прикажи]
Вероватно смо тек на почетку нове генеративне АИ револуције.
Генеративна вештачка интелигенција се односи на алгоритме и моделе који су у стању да креирају садржај. Излаз таквих модела укључује текст, звук и слике које се често могу погрешно сматрати стварним људским резултатом.
Апликације као што су ЦхатГПТ су показали да генеративна АИ није само новина. АИ је сада способан да прати детаљна упутства и чини се да има дубоко разумевање како свет функционише.
Али како смо дошли до ове тачке? У овом водичу ћемо проћи кроз нека од кључних открића у истраживању вештачке интелигенције која су утрла пут овој новој и узбудљивој генеративној АИ револуцији.
Успон неуронских мрежа
Порекло модерне вештачке интелигенције можете пратити до истраживања о дубоко учење и неуронске мреже у КСНУМКС.
Те године, Алекс Крижевски и његов тим са Универзитета у Торонту успели су да постигну високо прецизан алгоритам који може да класификује објекте.
најсавременија неуронска мрежа, сада познат као АлекНет, могао је да класификује објекте у визуелној бази података ИмагеНет са много нижом стопом грешака од другопласираног.
Неуралне мреже су алгоритми који користе мрежу математичких функција да би научили одређено понашање на основу неких података о обуци. На пример, можете хранити медицинске податке неуронске мреже како бисте обучили модел да дијагностикује болест као што је рак.
Нада је да неуронска мрежа полако проналази обрасце у подацима и постаје тачнија када се добију нови подаци.
АлекНет је био револуционарна апликација а конволуционарна неуронска мрежа или ЦНН-а. Кључна реч „конволуциона” се односи на додавање конволуционих слојева који ставља већи нагласак на податке који су ближи један другом.
Иако су ЦНН већ били идеја 1980-их, почели су да стичу популарност тек почетком 2010-их када је најновија ГПУ технологија подигла технологију на нове висине.
Успех ЦНН-а у области рачунарски вид довело до већег интересовања за истраживање неуронских мрежа.
Технолошки гиганти попут Гугла и Фејсбука одлучили су да објаве сопствене АИ оквире за јавност. АПИ-ји високог нивоа као што су Керас дао корисницима интерфејс прилагођен кориснику за експериментисање са дубоким неуронским мрежама.
ЦНН-и су били одлични у препознавању слика и видео анализи, али су имали проблема када је у питању решавање проблема заснованих на језику. Ово ограничење у обради природног језика може постојати зато што су слике и текст заправо суштински различити проблеми.
На пример, ако имате модел који класификује да ли слика садржи семафор, дотични семафор може да се појави било где на слици. Међутим, ова врста попустљивости не функционише добро у језику. Реченице „Боб је појео рибу“ и „Риба је појела Боба“ имају потпуно различита значења упркос употреби истих речи.
Постало је јасно да истраживачи морају да пронађу нови приступ за решавање проблема који укључују људски језик.
Трансформатори мењају све
У КСНУМКС-у, а истраживачки рад под називом „Пажња је све што вам треба“ предложио је нови тип мреже: Трансформер.
Док ЦНН раде тако што више пута филтрирају мале делове слике, трансформатори повезују сваки елемент у подацима са сваким другим елементом. Истраживачи овај процес називају „пажњом на себе“.
Када покушавате да рашчланите реченице, ЦНН и трансформатори раде веома различито. Док ће се ЦНН фокусирати на формирање веза са речима које су близу једна другој, трансформатор ће створити везе између сваке речи у реченици.
Процес самопажње је саставни део разумевања људског језика. Умањујући приказ и гледајући како се цела реченица уклапа заједно, машине могу јасније разумети структуру реченице.
Након што су објављени први модели трансформатора, истраживачи су убрзо користили нову архитектуру да искористе невероватну количину текстуалних података пронађених на интернету.
ГПТ-3 и Интернет
У 2020., ОпенАИ РУЦЕНТЕР-КСНУМКС модел је показао колико трансформатори могу бити ефикасни. ГПТ-3 је успео да избаци текст који се готово не разликује од људског. Део онога што је ГПТ-3 учинило тако моћним била је количина коришћених података за обуку. Већина скупа података пре обуке модела долази из скупа података познатог као Цоммон Цравл који долази са преко 400 милијарди токена.
Док је способност ГПТ-3 да генерише реалистичан људски текст била револуционарна сама по себи, истраживачи су открили како исти модел може да реши друге задатке.
На пример, исти модел ГПТ-3 који можете да користите за генерисање твита такође вам може помоћи да сумирате текст, препишете пасус и завршите причу. Језички модели постали су толико моћни да су сада у суштини алати опште намене који прате било коју врсту команде.
Природа опште намене ГПТ-3 омогућила је такве апликације ГитХуб Цопилот, што омогућава програмерима да генеришу радни код са обичног енглеског.
Модели дифузије: од текста до слика
Напредак остварен са трансформаторима и НЛП-ом је такође утро пут генеративној вештачкој интелигенцији у другим областима.
У домену компјутерског вида, већ смо покрили како је дубоко учење омогућило машинама да разумеју слике. Међутим, и даље смо морали да пронађемо начин да АИ сама генерише слике, а не само да их класификује.
Генеративни модели слика као што су ДАЛЛ-Е 2, Стабле Диффусион и Мидјоурнеи постали су популарни због начина на који су у стању да конвертују унос текста у слике.
Ови модели слика се ослањају на два кључна аспекта: модел који разуме однос између слика и текста и модел који заправо може да креира слику високе дефиниције која одговара уносу.
ОпенАИ ЦЛИП (Цонтрастиве Лангуаге–Имаге Пре-траининг) је модел отвореног кода који има за циљ да реши први аспект. С обзиром на слику, ЦЛИП модел може предвидети најрелевантнији текстуални опис за ту одређену слику.
ЦЛИП модел функционише тако што учи како да издвоји важне карактеристике слике и креира једноставнији приказ слике.
Када корисници дају узорак уноса текста у ДАЛЛ-Е 2, унос се конвертује у „уграђивање слике“ коришћењем ЦЛИП модела. Сада је циљ пронаћи начин да се генерише слика која одговара генерисаном уграђивању слике.
Најновија генеративна вештачка интелигенција користи а модел дифузије да се ухвати у коштац са задатком стварног стварања слике. Дифузиони модели се ослањају на неуронске мреже које су претходно обучене да знају како да уклоне додатни шум са слика.
Током овог процеса обуке, неуронска мрежа може на крају научити како да креира слику високе резолуције од насумичне слике шума. Пошто већ имамо мапирање текста и слика које обезбеђује ЦЛИП, можемо обучити модел дифузије на ЦЛИП уградњи слике да бисте креирали процес за генерисање било које слике.
Генеративна АИ револуција: Шта следи?
Сада смо на тачки где се пробоји у генеративној вештачкој интелигенцији дешавају сваких неколико дана. С обзиром да постаје све лакше и лакше генерисати различите врсте медија помоћу вештачке интелигенције, да ли треба да будемо забринути како би то могло да утиче на наше друштво?
Док су бриге око машина које замењују раднике увек биле у разговору од проналаска парне машине, чини се да је овај пут мало другачије.
Генеративна АИ постаје вишенаменско средство које може пореметити индустрије за које се сматрало да су безбедне од преузимања АИ.
Да ли ће нам бити потребни програмери ако АИ може да почне да пише беспрекоран код из неколико основних упутстава? Да ли ће људи унајмити креативце ако могу само да користе генеративни модел да производе жељени резултат по јефтинијој цени?
Тешко је предвидети будућност генеративне АИ револуције. Али сада када је фигуративна Пандорина кутија отворена, надам се да ће технологија омогућити узбудљивије иновације које могу оставити позитиван утицај на свет.
Ostavite komentar