Верагодна, мы толькі на пачатку новай генератыўнай рэвалюцыі штучнага інтэлекту.
Генератыўны штучны інтэлект адносіцца да алгарытмаў і мадэляў, якія здольныя ствараць кантэнт. Выхад такіх мадэляў уключае ў сябе тэкст, аўдыя і выявы, якія часта можна прыняць за рэальны выхад чалавека.
Прыкладання, такія як Чат GPT паказалі, што генератыўны штучны інтэлект - гэта не проста навінка. ШІ цяпер здольны прытрымлівацца падрабязных інструкцый і, здаецца, глыбока разумее, як уладкованы свет.
Але як мы дайшлі да гэтага? У гэтым кіраўніцтве мы разгледзім некаторыя з ключавых прарываў у даследаваннях штучнага інтэлекту, якія праклалі шлях да гэтай новай і захапляльнай генератыўнай рэвалюцыі штучнага інтэлекту.
Рост нейронавых сетак
Вы можаце прасачыць паходжанне сучаснага ІІ да даследаванняў глыбокае навучанне і нейронавыя сеткі У 2012.
У той год Алекс Крыжэўскі і яго каманда з Універсітэта Таронта змаглі стварыць вельмі дакладны алгарытм, які можа класіфікаваць аб'екты.
,en ультрасучасная нейронавая сетка, цяпер вядомы як AlexNet, змог класіфікаваць аб'екты ў візуальнай базе даных ImageNet са значна меншым узроўнем памылак, чым заняў другое месца.
Нейронныя сеткі - гэта алгарытмы, якія выкарыстоўваюць сетку матэматычных функцый для навучання пэўным паводзінам на аснове некаторых навучальных дадзеных. Напрыклад, вы можаце перадаць нейронавай сетцы медыцынскія дадзеныя, каб навучыць мадэль дыягнаставаць такое захворванне, як рак.
Надзея заключаецца ў тым, што нейронавая сетка павольна знаходзіць заканамернасці ў дадзеных і становіцца больш дакладнай, калі ёй даюцца новыя дадзеныя.
AlexNet стала прарыўным дадаткам a сверточная нейронных сетку або CNN. Ключавое слова «згорткавы» адносіцца да дадання згортачных слаёў, якія робяць большы акцэнт на дадзеных, якія знаходзяцца бліжэй адзін да аднаго.
Нягледзячы на тое, што CNN былі ідэяй яшчэ ў 1980-х гадах, яны пачалі набіраць папулярнасць толькі ў пачатку 2010-х, калі найноўшая тэхналогія GPU вывела тэхналогію на новыя вышыні.
Поспех CNN у галіне машыннае зрок прывялі да большай цікавасці да даследаванняў нейронавых сетак.
Такія тэхналагічныя гіганты, як Google і Facebook, вырашылі выпусціць для грамадскасці ўласныя структуры штучнага інтэлекту. API высокага ўзроўню, такія як Керас даў карыстальнікам зручны інтэрфейс для эксперыментаў з глыбокімі нейронавымі сеткамі.
CNN выдатна спраўляліся з распазнаваннем малюнкаў і аналізам відэа, але мелі праблемы з вырашэннем моўных праблем. Гэта абмежаванне ў апрацоўцы натуральнай мовы можа існаваць таму, што малюнкі і тэкст насамрэч прынцыпова розныя праблемы.
Напрыклад, калі ў вас ёсць мадэль, якая класіфікуе, ці ўтрымлівае выява святлафор, адпаведны святлафор можа з'явіцца ў любым месцы выявы. Аднак такая паблажлівасць дрэнна працуе на мове. Сказ «Боб з'еў рыбу» і «Рыбка з'еў Боба» маюць зусім розныя значэнні, нягледзячы на выкарыстанне адных і тых жа слоў.
Стала ясна, што даследчыкам неабходна знайсці новы падыход да вырашэння праблем, звязаных з чалавечай мовай.
Трансформеры мяняюць усё
У 2017, каб Навукова-даследчая праца пад назвай "Увага - гэта ўсё, што вам трэба" прапанавала новы тып сеткі: Transformer.
У той час як CNN працуюць шляхам шматразовай фільтрацыі невялікіх частак выявы, трансфарматары злучаюць кожны элемент дадзеных з кожным іншым элементам. Даследчыкі называюць гэты працэс «увагай да сябе».
Спрабуючы разабраць прапановы, CNN і трансфарматары працуюць зусім па-рознаму. У той час як CNN будзе сканцэнтраваны на стварэнні сувязяў са словамі, якія знаходзяцца побач, трансфарматар будзе ствараць сувязі паміж кожным словам у сказе.
Працэс самакіравання з'яўляецца неад'емнай часткай разумення чалавечай мовы. Памяншаючы маштаб і гледзячы на тое, як сумяшчаецца ўвесь сказ, машыны могуць больш дакладна разумець структуру сказа.
Як толькі былі выпушчаныя першыя мадэлі трансфарматараў, даследчыкі неўзабаве выкарысталі новую архітэктуру, каб скарыстацца перавагамі неверагоднай колькасці тэкставых даных, знойдзеных у Інтэрнэце.
GPT-3 і Інтэрнэт
У 2020 годзе OpenAI GPT-3 мадэль паказала, наколькі эфектыўнымі могуць быць трансфарматары. GPT-3 змог вывесці тэкст, які здаецца амаль неадрозным ад чалавечага. Частка таго, што зрабіла GPT-3 такім магутным, - гэта колькасць навучальных даных, якія выкарыстоўваюцца. Большая частка набору дадзеных перад падрыхтоўкай мадэлі паходзіць з набору дадзеных, вядомага як Common Crawl, які змяшчае больш за 400 мільярдаў токенаў.
У той час як здольнасць GPT-3 ствараць рэалістычны чалавечы тэкст была наватарскай сама па сабе, даследчыкі выявілі, як тая ж мадэль можа вырашаць іншыя задачы.
Напрыклад, тая ж мадэль GPT-3, якую вы можаце выкарыстоўваць для стварэння твіта, таксама можа дапамагчы вам абагульніць тэкст, перапісаць абзац і скончыць гісторыю. Моўныя мадэлі сталі настолькі магутнымі, што цяпер па сутнасці з'яўляюцца інструментамі агульнага прызначэння, якія выконваюць любыя каманды.
Універсальны характар GPT-3 дазволіў выкарыстоўваць такія праграмы GitHub Copilot, што дазваляе праграмістам ствараць працоўны код з простай англійскай мовы.
Дыфузійныя мадэлі: ад тэксту да малюнкаў
Прагрэс, дасягнуты ў трансфарматары і НЛП, таксама адкрыў шлях для генератыўнага штучнага інтэлекту ў іншых галінах.
У сферы камп'ютэрнага зроку мы ўжо разглядалі, як глыбокае навучанне дазваляе машынам разумець выявы. Тым не менш, нам усё яшчэ трэба было знайсці спосаб, каб штучны інтэлект ствараў выявы самастойна, а не проста класіфікаваў іх.
Генератыўныя мадэлі відарысаў, такія як DALL-E 2, Stable Diffusion і Midjourney, сталі папулярнымі дзякуючы таму, што яны здольныя пераўтвараць уведзены тэкст у відарысы.
Гэтыя мадэлі малюнкаў абапіраюцца на два асноўныя аспекты: мадэль, якая разумее ўзаемасувязь паміж выявамі і тэкстам, і мадэль, якая сапраўды можа стварыць выяву высокай выразнасці, якая адпавядае ўводу.
OpenAI CLIP (Contrastive Language–Image Pre-training) - гэта мадэль з адкрытым зыходным кодам, мэта якой - вырашыць першы аспект. Улічваючы малюнак, мадэль CLIP можа прадказаць найбольш адпаведнае тэкставае апісанне для гэтага канкрэтнага малюнка.
Мадэль CLIP працуе, вучачыся здабываць важныя характарыстыкі выявы і ствараць больш простае прадстаўленне выявы.
Калі карыстальнікі прадастаўляюць узор тэксту ў DALL-E 2, увод пераўтвараецца ва «ўбудаванне выявы» з дапамогай мадэлі CLIP. Цяпер мэта складаецца ў тым, каб знайсці спосаб стварыць выяву, якая адпавядае ўстаўленню створанай выявы.
Апошнія генератыўныя AI выявы выкарыстоўваюць a дыфузійная мадэль вырашаць задачу ўласна стварыць вобраз. Мадэлі дыфузіі абапіраюцца на нейронныя сеткі, якія былі папярэдне навучаны, каб ведаць, як выдаліць дадатковы шум з малюнкаў.
Падчас гэтага працэсу навучання нейронавая сетка можа ў канчатковым выніку навучыцца ствараць выяву з высокім дазволам з выявы выпадковага шуму. Паколькі ў нас ужо ёсць адлюстраванне тэксту і малюнкаў, прадастаўленае CLIP, мы можам падрыхтаваць мадэль дыфузіі на ўбудаванні малюнкаў CLIP, каб стварыць працэс стварэння любога малюнка.
Генератыўная рэвалюцыя штучнага інтэлекту: што будзе далей?
Зараз мы знаходзімся ў той кропцы, калі прарывы ў генератыўным ІІ адбываюцца кожныя пару дзён. Калі ствараць розныя тыпы мультымедыя з дапамогай штучнага інтэлекту становіцца ўсё прасцей і прасцей, ці варта нам хвалявацца аб тым, як гэта можа паўплываць на наша грамадства?
Нягледзячы на тое, што праблемы машын, якія замяняюць рабочых, заўсёды былі ў размове з часоў вынаходніцтва паравога рухавіка, здаецца, што на гэты раз усё крыху па-іншаму.
Generative AI становіцца шматмэтавым інструментам, які можа парушыць галіны, якія лічыліся бяспечнымі ад паглынання AI.
Ці спатрэбяцца нам праграмісты, калі штучны інтэлект можа пачаць пісаць бездакорны код з некалькіх асноўных інструкцый? Ці будуць людзі наймаць крэатыўшчыкаў, калі яны змогуць проста выкарыстоўваць генератыўную мадэль, каб вырабляць жаданую прадукцыю танней?
Цяжка прадказаць будучыню генератыўнай рэвалюцыі штучнага інтэлекту. Але цяпер, калі вобразная скрыня Пандоры была адкрыта, я спадзяюся, што тэхналогія дазволіць рабіць больш захапляльныя інавацыі, якія могуць аказаць станоўчы ўплыў на свет.
Пакінуць каментар