Веројатно сме на почетокот на нова генеративна револуција на вештачката интелигенција.
Генеративната вештачка интелигенција се однесува на алгоритми и модели кои се способни да создаваат содржина. Излезот на таквите модели вклучува текст, аудио и слики кои често може да се помешаат како вистински човечки излез.
Апликации како што се Разговор GPT покажаа дека генеративната вештачка интелигенција не е обична новина. Вештачката интелигенција сега е способна да следи детални инструкции и се чини дека има длабоко разбирање за тоа како функционира светот.
Но, како стигнавме до оваа точка? Во овој водич, ќе поминеме низ некои од клучните откритија во истражувањето на вештачката интелигенција што го отворија патот за оваа нова и возбудлива генеративна револуција на вештачката интелигенција.
Подемот на невронските мрежи
Потеклото на модерната вештачка интелигенција можете да го проследите до истражувањето на длабоко учење и невронски мрежи во 2012.
Во таа година, Алекс Крижевски и неговиот тим од Универзитетот во Торонто успеаја да постигнат многу прецизен алгоритам кој може да класифицира објекти.
на најсовремена невронска мрежа, сега познат како AlexNet, можеше да ги класифицира објектите во визуелната база на податоци ImageNet со многу помала стапка на грешки од вториот.
Невронски мрежи се алгоритми кои користат мрежа од математички функции за да научат одредено однесување врз основа на некои податоци за обука. На пример, можете да нахраните медицински податоци на невронска мрежа за да го обучите моделот да дијагностицира болест како рак.
Се надеваме дека невронската мрежа полека наоѓа обрасци во податоците и станува попрецизна кога ќе се добијат нови податоци.
AlexNet беше пробив апликација на a конвулативна нервна мрежа или CNN. Клучниот збор „конволуционерен“ се однесува на додавање на конволутивни слоеви што става поголем акцент на податоците што се поблиску еден до друг.
Додека CNN веќе беа идеја во 1980-тите, тие почнаа да се здобиваат со популарност дури на почетокот на 2010-тите кога најновата технологија на графичкиот процесор ја поттикна технологијата до нови височини.
Успехот на CNN во областа на компјутерска визија доведе до поголем интерес за истражување на невронските мрежи.
Технолошките гиганти како Google и Facebook одлучија да ги објават своите сопствени рамки за вештачка интелигенција на јавноста. API на високо ниво како што се Керас им даде на корисниците кориснички интерфејс за експериментирање со длабоки невронски мрежи.
CNN беа одлични во препознавање слики и видео анализа, но имаа проблеми кога станува збор за решавање на јазични проблеми. Ова ограничување во обработката на природниот јазик може да постои бидејќи сликите и текстот се всушност фундаментално различни проблеми.
На пример, ако имате модел кој класифицира дали сликата содржи семафор, предметниот семафор може да се појави каде било на сликата. Сепак, овој вид на попустливост не функционира добро во јазикот. Реченицата „Боб јадеше риба“ и „Рибата го јадеше Боб“ имаат многу различни значења и покрај употребата на истите зборови.
Стана јасно дека истражувачите треба да пронајдат нов пристап за решавање на проблемите поврзани со човечкиот јазик.
Трансформаторите менуваат сè
Во 2017, односно истражување на хартија со наслов „Внимание е сè што ви треба“ предложи нов тип на мрежа: Трансформер.
Додека CNN работат со постојано филтрирање на мали делови од сликата, трансформаторите го поврзуваат секој елемент во податоците со секој друг елемент. Истражувачите го нарекуваат овој процес „само-внимание“.
Кога се обидувате да ги анализирате речениците, CNN и трансформаторите работат многу поинаку. Додека CNN ќе се фокусира на формирање врски со зборови кои се блиску еден до друг, трансформаторот ќе создаде врски помеѓу секој збор во реченицата.
Процесот на самовнимание е составен дел од разбирањето на човечкиот јазик. Со одзумирање и гледање како целата реченица се вклопува заедно, машините можат да имаат појасно разбирање за структурата на реченицата.
Откако беа објавени првите модели на трансформатори, истражувачите набрзо ја искористија новата архитектура за да ги искористат предностите од неверојатната количина на текстуални податоци пронајдени на Интернет.
GPT-3 и Интернет
Во 2020 година, OpenAI's GPT-3 моделот покажа колку трансформаторите можат да бидат ефективни. GPT-3 можеше да издаде текст што изгледа речиси не се разликува од човек. Дел од она што го направи GPT-3 толку моќен беше количината на искористени податоци за обука. Поголемиот дел од базата на податоци за пред-тренинг на моделот доаѓа од база на податоци позната како Common Crawl која доаѓа со над 400 милијарди токени.
Додека способноста на GPT-3 да генерира реалистичен човечки текст беше револуционерна сама по себе, истражувачите открија како истиот модел може да реши други задачи.
На пример, истиот модел GPT-3 што можете да го користите за да генерирате твит, исто така може да ви помогне да резимирате текст, да препишете пасус и да завршите приказна. Јазични модели станаа толку моќни што сега во суштина се алатки за општа намена кои следат каков било тип на команда.
Општата намена на GPT-3 дозволува такви апликации Копилот на GitHub, што им овозможува на програмерите да генерираат работен код од обичен англиски јазик.
Модели на дифузија: од текст до слики
Напредокот постигнат со трансформаторите и НЛП го отвори патот за генеративна вештачка интелигенција во други полиња.
Во областа на компјутерската визија, веќе опфативме како длабокото учење им дозволува на машините да разберат слики. Сепак, сè уште требаше да најдеме начин како вештачката интелигенција сама да генерира слики наместо само да ги класифицира.
Генеративните модели на слики како DALL-E 2, Stable Diffusion и Midjourney станаа популарни поради тоа како тие можат да го претворат внесувањето текст во слики.
Овие модели на слики се потпираат на два клучни аспекти: модел кој ја разбира врската помеѓу сликите и текстот и модел кој всушност може да создаде слика со висока дефиниција што одговара на влезот.
OpenAI е CLIP (Contrastive Language–Image Pre-training) е модел со отворен код кој има за цел да го реши првиот аспект. Со оглед на сликата, моделот CLIP може да го предвиди најрелевантниот текстуален опис за таа конкретна слика.
Моделот CLIP работи со учење како да се извлечат важни карактеристики на сликата и да се создаде поедноставно претставување на сликата.
Кога корисниците обезбедуваат примерок за внесување текст на DALL-E 2, внесувањето се претвора во „вградување слика“ со помош на моделот CLIP. Целта сега е да се најде начин да се генерира слика што одговара на генерираното вградување на сликата.
Најновите вештачки интелигентни генеративни слики користат a модел на дифузија да се справи со задачата всушност да создаде слика. Моделите за дифузија се потпираат на невронски мрежи кои биле претходно обучени да знаат како да го отстранат додадениот шум од сликите.
За време на овој процес на обука, невронската мрежа на крајот може да научи како да креира слика со висока резолуција од слика со случаен шум. Бидејќи веќе имаме мапирање на текст и слики обезбедени од CLIP, можеме обучи дифузиски модел на CLIP вградувања на слики за да се создаде процес за генерирање на која било слика.
Генеративна револуција на вештачката интелигенција: Што следува следно?
Сега сме во момент кога на секои два дена се случуваат откритија во генеративната вештачка интелигенција. Со тоа што станува полесно и полесно да се генерираат различни типови медиуми користејќи вештачка интелигенција, дали треба да бидеме загрижени за тоа како тоа би можело да влијае на нашето општество?
Додека грижите за машините што ги заменуваат работниците отсекогаш биле во разговор од пронаоѓањето на парната машина, се чини дека овој пат е малку поинаку.
Генеративната вештачка интелигенција станува повеќенаменска алатка која може да ги наруши индустриите кои се сметаа за безбедни од преземање на вештачката интелигенција.
Дали ќе ни требаат програмери ако вештачката интелигенција може да почне да пишува беспрекорен код од неколку основни инструкции? Дали луѓето ќе ангажираат креативци ако можат само да користат генеративен модел за да го произведат резултатот што го сакаат поевтино?
Тешко е да се предвиди иднината на генеративната револуција на вештачката интелигенција. Но, сега кога е отворена фигуративната Пандорина кутија, се надевам дека технологијата ќе овозможи повозбудливи иновации кои можат да остават позитивно влијание врз светот.
Оставете Одговор