Ce a cauzat revoluția AI generativă?

Cuprins[Ascunde][Spectacol]

Creșterea rețelelor neuronale
Transformatoarele schimbă totul
GPT-3 și Internetul
Modele de difuzie: de la text la imagini
Revoluția AI generativă: ce urmează?

Probabil că suntem la începutul unei noi revoluții AI generative.

Inteligența artificială generativă se referă la algoritmi și modele care sunt capabile să creeze conținut. Ieșirea unor astfel de modele include text, audio și imagini care pot fi adesea confundate cu rezultate umane reale.

Aplicații precum Chat GPT au arătat că IA generativă nu este o simplă noutate. AI este acum capabil să urmeze instrucțiuni detaliate și pare să aibă o înțelegere profundă a modului în care funcționează lumea.

Dar cum am ajuns în acest punct? În acest ghid, vom trece prin câteva dintre descoperirile cheie în cercetarea AI care au deschis calea pentru această nouă și interesantă revoluție generativă a AI.

Creșterea rețelelor neuronale

Puteți urmări originile AI moderne până la cercetarea asupra învățare profundă și rețele neuronale în 2012.

În acel an, Alex Krizhevsky și echipa sa de la Universitatea din Toronto au reușit să realizeze un algoritm extrem de precis care poate clasifica obiectele.

rețea neuronală de ultimă generație, cunoscut acum sub numele de AlexNet, a reușit să clasifice obiectele din baza de date vizuală ImageNet cu o rată de eroare mult mai mică decât pe locul secund.

diagrama alexnet

Rețele neuronale sunt algoritmi care folosesc o rețea de funcții matematice pentru a învăța un anumit comportament pe baza unor date de antrenament. De exemplu, puteți alimenta o rețea neuronală cu date medicale pentru a antrena modelul pentru a diagnostica o boală precum cancerul.

Speranța este ca rețeaua neuronală să găsească încet modele în date și să devină mai precisă atunci când i se oferă date noi.

AlexNet a fost o aplicație revoluționară a a rețea neuronală convoluțională sau CNN-uri. Cuvântul cheie „convoluțional” se referă la adăugarea de straturi convoluționale care pune mai mult accent pe datele care sunt mai apropiate.

În timp ce CNN-urile erau deja o idee în anii 1980, ele au început să câștige popularitate abia la începutul anilor 2010, când cea mai recentă tehnologie GPU a împins tehnologia la noi culmi.

Succesul CNN-urilor în domeniul viziunea computerului a dus la un interes mai mare pentru cercetarea rețelelor neuronale.

Giganții tehnologici precum Google și Facebook au decis să-și lanseze propriile cadre AI pentru public. API-uri de nivel înalt, cum ar fi Keras a oferit utilizatorilor o interfață ușor de utilizat pentru a experimenta rețele neuronale profunde.

keras a oferit o modalitate ușor de utilizat de a experimenta modele de învățare profundă

CNN-urile au fost excelente la recunoașterea imaginilor și la analiza video, dar au avut probleme când vine vorba de rezolvarea problemelor bazate pe limbaj. Această limitare în procesarea limbajului natural ar putea exista deoarece modul în care imaginile și textul sunt de fapt probleme fundamental diferite.

De exemplu, dacă aveți un model care clasifică dacă o imagine conține un semafor, semaforul în cauză poate apărea oriunde în imagine. Cu toate acestea, acest tip de clemență nu funcționează bine în limbă. Propoziția „Bob a mâncat pește” și „Peștele a mâncat pe Bob” au înțelesuri foarte diferite, în ciuda faptului că folosesc aceleași cuvinte.

Devenise clar că cercetătorii trebuiau să găsească o nouă abordare pentru a rezolva problemele care implică limbajul uman.

Transformatoarele schimbă totul

În 2017, a lucrare de cercetare intitulat „Atenția este tot ce aveți nevoie” a propus un nou tip de rețea: Transformerul.

În timp ce CNN-urile funcționează prin filtrarea în mod repetat a porțiunilor mici ale unei imagini, transformatoarele conectează fiecare element din date cu orice alt element. Cercetătorii numesc acest proces „autoatenție”.

schiță a arhitecturii CNN

Când încercați să analizați propoziții, CNN-urile și transformatoarele funcționează foarte diferit. În timp ce un CNN se va concentra pe formarea de conexiuni cu cuvinte care sunt aproape unul de celălalt, un transformator va crea conexiuni între fiecare cuvânt dintr-o propoziție.

schiță a arhitecturii transformatorului

Procesul de autoatenție este o parte integrantă a înțelegerii limbajului uman. Prin micșorare și privind modul în care întreaga propoziție se potrivește, mașinile pot avea o înțelegere mai clară a structurii propoziției.

Odată ce primele modele de transformatoare au fost lansate, cercetătorii au folosit în curând noua arhitectură pentru a profita de cantitatea incredibilă de date text găsite pe internet.

GPT-3 și Internetul

În 2020, OpenAI GPT-3 modelul a arătat cât de eficiente pot fi transformatoarele. GPT-3 a reușit să scoată text care pare aproape imposibil de distins de un om. O parte din ceea ce a făcut GPT-3 atât de puternic a fost cantitatea de date de antrenament folosită. Majoritatea setului de date de pre-antrenare al modelului provine dintr-un set de date cunoscut sub numele de Common Crawl, care vine cu peste 400 de miliarde de jetoane.

În timp ce capacitatea lui GPT-3 de a genera text uman realist a fost revoluționară de la sine, cercetătorii au descoperit cum același model poate rezolva alte sarcini.

De exemplu, același model GPT-3 pe care îl puteți folosi pentru a genera un tweet vă poate ajuta, de asemenea, să rezumați text, să rescrieți un paragraf și să finalizați o poveste. Modele de limbaj au devenit atât de puternice încât sunt acum instrumente de uz general, care urmează orice tip de comandă.

revoluția generativă ai a fost accelerată de modele mari de limbaj precum gpt-3

Natura de uz general a lui GPT-3 a permis astfel de aplicații GitHub Copilot, care permite programatorilor să genereze cod de lucru din limba engleză simplă.

demonstrație de google copilot. revoluția generativă ai ar putea afecta chiar și programatorii care au creat ai

Modele de difuzie: de la text la imagini

Progresul realizat cu transformatoare și NLP a deschis calea pentru IA generativă în alte domenii.

În domeniul viziunii computerizate, am descris deja modul în care învățarea profundă a permis mașinilor să înțeleagă imaginile. Cu toate acestea, mai trebuia să găsim o modalitate prin care AI să genereze imagini în sine, mai degrabă decât să le clasifice.

Modelele de imagini generative precum DALL-E 2, Stable Diffusion și Midjourney au devenit populare datorită modului în care sunt capabile să convertească textul introdus în imagini.

eșantion de ieșire din dall-e 2

Aceste modele de imagine se bazează pe două aspecte cheie: un model care înțelege relația dintre imagini și text și un model care poate crea de fapt o imagine de înaltă definiție care se potrivește cu intrarea.

OpenAI CLIP (Contrastive Language–Image Pre-training) este un model open-source care își propune să rezolve primul aspect. Având în vedere o imagine, modelul CLIP poate prezice cea mai relevantă descriere a textului pentru imaginea respectivă.

Modelul CLIP funcționează prin învățarea cum să extragă caracteristici importante ale imaginii și să creeze o reprezentare mai simplă a unei imagini.

CLIP acționează ca punte între imagini și text și a ajutat la mutarea revoluției generative ai în sfera vizuală.

Când utilizatorii furnizează un exemplu de introducere a textului la DALL-E 2, intrarea este convertită într-o „încorporare a imaginii” folosind modelul CLIP. Scopul acum este de a găsi o modalitate de a genera o imagine care să se potrivească cu încorporarea imaginii generate.

Cele mai recente AI-uri de imagine generativă folosesc a model de difuzie pentru a aborda sarcina de a crea efectiv o imagine. Modelele de difuzie se bazează pe rețele neuronale care au fost pregătite în prealabil pentru a ști cum să elimine zgomotul adăugat din imagini.

În timpul acestui proces de antrenament, rețeaua neuronală poate învăța în cele din urmă cum să creeze o imagine de înaltă rezoluție dintr-o imagine de zgomot aleatoare. Deoarece avem deja o mapare a textului și imaginilor oferite de CLIP, putem antrenează un model de difuzie pe încorporarea imaginilor CLIP pentru a crea un proces de generare a oricărei imagini.

Revoluția AI generativă: ce urmează?

Ne aflăm acum într-un punct în care descoperirile în IA generativă au loc la fiecare două zile. Pe măsură ce devine din ce în ce mai ușor să generezi diferite tipuri de media folosind AI, ar trebui să ne îngrijorăm cum ar putea afecta acest lucru societatea noastră?

În timp ce grijile mașinilor care înlocuiesc muncitorii au fost mereu în discuție de la inventarea motorului cu abur, se pare că de data aceasta este puțin diferit.

AI generativă devine un instrument multifuncțional care poate perturba industriile care au fost considerate protejate de o preluare a AI.

Vom avea nevoie de programatori dacă AI poate începe să scrie cod impecabil din câteva instrucțiuni de bază? Vor angaja oamenii reclame dacă pot folosi doar un model generativ pentru a produce rezultatul pe care și-l doresc mai ieftin?

Este dificil de prezis viitorul revoluției AI generative. Dar acum că a fost deschisă cutia figurativă a Pandorei, sper că tehnologia va permite mai multe inovații interesante care pot lăsa un impact pozitiv asupra lumii.

Ce a cauzat revoluția AI generativă?

Creșterea rețelelor neuronale

Transformatoarele schimbă totul

GPT-3 și Internetul

Modele de difuzie: de la text la imagini

Revoluția AI generativă: ce urmează?

Despre Noi Deion Menor

Mai multe articole despre HashDork:

Cum să reduceți halucinațiile din IA

Colosyan vs Heygen

Acest buletin informativ Future Tech nu e de nasol

Ce a cauzat revoluția AI generativă?

Creșterea rețelelor neuronale

Transformatoarele schimbă totul

GPT-3 și Internetul

Modele de difuzie: de la text la imagini

Revoluția AI generativă: ce urmează?

Despre Noi Deion Menor

Mai multe articole despre HashDork:

Cum să reduceți halucinațiile din IA

10 cele mai bune instrumente AI pentru rețelele sociale

Colosyan vs Heygen

Cele mai bune 10 instrumente pentru realizarea de videoclipuri animate AI

Interacțiuni de reader

Lasă un comentariu Anuleaza raspunsul

Acest buletin informativ Future Tech nu e de nasol