Olemme todennäköisesti vasta uuden generatiivisen tekoälyvallankumouksen alussa.
Generatiivisella tekoälyllä tarkoitetaan algoritmeja ja malleja, jotka pystyvät luomaan sisältöä. Tällaisten mallien tuotos sisältää tekstiä, ääntä ja kuvia, jotka voidaan usein luulla todelliseksi ihmisen tuotokseksi.
Sovellukset, kuten ChatGPT ovat osoittaneet, että generatiivinen tekoäly ei ole pelkkä uutuus. Tekoäly pystyy nyt noudattamaan yksityiskohtaisia ohjeita ja näyttää ymmärtävän syvästi, miten maailma toimii.
Mutta miten pääsimme tähän pisteeseen? Tässä oppaassa käymme läpi joitakin tekoälytutkimuksen keskeisiä läpimurtoja, jotka ovat tasoittaneet tietä tälle uudelle ja jännittävälle generatiiviselle tekoälyvallankumoukselle.
Neuraaliverkkojen nousu
Voit jäljittää nykyaikaisen tekoälyn alkuperän tutkimukseen syväoppiminen ja hermoverkot vuonna 2012.
Tuona vuonna Alex Krizhevsky ja hänen tiiminsä Toronton yliopistosta onnistuivat saavuttamaan erittäin tarkan algoritmin, joka voi luokitella esineitä.
- huippuluokan neuroverkko, joka tunnetaan nykyään nimellä AlexNet, pystyi luokittelemaan objektit ImageNet-visuaalisessa tietokannassa paljon pienemmällä virhesuhteella kuin toiseksi tullut.
Neuraaliset verkot ovat algoritmeja, jotka käyttävät matemaattisten funktioiden verkkoa oppiakseen tietyn käyttäytymisen joidenkin harjoitustietojen perusteella. Voit esimerkiksi syöttää hermoverkkoon lääketieteellisiä tietoja kouluttaaksesi mallin diagnosoimaan sairauden, kuten syövän.
Toivotaan, että hermoverkko löytää hitaasti malleja tiedoista ja tarkentuu, kun se antaa uutta dataa.
AlexNet oli läpimurtosovellus a konvoluutiohermoverkko tai CNN:t. Avainsana "konvoluutio" viittaa konvoluutiokerrosten lisäämiseen, mikä korostaa enemmän toisiaan lähempänä olevia tietoja.
Vaikka CNN:t olivat idea jo 1980-luvulla, ne alkoivat saada suosiota vasta 2010-luvun alussa, kun uusin GPU-tekniikka nosti tekniikan uusiin korkeuksiin.
CNN:n menestys alalla tietokoneen visio lisäsi kiinnostusta hermoverkkojen tutkimukseen.
Tekniikan jättiläiset, kuten Google ja Facebook, päättivät julkaista omat tekoälykehyksensä yleisölle. Korkean tason API, kuten Keras antoi käyttäjille käyttäjäystävällisen käyttöliittymän syvien hermoverkkojen kokeilemiseen.
CNN:t olivat loistavia kuvantunnistuksessa ja videoanalyysissä, mutta niillä oli vaikeuksia ratkaista kielipohjaisia ongelmia. Tämä luonnollisen kielen käsittelyn rajoitus saattaa olla olemassa, koska se, miten kuvat ja teksti ovat itse asiassa pohjimmiltaan erilaisia ongelmia.
Jos sinulla on esimerkiksi malli, joka luokittelee, sisältääkö kuva liikennevalon, kyseinen liikennevalo voi näkyä missä tahansa kuvassa. Tällainen lempeys ei kuitenkaan toimi kielessä hyvin. Lauseilla "Bob söi kalaa" ja "Kala söi Bobin" on hyvin erilaiset merkitykset, vaikka ne käyttävät samoja sanoja.
Oli käynyt selväksi, että tutkijoiden oli löydettävä uusi lähestymistapa ihmisten kieleen liittyvien ongelmien ratkaisemiseksi.
Transformers muuttavat kaiken
Vuonna 2017 vastaavasti tutkimus paperi "Huomio on kaikki mitä tarvitset" ehdotti uudentyyppistä verkkoa: Transformer.
Vaikka CNN:t toimivat suodattamalla toistuvasti pieniä osia kuvasta, muuntajat yhdistävät jokaisen datan elementin kaikkiin muihin elementteihin. Tutkijat kutsuvat tätä prosessia "itsehuomioksi".
Kun yritetään jäsentää lauseita, CNN:t ja muuntajat toimivat hyvin eri tavalla. Vaikka CNN keskittyy muodostamaan yhteyksiä sanojen kanssa, jotka ovat lähellä toisiaan, muuntaja luo yhteydet lauseen jokaisen sanan välille.
Itsensä huomioiminen on olennainen osa ihmisen kielen ymmärtämistä. Loitonnamalla ja katsomalla, kuinka koko lause sopii yhteen, koneet voivat ymmärtää lauseen rakenteen selkeämmin.
Kun ensimmäiset muuntajamallit julkaistiin, tutkijat käyttivät pian uutta arkkitehtuuria hyödyntääkseen Internetistä löytyvää uskomatonta tekstidataa.
GPT-3 ja Internet
Vuonna 2020 OpenAI's GPT-3 malli osoitti kuinka tehokkaita muuntajat voivat olla. GPT-3 pystyi tulostamaan tekstiä, joka näyttää lähes mahdottomalta erottaa ihmisestä. Osa siitä, mikä teki GPT-3:sta niin tehokkaan, oli käytetyn harjoitusdatan määrä. Suurin osa mallin esiopetusta koskevasta tietojoukosta tulee Common Crawl -tietojoukosta, joka sisältää yli 400 miljardia tunnistetta.
GPT-3:n kyky luoda realistista ihmistekstiä oli uraauurtava yksinään, mutta tutkijat havaitsivat, kuinka sama malli voi ratkaista muita tehtäviä.
Esimerkiksi sama GPT-3-malli, jota voit käyttää twiitin luomiseen, voi myös auttaa sinua tiivistämään tekstiä, kirjoittamaan kappaleen uudelleen ja viimeistelemään tarinan. Kielimallit ovat tulleet niin tehokkaiksi, että ne ovat nyt pohjimmiltaan yleiskäyttöisiä työkaluja, jotka seuraavat mitä tahansa komentoa.
GPT-3:n yleiskäyttöisyys on mahdollistanut sellaiset sovellukset GitHub Copilot, jonka avulla ohjelmoijat voivat luoda toimivaa koodia tavallisesta englannista.
Diffuusiomallit: tekstistä kuviin
Muuntajien ja NLP:n edistyminen on myös tasoittanut tietä generatiiviselle tekoälylle muilla aloilla.
Tietokonenäön alalla olemme jo käsitelleet, kuinka syväoppiminen mahdollisti koneiden ymmärtämään kuvia. Meidän täytyi kuitenkin vielä löytää keino, jolla tekoäly voisi luoda kuvia itse sen sijaan, että niitä vain luokitellaan.
Generatiiviset kuvamallit, kuten DALL-E 2, Stable Diffusion ja Midjourney, ovat tulleet suosituiksi, koska ne pystyvät muuttamaan tekstin syötteen kuviksi.
Nämä kuvamallit perustuvat kahteen keskeiseen näkökohtaan: malliin, joka ymmärtää kuvien ja tekstin välisen suhteen, ja malliin, joka voi itse asiassa luoda syötteeseen sopivan teräväpiirtokuvan.
OpenAI: t CLIP (Contrastive Language–Image Pre-training) on avoimen lähdekoodin malli, jonka tavoitteena on ratkaista ensimmäinen näkökohta. Kun kuva on annettu, CLIP-malli voi ennustaa asianmukaisimman tekstikuvauksen kyseiselle kuvalle.
CLIP-malli toimii oppimalla poimimaan tärkeitä kuvan ominaisuuksia ja luomaan yksinkertaisemman esityksen kuvasta.
Kun käyttäjät syöttävät esimerkkitekstin DALL-E 2:lle, syöttö muunnetaan "kuvan upottamiseksi" käyttämällä CLIP-mallia. Tavoitteena on nyt löytää tapa luoda kuva, joka vastaa luotua kuvan upotusta.
Uusimmat generatiivisen kuvan tekoälyt käyttävät a diffuusio malli toteuttaakseen tehtävän luoda todellinen kuva. Diffuusiomallit perustuvat hermoverkkoihin, jotka on valmiiksi koulutettu tietämään, kuinka kuvista voidaan poistaa lisätty kohina.
Tämän koulutusprosessin aikana hermoverkko voi lopulta oppia luomaan korkearesoluutioisen kuvan satunnaisesta kohinakuvasta. Koska meillä on jo CLIP:n tarjoama kartoitus tekstistä ja kuvista, voimme kouluttaa diffuusiomallia CLIP-kuvan upotuksissa luodaksesi prosessin minkä tahansa kuvan luomiseksi.
Generatiivinen tekoälyvallankumous: Mitä tapahtuu seuraavaksi?
Olemme nyt tilanteessa, jossa generatiivisen tekoälyn läpimurtoja tapahtuu parin päivän välein. Kun erityyppisten mediatyyppien luominen tekoälyllä on entistä helpompaa ja helpompaa, pitäisikö meidän olla huolissamme siitä, kuinka tämä voi vaikuttaa yhteiskuntaamme?
Vaikka työntekijöitä korvaavien koneiden huolet ovat olleet keskustelussa aina höyrykoneen keksimisestä lähtien, näyttää siltä, että tällä kertaa tilanne on hieman erilainen.
Generatiivisesta tekoälystä on tulossa monikäyttöinen työkalu, joka voi häiritä toimialoja, joiden katsottiin olevan turvassa tekoälyn haltuunotolta.
Tarvitsemmeko ohjelmoijia, jos tekoäly voi alkaa kirjoittaa virheetöntä koodia muutamasta perusohjeesta? Palkkaako ihmiset luovia, jos he voivat käyttää generatiivista mallia tuottaakseen haluamansa tuotoksen halvemmalla?
Generatiivisen tekoälyvallankumouksen tulevaisuutta on vaikea ennustaa. Mutta nyt, kun kuviollinen Pandoran lipas on avattu, toivon, että tekniikka mahdollistaa jännittävämpiä innovaatioita, jotka voivat jättää positiivisen vaikutuksen maailmaan.
Jätä vastaus