Sisukord[Peida][Näita]
Uus ja täiustatud tehisintellekt on parandanud võimeid, arusaamist ja võimet toota kõrgema eraldusvõimega pilte. Võib-olla olete viimasel ajal kohanud Internetis hõljuvaid kummalisi ja lõbusaid pilte.
Shiba Inu koer on riietatud baretti ja musta kilpkonnaga. Ja merisaarmas Hollandi maalikunstniku Vermeeri teose “Tüdruk pärlkõrvarõngaga” moodi. Ja seal on tass suppi, mis näeb välja nagu villane koletis.
need pildid pole loonud inimkunstnik.
Selle asemel lõi need DALL-E 2, uus tehisintellektisüsteem, mis suudab tekstilised kirjeldused kujutisteks teisendada.
Lihtsalt kirjutage üles, mida soovite näha, ja tehisintellekt loob selle teie jaoks – erksate detailide, suurepärase kvaliteediga ja mõnel juhul ka tõelise leidlikkusega. Selles postituses vaatleme põhjalikult OpenAI viimast uuringut DALL.E 2, selle toimimist ja palju muud. Alustame.
Niisiis, mis täpselt on DALL.E 2?
DALL-E 2 on "generatiivne mudel", masinõppe algoritmi tüüp, mis genereerib pigem keerulist väljundit kui täidab sisendandmete ennustus- või klassifitseerimisülesandeid.
Esitate DALL-E 2-le kirjaliku kirjelduse ja see loob sellele vastava pildi. Kontseptsioone, omadusi ja stiile kombineerides saab OpenAI DALLE 2 toota uuenduslikku, realistlikku graafikat ja kunsti põhilise keelelise kirjelduse põhjal.
Väidetavalt on uusim versioon, DALLE 2, mitmekülgsem, võimeline pildiallkirjadest kõrgema eraldusvõimega ja laiema loomingulise stiiliga pilte tegema. Näiteks allolevad pildid (DALL-E 2 ajaveebi postitusest) on loodud kirjeldusega "Astronaut ratsutamas hobusega".
Üks kirjeldus lõpetab "nagu pliiatsivisand", teine aga "fotorealistlikul viisil".
Samuti võib see hämmastava täpsusega muuta olemasolevaid fotosid. Seega saate elemente lisada või kustutada, säilitades samal ajal värvid, peegeldused ja varjud, säilitades samal ajal algse pildi välimuse.
Kuidas see toimib?
DALL-E 2 kasutab CLIP- ja difusioonimudeleid, kahte keerukat sügav õpe viimastel aastatel välja töötatud lähenemisviisid. See põhineb aga samal arusaamal, mis kõik teisedki sügavad närvivõrgud: esindusõpe. CLIP treenib korraga kahte närvivõrgud piltidel ja pealdistel.
Üks võrk õpib pildil olevaid visuaalseid esitusi, teine aga tekstiesitusi. Koolituse ajal püüavad kaks võrku muuta oma parameetreid nii, et võrreldavate piltide ja kirjelduste tulemuseks oleks sarnased manustused.
"Difusioon", generatiivse mudeli tüüp, mis õpib pilte tegema järk-järgult oma treeningnäidiste müra tekitades ja summutades, on teine DALL-E 2-s kasutatav masinõppe lähenemisviis. Difusioonmudelid on sarnased autoenkooderitele, kuna need muudavad sisendandmed manustatud esitus ja seejärel kasutada manustamisteavet algandmete taasloomiseks.
OpenAI kasutamine keelemudel CLIP, mis suudab ühendada tekstilised kirjeldused fotodega, tõlgib esmalt kirjaliku viipe vahepealseks vormiks, mis sisaldab olulisi omadusi, mis pildil peaksid selle viipaga vastama (vastavalt CLIP-ile).
Teiseks loob DALL-E 2 CLIP-ühilduva pilt difusioonimudeli abil, mis on närvivõrk.
Juhuslike pikslitega moonutatud fotodel õpitakse difusioonimudeleid. Õpitakse, kuidas taastada fotode algset vormi. Difusioonmudelid võivad toota kvaliteetseid sünteetilisi pilte, eriti kui neid kasutatakse koos suunava lähenemisviisiga, mis eelistab täpsust mitmekesisusele.
Selle tulemusena difusioonimudel võtab juhuslikud pikslid ja kasutab CLIP-i, et teisendada need uueks pildiks, mis vastab sõnaviibale. Hajutuskontseptsiooni tõttu suudab DALL-E 2 toota kõrgema eraldusvõimega pilte kiiremini kui DALL-E.
DALL.E 2 kasutusjuht
Viimase kahekümne aasta jooksul arvuti nägemine tehnoloogia on arenenud lihtsast ideest suure läbimurdeni. Vaatamata nendele edusammudele seisavad pildi- ja objektituvastusmudelid igapäevaelus endiselt silmitsi tõsiste takistustega. Andmekogumite puudumine on pildituvastuse ja arvutinägemise üks olulisemaid puudusi. Kuna mõlemas otsas on andmepuudus, on pildituvastusmudelite treenimine 100 protsenti täpsete tulemuste saamiseks peaaegu keeruline.
Õnneks võib OpenAI uus masinõppemudel ületada lõhe tehnoloogias. DALLE 2 suudab tekstikirjelduste põhjal luua hämmastavaid pilte. See võltspiltide tootmine võib anda andmeid pildituvastusmudelitele vastavalt nende nõuetele. Andmete puudumine on oluline komistuskivi objekti ja pildi tuvastamisel.
Digitaalajastul on andmestikud üldlevinud, kuid me otsime endiselt otseteid tehisintellekti mudeli toitmiseks, et see annaks häid tulemusi. Pildituvastusmudeli väljaõpetamine pole aga lihtne. See nõuab suurt hulka väikeste erinevustega andmekogumeid, mida me poleks võib-olla saanud lihtsalt hankida.
Niisiis, mis on vastus: vastus on DALLE 2. OpenAI pildigeneraator, mis suudab tekstidest pilte toota ja olemasolevaid muuta, võib aidata seda lõhet ületada. See aitab genereerida täiendavaid koolitusandmeid, vähendades samal ajal inimeste jaoks vajalikku märgistamist. Hoolimata märkimisväärsest kasust, peaksite olema teadlik petturlikest kujutistest ja piltidest, mis välistavad kaasamise. See võib viia kujutise tuvastamise meetoditeni, mis annavad kallutatud tulemusi.
Piirangud
OpenAI andmetel võib DALL.E 2 valedesse kätesse sattumisel olla kahjulik mõju. Tänapäeva sügavate võltsingute maailmas saab mudelit hõlpsasti kasutada valeteabe või rassistlike kujutiste levitamiseks, mistõttu võimaldab OpenAI arendajatel DALL.2 kasutada ainult kutse alusel. Modell peab järgima rangeid sisupiiranguid kõikide soovituste puhul, mida ta saab.
Et välistada DALL.E 2 potentsiaal luua vaenulikke või vägivaldseid pilte, loodi andmestik ilma surmava relvata. Kuigi OpenAI on teatanud, et kavatseb selle tulevikus API-ks muuta, on DALL.E 2 puhul valmis tegutsema ettevaatlikult.
Järeldus
DALL-E 2 on veel üks huvitav OpenAI uurimistöö avastus, mis avab ukse uutele rakendustele.
Üks näide on tohutute andmekogumite loomine, et vastata arvutinägemise ühele peamisele kitsaskohale – andmetele. Kuigi paljude DALL-E-põhiste rakenduste majandusliku kasu määrab hind ja poliitika, mille OpenAI oma API kasutajatele kehtestab, edendavad need kõik kahtlemata pildi tootmist.
Jäta vastus