Visticamāk, jūs zināt, ka dators var aprakstīt attēlu.
Piemēram, attēlu ar suni, kas spēlējas ar jūsu bērniem, var tulkot kā "suns un bērni dārzā". Bet vai jūs zinājāt, ka tagad ir iespējams arī pretējais veids? Jūs ierakstāt dažus vārdus, un iekārta ģenerē jaunu attēlu.
Atšķirībā no Google meklēšanas, kas meklē esošās fotogrāfijas, tas viss ir jauns. Pēdējos gados OpenAI ir bijusi viena no vadošajām organizācijām, kas ziņo par satriecošiem rezultātiem.
Viņi apmāca savus algoritmus masveida teksta un attēlu datubāzēs. Viņi publicēja rakstu par savu GLIDE attēla modeli, kas tika apmācīts simtiem miljonu fotoattēlu. Fotoreālisma ziņā tas pārspēj viņu iepriekšējo “DALL-E” modeli.
Šajā ziņojumā mēs apskatīsim OpenAI GLIDE — vienu no vairākām aizraujošām iniciatīvām, kuras mērķis ir radīt un mainīt fotoreālistiskus attēlus ar teksta vadītiem difūzijas modeļiem. Sāksim.
Kas ir Atveriet AI Glide?
Lai gan lielāko daļu attēlu var aprakstīt vārdos, attēlu izveidei no teksta ievades ir nepieciešamas specializētas zināšanas un ievērojams laiks.
Ļaujot mākslīgā intelekta aģentam izveidot fotoreālistiskus attēlus no dabiskās valodas uzvednēm, cilvēki var ne tikai bezprecedenta viegli izveidot bagātīgu un daudzveidīgu vizuālo materiālu, bet arī vienkāršāk iteratīvi precizēt un precīzāk kontrolēt izveidotos attēlus.
GLIDE var izmantot esošo fotoattēlu rediģēšanai, izmantojot dabiskās valodas teksta uzvednes, lai ievietotu jaunus objektus, izveidotu ēnas un atspulgus, veiktu attēla gleznošana, un tā tālāk.
Tas var arī pārvērst pamata līniju rasējumus fotoreālistiskās fotogrāfijās, un tam ir izcilas nulles paraugu ražošanas un remonta iespējas sarežģītās situācijās.
Nesenie pētījumi ir parādījuši, ka uz varbūtību balstīti difūzijas modeļi var radīt arī augstas kvalitātes sintētiskus attēlus, īpaši, ja tie tiek apvienoti ar vadošo pieeju, kas līdzsvaro dažādību un precizitāti.
OpenAI publicēja a vadītas difūzijas modelis maijā, kas ļauj difūzijas modeļus būt atkarīgiem no klasifikatora etiķetēm. GLIDE uzlabo šos panākumus, ieviešot vadītu izkliedi teksta nosacītā attēla izveides problēmai.
Pēc 3.5 miljardu parametru GLIDE difūzijas modeļa apmācības, izmantojot teksta kodētāju, lai pielāgotos dabiskās valodas aprakstiem, pētnieki pārbaudīja divas alternatīvas vadīšanas stratēģijas: CLIP vadību un vadību bez klasifikatoriem.
CLIP ir mērogojams paņēmiens teksta un attēlu kopīgu attēlojumu apguvei, kas nodrošina rezultātu, pamatojoties uz to, cik tuvu attēls atrodas parakstam.
Komanda izmantoja šo stratēģiju savos difūzijas modeļos, aizstājot klasifikatoru ar CLIP modeli, kas "vada" modeļus. Tikmēr vadība bez klasifikatoriem ir stratēģija tādu difūzijas modeļu virzīšanai, kas neietver atsevišķa klasifikatora apmācību.
GLIDE arhitektūra
GLIDE arhitektūra sastāv no trim komponentiem: ablētā difūzijas modeļa (ADM), kas apmācīts ģenerēt 64 × 64 attēlu, teksta modeļa (transformatora), kas ietekmē attēla ģenerēšanu, izmantojot teksta uzvedni, un pārtveršanas modeļa, kas pārveido mūsu mazo 64 × 64 attēlu. attēlus uz interpretējamākiem 256 x 256 pikseļiem.
Pirmie divi komponenti darbojas kopā, lai kontrolētu attēla ģenerēšanas procesu, lai tas atbilstoši atspoguļotu teksta uzvedni, savukārt pēdējais ir nepieciešams, lai padarītu mūsu izveidotos attēlus vieglāk uztveramus. GLIDE projektu iedvesmoja a ziņojums publicēts 2021 kas parādīja, ka ADM metodes attēla paraugu kvalitātes ziņā pārspēja pašlaik populāros, vismodernākos ģeneratīvos modeļus.
ADM GLIDE autori izmantoja to pašu ImageNet 64 x 64 modeli kā Dhariwal un Nichol, bet ar 512 kanāliem, nevis 64. ImageNet modelim ir aptuveni 2.3 miljardi parametru, kā rezultātā.
GLIDE komanda, atšķirībā no Dhariwal un Nichol, vēlējās iegūt lielāku tiešo kontroli pār attēlu ģenerēšanas procesu, tāpēc viņi apvienoja vizuālo modeli ar uzmanību piesaistošu transformatoru. GLIDE sniedz jums zināmu kontroli pār attēla ģenerēšanas procesa izvadi, apstrādājot teksta ievades uzvednes.
Tas tiek panākts, apmācot transformatora modeli atbilstoši lielai fotoattēlu un parakstu datu kopai (līdzīgi kā DALL-E projektā).
Teksts sākotnēji tiek kodēts K marķieru sērijā, lai to noteiktu. Pēc tam žetoni tiek ielādēti transformatora modelī. Pēc tam transformatora izvadi var izmantot divos veidos. ADM modelim klases iegulšanas vietā tiek izmantota galīgā marķiera iegulšana.
Otrkārt, marķieru iegulšanas pēdējais slānis — pazīmju vektoru sērija — tiek projicēts neatkarīgi no katra uzmanības slāņa izmēriem ADM modelī un savienots ar katru uzmanības kontekstu.
Patiesībā tas ļauj ADM modelim izveidot attēlu no jaunām līdzīgu teksta marķieru kombinācijām unikālā un fotoreālistiskā veidā, pamatojoties uz tā apgūto ievades vārdu un ar tiem saistīto attēlu izpratni. Šis teksta kodēšanas transformators satur 1.2 miljardus parametru un izmanto 24 atlikušos blokus ar platumu 2048.
Visbeidzot, augšsampleru difūzijas modelis ietver aptuveni 1.5 miljardus parametru un atšķiras no pamata modeļa, jo tā teksta kodētājs ir mazāks ar 1024 un 384 bāzes kanālu platumu, salīdzinot ar bāzes modeli. Šis modelis, kā norāda nosaukums, palīdz uzlabot paraugu, lai uzlabotu interpretējamību gan mašīnām, gan cilvēkiem.
Difūzijas modelis
GLIDE ģenerē attēlus, izmantojot savu ADM versiju (ADM-G nozīmē “vadīts”). ADM-G modelis ir difūzijas U veida modeļa modifikācija. Difūzijas U-tīkla modelis krasi atšķiras no biežāk izmantotajām attēlu sintēzes metodēm, piemēram, VAE, GAN un transformatoriem.
Viņi izveido Markova difūzijas posmu ķēdi, lai pakāpeniski ievadītu datos nejaušu troksni, un pēc tam iemācās mainīt difūzijas procesu un atjaunot nepieciešamos datu paraugus tikai no trokšņa. Tas darbojas divos posmos: uz priekšu un atpakaļgaitā.
Tiešās difūzijas metode, ņemot vērā datu punktu no parauga patiesā sadalījuma, pievieno paraugam nelielu trokšņa daudzumu, veicot iepriekš iestatītu darbību sēriju. Palielinoties soļu izmēram un tuvojoties bezgalībai, paraugs zaudē visas atpazīstamās īpašības un secība sāk atgādināt izotropu Gausa līkni.
Atpakaļējās difūzijas laikā fāze, difūzijas modelis mācās mainīt pievienotā trokšņa ietekmi uz attēliem un novest izveidoto attēlu atpakaļ tā sākotnējā formā, mēģinot līdzināties sākotnējam ievades izlases sadalījumam.
Pabeigts modelis to varētu izdarīt ar īstu Gausa trokšņa ievadi un uzvedni. ADM-G metode atšķiras no iepriekšējās, jo modelis, vai nu CLIP, vai pielāgots transformators, ietekmē atpakaļgaitas difūzijas fāzi, izmantojot ievadītos teksta uzvednes marķierus.
Slīdēšanas iespējas
1. Attēla ģenerēšana
Vispopulārākais un visplašāk izmantotais GLIDE lietojums, iespējams, būs attēlu sintēze. Lai gan attēli ir pieticīgi un GLIDE ir grūtības ar dzīvnieku/cilvēku formām, viena kadra attēlu veidošanas iespējas ir gandrīz bezgalīgas.
Tas var izveidot dzīvnieku, slavenību, ainavu, ēku un daudz ko citu fotoattēlus, kā arī to var izdarīt dažādos mākslas stilos, kā arī fotoreālistiski. Pētnieku autori apgalvo, ka GLIDE spēj interpretēt un pielāgot dažādus teksta ievades veidus vizuālā formātā, kā redzams turpmākajos paraugos.
2. Slīdkrāsošana
GLIDE automātiskā fotoattēlu krāsošana ir neapšaubāmi aizraujošākā izmantošana. GLIDE var uzņemt esošu attēlu kā ievadi, apstrādāt to, paturot prātā teksta uzvedni vietām, kuras ir jāmaina, un pēc tam viegli veikt aktīvas izmaiņas šajās daļās.
Tas ir jāizmanto kopā ar rediģēšanas modeli, piemēram, SDEdit, lai iegūtu vēl labākus rezultātus. Nākotnē lietotnēm, kas izmanto tādas iespējas kā šīs, var būt izšķiroša nozīme, izstrādājot bezkoda attēlu mainīšanas pieejas.
Secinājumi
Tagad, kad esam izgājuši cauri šim procesam, jums vajadzētu saprast GLIDE darbības pamatprincipus, kā arī tās iespēju plašumu attēlu veidošanā un attēla modificēšanas jomā.
Atstāj atbildi