Table of Contents[Kache][Montre]
Ou gen plis chans konnen ke yon òdinatè ka dekri yon foto.
Pou egzanp, yon foto yon chen ap jwe ak pitit ou yo ka tradui kòm 'chen ak timoun nan jaden an.' Men, èske w te konnen fason opoze a kounye a posib tou? Ou tape kèk mo, epi machin nan jenere yon nouvo foto.
Kontrèman ak yon rechèch Google, ki fè rechèch sou foto ki deja egziste, tout bagay sa yo fre. Nan dènye ane yo, OpenAI se te youn nan òganizasyon dirijan yo, ki rapòte rezilta sansasyonèl.
Yo antrene algoritm yo sou baz done masiv tèks ak foto. Yo pibliye yon papye sou modèl imaj GLIDE yo, ki te resevwa fòmasyon sou plizyè santèn milyon foto. An tèm de fotoréyalis, li depase modèl 'DALL-E' anvan yo.
Nan pòs sa a, nou pral gade nan GLIDE OpenAI a, youn nan plizyè inisyativ kaptivan ki vize a pwodwi ak chanje foto fotoreyalis ak modèl difizyon tèks gide. Ann kòmanse.
Ki sa ki Louvri AI Glide?
Pandan ke pifò imaj yo ka dekri nan mo, kreye imaj soti nan entrain tèks bezwen konesans espesyalize ak yon kantite tan enpòtan.
Pèmèt yon ajan AI pwodui foto fotoreyalis apati envit langaj natirèl non sèlman pèmèt moun yo kreye materyèl vizyèl rich ak divès ak yon fasilite san parèy, men tou pèmèt rafineman iteratif pi senp ak kontwòl amann sou imaj yo kreye.
GLIDE ka itilize pou modifye foto ki deja egziste lè w itilize envit tèks nan lang natirèl pou mete nouvo objè, kreye lonbraj ak refleksyon, fè imaj nan penti, E konsa sou.
Li kapab tou vire desen liy debaz yo nan foto fotoreyalis, epi li gen eksepsyonèl zewo-echantiyon fabrikasyon ak reparasyon kapasite pou sitiyasyon konplèks.
Rechèch ki sot pase yo te demontre ke modèl difizyon ki baze sou pwobabilite kapab tou pwodui foto sentetik kalite siperyè, patikilyèman lè yo konbine avèk yon apwòch k ap gide ki balanse varyete ak fidelite.
OpenAI pibliye yon modèl difizyon gide an me, ki pèmèt modèl difizyon yo dwe kondisyonèl sou etikèt yo nan yon klasifikasyon. GLIDE amelyore siksè sa a lè li pote difizyon gide nan pwoblèm kreyasyon tèks-kondisyonèl imaj la.
Apre fòmasyon yon modèl difizyon GLIDE 3.5 milya paramèt lè l sèvi avèk yon ankode tèks pou kondisyone sou deskripsyon langaj natirèl, chèchè yo teste de estrateji gid altènatif: konsèy CLIP ak gidans klasifikasyon gratis.
CLIP se yon teknik évolutive pou aprann reprezantasyon ansanm tèks ak foto ki bay yon nòt ki baze sou ki jan pre yon imaj ye ak yon tit.
Ekip la te itilize estrateji sa a nan modèl difizyon yo lè yo ranplase klasifikasyon an ak yon modèl CLIP ki "gide" modèl yo. Pandan se tan, klasifikasyon-gratis konsèy se yon estrateji pou dirije modèl difizyon ki pa enplike fòmasyon nan yon klasifikasyon separe.
GLIDE Achitekti
Achitekti GLIDE a gen twa konpozan: yon Modèl Difizyon Ablation (ADM) ki fòme pou jenere yon imaj 64 × 64, yon modèl tèks (transfòmatè) ki enfliyanse jenerasyon imaj atravè yon èd memwa tèks, ak yon modèl upsampling ki konvèti ti 64 × 64 nou an. imaj yo plis entèpretab 256 x 256 piksèl.
De premye konpozan yo travay ansanm pou kontwole pwosesis jenere foto a pou li reflete yon fason ki apwopriye èd memwa tèks la, pandan y ap lèt la oblije fè imaj nou kreye pi fasil pou konprann. Pwojè GLIDE te enspire pa yon rapò ki te pibliye an 2021 ki te montre ke teknik ADM depase kounye a popilè, dènye modèl jeneratif an tèm de bon jan kalite echantiyon foto.
Pou ADM a, otè GLIDE yo te anplwaye menm modèl ImageNet 64 x 64 kòm Dhariwal ak Nichol, men ak 512 chanèl olye de 64. Modèl ImageNet a gen apeprè 2.3 milya paramèt kòm rezilta sa.
Ekip GLIDE a, kontrèman ak Dhariwal ak Nichol, te vle gen pi gwo kontwòl dirèk sou pwosesis la génération foto, kidonk yo konbine modèl vizyèl la ak yon transfòmatè atansyon-pèmèt. GLIDE ba ou kèk kontwòl sou pwodiksyon foto a nan pwosesis pwodiksyon an nan trete envit tèks yo.
Sa a se akonpli nan fòmasyon modèl transfòmatè a sou yon seri done konvnableman gwo nan foto ak tit (menm jan ak sa yo anplwaye nan pwojè DALL-E).
Tèks la okòmansman kode nan yon seri de siy K yo nan lòd yo kondisyone li. Apre sa, jeton yo chaje nan yon modèl transfòmatè. Lè sa a, pwodiksyon transfòmatè a ka itilize nan de fason. Pou modèl ADM a, yo itilize final la embedding siy olye de klas la embedding.
Dezyèmman, kouch final embeddings jeton yo - yon seri vektè karakteristik - yo pwojte poukont yo nan dimansyon yo pou chak kouch atansyon nan modèl la ADM ak konkatenasyon nan chak kontèks atansyon.
An reyalite, sa a pèmèt modèl ADM pwodwi yon foto nan nouvo konbinezon de siy tèks ki sanble nan yon mòd inik ak fotoreyalis, ki baze sou konpreyansyon li aprann nan mo sa yo antre ak imaj ki gen rapò yo. Transfòmatè tèks-kodaj sa a gen 1.2 milya paramèt epi li anplwaye 24 rès blòk ak yon lajè 2048.
Finalman, modèl la difizyon upsampler gen ladan anviwon 1.5 milya paramèt ak varye de modèl debaz la nan ke ankode tèks li yo pi piti, ak yon lajè 1024 ak 384 chanèl baz, konpare ak modèl la baz. Modèl sa a, jan non an endike, ede nan amelyorasyon echantiyon an nan lòd yo amelyore entèpretasyon pou tou de machin ak moun.
Modèl difizyon
GLIDE jenere imaj lè l sèvi avèk pwòp vèsyon ADM la (ADM-G pou "gide"). Modèl ADM-G a se yon modifikasyon nan difizyon U-net modèl la. Yon modèl difizyon U-net diferan dramatikman ak teknik sentèz imaj ki pi komen tankou VAE, GAN, ak transfòmatè.
Yo bati yon chèn Markov nan etap difizyon yo piti piti enjekte bri o aza nan done yo, ak Lè sa a, aprann ranvèse pwosesis la difizyon ak rekonstwi echantiyon done ki nesesè yo soti nan bri a pou kont li. Li opere nan de etap: difizyon pi devan ak ranvèse.
Metòd difizyon pi devan an, yo bay yon pwen done ki soti nan distribisyon vre echantiyon an, ajoute yon ti kantite bri nan echantiyon an sou yon seri etap prereglaj. Kòm etap yo ogmante nan gwosè ak apwoche enfini, echantiyon an pèdi tout karakteristik rekonèt ak sekans lan kòmanse sanble ak yon koub izotwòp Gaussian.
Pandan difizyon an bak faz, modèl difizyon an aprann ranvèse enfliyans bri ki te ajoute sou foto yo epi mennen imaj ki pwodui a tounen nan fòm orijinal li lè li eseye sanble ak distribisyon echantiyon orijinal la.
Yon modèl fini ta ka fè sa ak yon opinyon reyèl bri Gaussian ak yon èd memwa. Metòd ADM-G a varye de youn anvan an nan ke yon modèl, swa CLIP oswa yon transfòmatè Customized, enpak faz nan difizyon bak lè yo anplwaye jeton yo èd memwa tèks ki antre.
Kapasite glise
1. Jenerasyon Imaj
Itilizasyon ki pi popilè ak lajman itilize nan GLIDE pral pwobableman sentèz imaj. Malgre ke foto yo modès ak GLIDE gen difikilte ak fòm bèt / imen, potansyèl la pou pwodiksyon imaj yon sèl-piki se prèske kontinuèl.
Li ka kreye foto bèt, selebrite, peyizaj, bilding, ak plis ankò, epi li ka fè li nan yon varyete de estil atizay kòm byen ke foto-reyalis. Otè chèchè yo di ke GLIDE kapab entèprete ak adapte yon gwo varyete tèks antre nan yon fòma vizyèl, jan yo wè nan echantiyon ki anba yo.
2. Glise inpainting
GLIDE nan otomatik foto enpainting se joui itilizasyon ki pi kaptivan. GLIDE ka pran yon foto ki egziste deja kòm opinyon, trete li ak èd memwa tèks la nan tèt ou pou kote ki bezwen chanje, ak Lè sa a, fè modifikasyon aktif nan pati sa yo ak fasilite.
Li dwe itilize ansanm ak yon modèl koreksyon, tankou SDEdit, pou pwodwi menm pi bon rezilta. Nan tan kap vini an, aplikasyon ki pran avantaj de kapasite tankou sa yo ta ka enpòtan anpil nan devlope apwòch kòd-gratis chanje imaj.
konklizyon
Kounye a ke nou te ale nan pwosesis la, ou ta dwe atrab fondamantal yo nan fason GLIDE travay, osi byen ke lajè kapasite li nan kreyasyon foto ak modifikasyon nan imaj.
Kite yon Reply