DALL.E 2 - Breyttu hugsunum þínum í myndefni með því að nota texta

Efnisyfirlit[Fela][Sýna]

Svo, hvað nákvæmlega er DALL.E 2?
Hvernig virkar það?
DALL.E 2 notkunarhylki
Takmarkanir
Niðurstaða

Nýja og endurbætta gervigreindin hefur bætt hæfileika, skilning og getu til að framleiða myndir í hærri upplausn. Þú gætir hafa rekist á undarlegar og skemmtilegar myndir undanfarið sem svífa um netið.

Shiba Inu hundur er klæddur í berettu og svarta rúllukraga. Og sjóót að hætti hollenska málarans Vermeers „Stúlka með perlueyrnalokk“. Og það er bolli af súpu sem lítur út eins og ullarskrímsli.

þessar myndir voru ekki sköpuð af mannlegum listamanni.

Þess í stað skapaði DALL-E 2, nýtt gervigreindarkerfi sem getur umbreytt textalýsingum í myndir.

Skrifaðu einfaldlega niður það sem þú vilt sjá og gervigreindin mun búa það til fyrir þig - í skærum smáatriðum, frábærum gæðum og, í sumum tilfellum, ósvikinn hugvitssemi. Í þessari færslu munum við skoða nýjustu rannsókn OpenAI, DALL.E 2, ásamt því hvernig hún virkar og margt fleira. Byrjum.

Svo, hvað er nákvæmlega DALL.E 2?

DALL-E 2 er „myndandi líkan,“ tegund vélræns reiknirit sem býr til flókið úttak frekar en að framkvæma spá eða flokkunarverkefni á inntaksgögnum.

Þú gefur DALL-E 2 skriflega lýsingu og það býr til mynd sem samsvarar henni. Með því að sameina hugtök, eiginleika og stíla getur DALLE 2 frá OpenAI framleitt nýstárlega, raunsærri grafík og list út frá grunnmálfræðilegri lýsingu.

Nýjasta útgáfan, DALLE 2, er sögð vera fjölhæfari, fær um að búa til myndir úr myndatexta í hærri upplausn og í breiðari sviðum skapandi stíla. Til dæmis eru myndirnar hér að neðan (úr DALL-E 2 bloggfærslunni) búnar til með lýsingunni „Geimfari á hestbaki“.

Ein lýsingin lýkur, „eins og blýantsskissur,“ en hin lýkur „á ljósraunsæjan hátt.

Geimfari á hestbaki

Það getur líka breytt núverandi ljósmyndum með ótrúlegri nákvæmni. Þannig að þú getur bætt við eða eytt þáttum á meðan þú heldur litum, speglum og skuggum, allt á meðan þú heldur útliti upprunalegu myndarinnar.

Hvernig virkar það?

DALL-E 2 notar CLIP og dreifingarlíkön, tvö háþróuð djúpt nám aðferðir sem þróaðar hafa verið á undanförnum árum. Hins vegar er það byggt á sömu hugmyndum og öll önnur djúp taugakerfi: fulltrúanám. CLIP þjálfar tvo samtímis taugakerfi á myndum og myndatexta.

Annað netið lærir sjónræna framsetninguna á myndinni en hitt lærir textaframsetninguna. Meðan á þjálfun stendur reyna netkerfin tvö að breyta breytum sínum þannig að sambærilegar myndir og lýsingar leiði til svipaðra innfellinga.

„Diffusion“, tegund af kynslóðalíkönum sem lærir að búa til myndir með því að hávaða smám saman og draga úr þjálfunarsýnum sínum, er önnur vélanámsaðferðin sem notuð er í DALL-E 2. Dreifingarlíkön eru svipuð sjálfkóðara að því leyti að þau umbreyta inntaksgögnum í fella inn framsetningu og nota síðan innfellingarupplýsingarnar til að endurskapa upprunalegu gögnin.

DALL.E2 Vinnur

Notaðu OpenAI's tungumálamódel CLIP, sem getur tengt textalýsingar við ljósmyndir, þýðir fyrst skriflega hvetjuna í milliform sem felur í sér þá mikilvægu eiginleika sem mynd ætti að hafa til að passa við þá hvatningu (samkvæmt CLIP).

Í öðru lagi býr DALL-E 2 til CLIP-samhæft mynd með dreifingarlíkani, sem er tauganet.

Á brengluðum myndum með tilviljunarkenndum pixlum eru dreifingarlíkön lærð. Þeir læra hvernig á að endurheimta upprunalega mynd myndanna. Dreifingarlíkön geta framleitt hágæða gervimyndir, sérstaklega þegar þau eru notuð í tengslum við leiðbeinandi nálgun sem setur nákvæmni fram yfir fjölbreytileika.

Sem afleiðing, að dreifingarlíkan tekur handahófskenndu punktana og notar CLIP til að breyta þeim í nýja mynd sem passar við orðatilboðið. Vegna dreifingarhugmyndarinnar getur DALL-E 2 framleitt myndir í hærri upplausn hraðar en DALL-E.

DALL.E 2 notkunarhylki

Á síðustu tuttugu árum, tölva sýn tæknin hefur þróast úr einföldum hugmyndum í stórt bylting. Þrátt fyrir þessar framfarir standa mynd- og hlutþekkingarlíkön enn frammi fyrir verulegum hindrunum í daglegu lífi. Skortur á gagnasöfnum er einn mikilvægasti gallinn við myndgreiningu og tölvusjón. Vegna þess að það er gagnaskortur í báðum endum er næstum erfitt að þjálfa myndgreiningarlíkön til að gefa 100 prósent nákvæmar niðurstöður.

Sem betur fer getur nýtt vélnámslíkan OpenAI brúað bilið í tækninni. DALLE 2 er fær um að búa til ótrúlegar myndir byggðar á textalýsingum. Þessi gervimyndaframleiðsla getur veitt myndgreiningarlíkönum gögn út frá kröfum þeirra. Skortur á gögnum er mikilvægur ásteytingarsteinn fyrir auðkenningu á hlut og mynd.

Á stafrænu tímum eru gagnasöfn alls staðar nálæg, en samt erum við enn að leita að flýtileiðum til að fæða gervigreind líkanið, svo það getur skilað góðum árangri. Hins vegar er ekki einfalt að þjálfa myndgreiningarlíkan. Það krefst mikils fjölda gagnasetta með litlum mun, sem við hefðum kannski ekki getað sótt einfaldlega.

Svo, hvað er svarið: Svarið er DALLE 2. OpenAI myndavélin, með getu sína til að framleiða myndir úr texta og breyta þeim sem fyrir eru, getur hjálpað til við að brúa bilið. Þetta mun hjálpa til við að búa til viðbótarþjálfunargögn á sama tíma og það dregur úr magni merkinga manna sem krafist er. Þrátt fyrir umtalsverðan ávinning ættir þú að vera meðvitaður um sviksamlega myndframleiðslu og myndir sem útiloka innifalið. Þetta gæti leitt til þess að myndgreiningaraðferðir skili hlutdrægum niðurstöðum.

Takmarkanir

DALL.E 2 gæti vel haft skaðleg áhrif ef það fellur í rangar hendur, samkvæmt OpenAI. Í heimi djúpra falsa í dag gæti líkanið auðveldlega verið notað til að dreifa röngum upplýsingum eða kynþáttafordómum og þess vegna leyfir OpenAI forriturum aðeins að nota DALL.2 með boði. Líkanið verður að vera í samræmi við strangar takmarkanir á innihaldi fyrir allar tillögur sem hún fær.

Til að útiloka möguleikann á því að DALL.E 2 myndi skapa fjandsamlegar eða ofbeldisfullar myndir, var gagnasafnið búið til án banvænna vopna. Þó að OpenAI hafi lýst því yfir að það stefni að því að breyta því í API í framtíðinni, í tilviki DALL.E 2, þá er það tilbúið að halda áfram með varúð.

Niðurstaða

DALL-E 2 er önnur áhugaverð OpenAI rannsóknaruppgötvun sem opnar dyrnar að nýjum forritum.

Eitt dæmi er að búa til gríðarstór gagnapakka til að mæta einum helsta flöskuhálsi tölvusjónar – gögn. Þó að efnahagsleg rök fyrir mörg DALL-E-undirstaða öpp verði ákvörðuð af verði og stefnu sem OpenAI setur fyrir API notendur sína, munu þau án efa öll auka myndframleiðslu.

DALL.E 2 - Breyttu hugsunum þínum í myndefni með því að nota texta

Svo, hvað er nákvæmlega DALL.E 2?

Hvernig virkar það?

DALL.E 2 notkunarhylki

Takmarkanir

Niðurstaða

Um okkur Jay

Fleiri greinar um HashDork:

Hvernig á að draga úr ofskynjunum í gervigreind þinni

Colossyan gegn Heygen

Þetta framtíðartæknifréttabréf er ekki sýkt

DALL.E 2 - Breyttu hugsunum þínum í myndefni með því að nota texta

Svo, hvað er nákvæmlega DALL.E 2?

Hvernig virkar það?

DALL.E 2 notkunarhylki

Takmarkanir

Niðurstaða

Um okkur Jay

Fleiri greinar um HashDork:

Hvernig á að draga úr ofskynjunum í gervigreind þinni

10 bestu gervigreindartækin fyrir samfélagsmiðla

Colossyan gegn Heygen

10 bestu gervihnattamyndagerðarverkfærin

lesandi Milliverkanir

Skildu eftir skilaboð Hætta við svar

Þetta framtíðartæknifréttabréf er ekki sýkt