Efnisyfirlit[Fela][Sýna]
Nýja og endurbætta gervigreindin hefur bætt hæfileika, skilning og getu til að framleiða myndir í hærri upplausn. Þú gætir hafa rekist á undarlegar og skemmtilegar myndir undanfarið sem svífa um netið.
Shiba Inu hundur er klæddur í berettu og svarta rúllukraga. Og sjóót að hætti hollenska málarans Vermeers „Stúlka með perlueyrnalokk“. Og það er bolli af súpu sem lítur út eins og ullarskrímsli.
þessar myndir voru ekki sköpuð af mannlegum listamanni.
Þess í stað skapaði DALL-E 2, nýtt gervigreindarkerfi sem getur umbreytt textalýsingum í myndir.
Skrifaðu einfaldlega niður það sem þú vilt sjá og gervigreindin mun búa það til fyrir þig - í skærum smáatriðum, frábærum gæðum og, í sumum tilfellum, ósvikinn hugvitssemi. Í þessari færslu munum við skoða nýjustu rannsókn OpenAI, DALL.E 2, ásamt því hvernig hún virkar og margt fleira. Byrjum.
Svo, hvað er nákvæmlega DALL.E 2?
DALL-E 2 er „myndandi líkan,“ tegund vélræns reiknirit sem býr til flókið úttak frekar en að framkvæma spá eða flokkunarverkefni á inntaksgögnum.
Þú gefur DALL-E 2 skriflega lýsingu og það býr til mynd sem samsvarar henni. Með því að sameina hugtök, eiginleika og stíla getur DALLE 2 frá OpenAI framleitt nýstárlega, raunsærri grafík og list út frá grunnmálfræðilegri lýsingu.
Nýjasta útgáfan, DALLE 2, er sögð vera fjölhæfari, fær um að búa til myndir úr myndatexta í hærri upplausn og í breiðari sviðum skapandi stíla. Til dæmis eru myndirnar hér að neðan (úr DALL-E 2 bloggfærslunni) búnar til með lýsingunni „Geimfari á hestbaki“.
Ein lýsingin lýkur, „eins og blýantsskissur,“ en hin lýkur „á ljósraunsæjan hátt.
Það getur líka breytt núverandi ljósmyndum með ótrúlegri nákvæmni. Þannig að þú getur bætt við eða eytt þáttum á meðan þú heldur litum, speglum og skuggum, allt á meðan þú heldur útliti upprunalegu myndarinnar.
Hvernig virkar það?
DALL-E 2 notar CLIP og dreifingarlíkön, tvö háþróuð djúpt nám aðferðir sem þróaðar hafa verið á undanförnum árum. Hins vegar er það byggt á sömu hugmyndum og öll önnur djúp taugakerfi: fulltrúanám. CLIP þjálfar tvo samtímis taugakerfi á myndum og myndatexta.
Annað netið lærir sjónræna framsetninguna á myndinni en hitt lærir textaframsetninguna. Meðan á þjálfun stendur reyna netkerfin tvö að breyta breytum sínum þannig að sambærilegar myndir og lýsingar leiði til svipaðra innfellinga.
„Diffusion“, tegund af kynslóðalíkönum sem lærir að búa til myndir með því að hávaða smám saman og draga úr þjálfunarsýnum sínum, er önnur vélanámsaðferðin sem notuð er í DALL-E 2. Dreifingarlíkön eru svipuð sjálfkóðara að því leyti að þau umbreyta inntaksgögnum í fella inn framsetningu og nota síðan innfellingarupplýsingarnar til að endurskapa upprunalegu gögnin.
Notaðu OpenAI's tungumálamódel CLIP, sem getur tengt textalýsingar við ljósmyndir, þýðir fyrst skriflega hvetjuna í milliform sem felur í sér þá mikilvægu eiginleika sem mynd ætti að hafa til að passa við þá hvatningu (samkvæmt CLIP).
Í öðru lagi býr DALL-E 2 til CLIP-samhæft mynd með dreifingarlíkani, sem er tauganet.
Á brengluðum myndum með tilviljunarkenndum pixlum eru dreifingarlíkön lærð. Þeir læra hvernig á að endurheimta upprunalega mynd myndanna. Dreifingarlíkön geta framleitt hágæða gervimyndir, sérstaklega þegar þau eru notuð í tengslum við leiðbeinandi nálgun sem setur nákvæmni fram yfir fjölbreytileika.
Sem afleiðing, að dreifingarlíkan tekur handahófskenndu punktana og notar CLIP til að breyta þeim í nýja mynd sem passar við orðatilboðið. Vegna dreifingarhugmyndarinnar getur DALL-E 2 framleitt myndir í hærri upplausn hraðar en DALL-E.
DALL.E 2 notkunarhylki
Á síðustu tuttugu árum, tölva sýn tæknin hefur þróast úr einföldum hugmyndum í stórt bylting. Þrátt fyrir þessar framfarir standa mynd- og hlutþekkingarlíkön enn frammi fyrir verulegum hindrunum í daglegu lífi. Skortur á gagnasöfnum er einn mikilvægasti gallinn við myndgreiningu og tölvusjón. Vegna þess að það er gagnaskortur í báðum endum er næstum erfitt að þjálfa myndgreiningarlíkön til að gefa 100 prósent nákvæmar niðurstöður.
Sem betur fer getur nýtt vélnámslíkan OpenAI brúað bilið í tækninni. DALLE 2 er fær um að búa til ótrúlegar myndir byggðar á textalýsingum. Þessi gervimyndaframleiðsla getur veitt myndgreiningarlíkönum gögn út frá kröfum þeirra. Skortur á gögnum er mikilvægur ásteytingarsteinn fyrir auðkenningu á hlut og mynd.
Á stafrænu tímum eru gagnasöfn alls staðar nálæg, en samt erum við enn að leita að flýtileiðum til að fæða gervigreind líkanið, svo það getur skilað góðum árangri. Hins vegar er ekki einfalt að þjálfa myndgreiningarlíkan. Það krefst mikils fjölda gagnasetta með litlum mun, sem við hefðum kannski ekki getað sótt einfaldlega.
Svo, hvað er svarið: Svarið er DALLE 2. OpenAI myndavélin, með getu sína til að framleiða myndir úr texta og breyta þeim sem fyrir eru, getur hjálpað til við að brúa bilið. Þetta mun hjálpa til við að búa til viðbótarþjálfunargögn á sama tíma og það dregur úr magni merkinga manna sem krafist er. Þrátt fyrir umtalsverðan ávinning ættir þú að vera meðvitaður um sviksamlega myndframleiðslu og myndir sem útiloka innifalið. Þetta gæti leitt til þess að myndgreiningaraðferðir skili hlutdrægum niðurstöðum.
Takmarkanir
DALL.E 2 gæti vel haft skaðleg áhrif ef það fellur í rangar hendur, samkvæmt OpenAI. Í heimi djúpra falsa í dag gæti líkanið auðveldlega verið notað til að dreifa röngum upplýsingum eða kynþáttafordómum og þess vegna leyfir OpenAI forriturum aðeins að nota DALL.2 með boði. Líkanið verður að vera í samræmi við strangar takmarkanir á innihaldi fyrir allar tillögur sem hún fær.
Til að útiloka möguleikann á því að DALL.E 2 myndi skapa fjandsamlegar eða ofbeldisfullar myndir, var gagnasafnið búið til án banvænna vopna. Þó að OpenAI hafi lýst því yfir að það stefni að því að breyta því í API í framtíðinni, í tilviki DALL.E 2, þá er það tilbúið að halda áfram með varúð.
Niðurstaða
DALL-E 2 er önnur áhugaverð OpenAI rannsóknaruppgötvun sem opnar dyrnar að nýjum forritum.
Eitt dæmi er að búa til gríðarstór gagnapakka til að mæta einum helsta flöskuhálsi tölvusjónar – gögn. Þó að efnahagsleg rök fyrir mörg DALL-E-undirstaða öpp verði ákvörðuð af verði og stefnu sem OpenAI setur fyrir API notendur sína, munu þau án efa öll auka myndframleiðslu.
Skildu eftir skilaboð