INHOUDSOPGAWE[Versteek][Wys]
Die nuwe en verbeterde AI het verbeterde vermoëns, begrip en die kapasiteit om hoër-resolusie beelde te produseer. Jy het dalk onlangs 'n paar vreemde en amusante beelde teëgekom wat op die internet rondsweef.
'n Shiba Inu-hond is geklee in 'n baret en 'n swart tortleneck. En ’n seeotter soos die Nederlandse skilder Vermeer se “Meisie met ’n pêreloorring”. En daar is 'n koppie sop wat soos 'n wollerige monster lyk.
Hierdie beelde is nie deur 'n menslike kunstenaar geskep nie.
In plaas daarvan het DALL-E 2, 'n nuwe KI-stelsel wat tekstuele beskrywings in beelde kan omskep, dit geskep.
Skryf eenvoudig neer wat jy wil sien, en die KI sal dit vir jou skep – in helder detail, uitstekende gehalte en, in sommige gevalle, opregte vindingrykheid. In hierdie pos gaan ons diep kyk na OpenAI se jongste studie, DALL.E 2, asook hoe dit werk, en nog baie meer. Laat ons begin.
Dus, wat presies is DALL.E 2?
DALL-E 2 is 'n "generatiewe model," 'n tipe masjienleeralgoritme wat ingewikkelde uitset genereer eerder as om voorspellings- of klassifikasietake op insetdata uit te voer.
Jy voorsien DALL-E 2 van 'n geskrewe beskrywing, en dit skep 'n prentjie wat daarmee ooreenstem. Deur konsepte, kwaliteite en style te kombineer, kan OpenAI se DALLE 2 innoverende, realistiese grafika en kuns uit 'n basiese linguistiese beskrywing produseer.
Daar word gesê dat die jongste weergawe, DALLE 2, meer veelsydig is, in staat is om prente te maak van onderskrifte teen hoër resolusies en in 'n wyer spektrum van kreatiewe style. Byvoorbeeld, die foto's hieronder (van die DALL-E 2-blogplasing) word geskep deur die beskrywing "'n Ruimtevaarder wat perd ry."
Een beskrywing sluit af, "soos 'n potloodskets", terwyl die ander afsluit, "op 'n fotorealistiese wyse."
Dit kan ook bestaande foto's met verstommende presisie verander. U kan dus elemente byvoeg of uitvee terwyl u kleure, refleksies en skaduwees behou, terwyl u die oorspronklike beeld se voorkoms behou.
Hoe werk dit?
DALL-E 2 maak gebruik van CLIP en diffusie modelle, twee gesofistikeerde diep leer benaderings wat die afgelope jare ontwikkel is. Dit is egter gebaseer op dieselfde idee as alle ander diepgangers neurale netwerke: verteenwoordiging leer. CLIP lei gelyktydig twee op neurale netwerke op prente en byskrifte.
Een netwerk leer die visuele voorstellings in die prent, terwyl die ander die teksvoorstellings leer. Tydens opleiding poog die twee netwerke om hul parameters te wysig sodat vergelykbare prente en beskrywings soortgelyke inbeddings tot gevolg het.
"Diffusie," 'n tipe generatiewe model wat leer om prente te maak deur sy opleidingsmonsters geleidelik te ruis en te versag, is die ander masjienleerbenadering wat in DALL-E 2 gebruik word. Diffusiemodelle is soortgelyk aan outo-enkodeerders deurdat hulle insetdata omskep in 'n inbedding van voorstelling en gebruik dan die inbedding inligting om die oorspronklike data te herskep.
Gebruik OpenAI's taalmodel CLIP, wat teksbeskrywings met foto's kan verbind, vertaal eers die geskrewe aansporing in 'n tussenvorm wat die deurslaggewende eienskappe insluit wat 'n prent moet hê om by daardie aansporing te pas (volgens CLIP).
Tweedens, DALL-E 2 skep 'n CLIP-voldoende beeld met behulp van 'n diffusiemodel, wat 'n neurale netwerk is.
Op verwronge foto's met ewekansige pixels word diffusiemodelle aangeleer. Hulle leer hoe om die foto's se oorspronklike vorm te herstel. Diffusiemodelle kan sintetiese beelde van hoë gehalte produseer, veral wanneer dit gebruik word in samewerking met 'n leidende benadering wat akkuraatheid bo diversiteit prioritiseer.
Die gevolg is dat die diffusie model neem die ewekansige pieksels en gebruik CLIP om dit te omskep in 'n nuwe prent wat by die woordprompt pas. As gevolg van die diffusie-konsep kan DALL-E 2 vinniger beelde met 'n hoër resolusie produseer as DALL-E.
DALL.E 2 gebruik geval
In die afgelope twintig jaar, rekenaarvisie tegnologie het gevorder van 'n eenvoudige idee tot 'n groot deurbraak. Ten spyte van hierdie vooruitgang staar beeld- en voorwerpherkenningsmodelle steeds beduidende struikelblokke in die alledaagse lewe te staan. Die afwesigheid van datastelle is een van die belangrikste nadele van beeldherkenning en rekenaarvisie. Omdat daar 'n datatekort aan beide kante is, is dit amper moeilik om beeldherkenningsmodelle op te lei om 100 persent akkurate resultate te gee.
Gelukkig kan OpenAI se nuwe masjienleermodel die gaping in tegnologie oorbrug. DALLE 2 is in staat om wonderlike prente te genereer gebaseer op teksbeskrywings. Hierdie produksie van vals prente kan data aan beeldherkenningsmodelle verskaf op grond van hul vereistes. Die afwesigheid van data is 'n beduidende struikelblok vir objek- en prentidentifikasie.
In die digitale era is datastelle alomteenwoordig, maar ons soek steeds kortpaaie om die KI-model te voed, sodat dit goeie uitkomste kan bied. Dit is egter nie maklik om 'n beeldherkenningsmodel op te lei nie. Dit noodsaak 'n groot aantal datastelle met min verskille, wat ons dalk nie eenvoudig kon herwin nie.
So, wat is die antwoord: Die antwoord is DALLE 2. Die OpenAI-prentgenerator, met sy vermoë om beelde uit tekste te produseer en bestaandes te verander, kan help om die gaping te oorbrug. Dit sal help met die generering van bykomende opleidingsdata, terwyl dit ook die hoeveelheid menslike etikettering wat benodig word, verminder. Ten spyte van die aansienlike voordeel, moet jy bewus wees van bedrieglike beeldproduksies en beelde wat insluiting uitsluit. Dit kan daartoe lei dat beeldopsporingsmetodes bevooroordeelde resultate lewer.
Beperkings
DALL.E 2 kan wel 'n nadelige invloed hê as dit in die verkeerde hande val, volgens OpenAI. In vandag se wêreld van diep vervalsings, kan die model maklik gebruik word om vals inligting of rassistiese beelde te versprei, en daarom laat OpenAI ontwikkelaars slegs toe om DALL.2 op uitnodiging te gebruik. Die model moet voldoen aan 'n streng inhoudsbeperking vir alle voorstelle wat sy kry.
Om die potensiaal van DALL.E 2 om enige vyandige of gewelddadige prente te skep uit te sluit, is die datastel sonder enige dodelike wapens geskep. Terwyl OpenAI verklaar het dat hy van plan is om dit in die toekoms in 'n API te omskep, in die geval van DALL.E 2, is dit bereid om met omsigtigheid voort te gaan.
Gevolgtrekking
DALL-E 2 is nog 'n interessante OpenAI-navorsingsontdekking wat die deur oopmaak vir nuwe toepassings.
Een voorbeeld is die skep van massiewe datastelle om te voldoen aan een van rekenaarvisie se belangrikste knelpunte – data. Terwyl die ekonomiese saak vir baie DALL-E-gebaseerde toepassings bepaal sal word deur die prys en beleid wat OpenAI vir sy API-gebruikers daarstel, sal hulle almal ongetwyfeld prentproduksie bevorder.
Lewer Kommentaar