Table of Contents[Ferstopje][Toanje]
De nije en ferbettere AI hat ferbettere kapasiteiten, begryp en de kapasiteit om ôfbyldings mei hegere resolúsje te produsearjen. Jo hawwe miskien de lêste tiid wat frjemde en amusante ôfbyldings tsjinkommen dy't op it ynternet sweve.
In Shiba Inu hûn is klaaid yn in baret en in swarte turtleneck. En in seeotter op 'e wize fan 'Meisje met een pareloorring' fan 'e Nederlânske skilder Vermeer. En d'r is in kopke sop dy't liket op in wollen meunster.
Dizze bylden waarden net makke troch in minsklike keunstner.
Ynstee dêrfan makke DALL-E 2, in nij AI-systeem dat tekstuele beskriuwingen kin omsette yn ôfbyldings.
Skriuw gewoan op wat jo wolle sjen, en de AI sil it foar jo meitsje - yn libbendich detail, geweldige kwaliteit, en, yn guon gefallen, echte ynventiviteit. Yn dizze post sille wy in djippe blik nimme op de lêste stúdzje fan OpenAI, DALL.E 2, lykas hoe't it wurket, en folle mear. Litte wy begjinne.
Dat, wat is krekt? DALL.E 2?
DALL-E 2 is in "generatyf model", in soarte fan masine learen algoritme dat genereart yngewikkelde útfier ynstee fan it útfieren fan foarsizzing of klassifikaasje taken op ynfier gegevens.
Jo jouwe DALL-E 2 mei in skriftlike beskriuwing, en it makket in byld dat oerienkomt mei it. Troch konsepten, kwaliteiten en stilen te kombinearjen, kin OpenAI's DALLE 2 ynnovative, realistyske grafiken en keunst produsearje út in basale taalkundige beskriuwing.
De lêste ferzje, DALLE 2, wurdt sein mear alsidich, by steat fan in make foto út ûndertiteling op hegere resolúsjes en yn in breder spektrum fan kreative stilen. Bygelyks, de foto's hjirûnder (fan 'e DALL-E 2 blogpost) wurde makke troch de beskriuwing "In astronaut dy't in hynder ride."
Ien beskriuwing konkludearret, "as in potleadskets," wylst de oare konkludearret, "op in fotorealistyske manier."
It kin ek besteande foto's feroarje mei ferrassende presyzje. Dat, jo kinne eleminten tafoegje of wiskje wylst jo kleuren, refleksjes en skaden hâlde, alles wylst jo it uterlik fan 'e orizjinele ôfbylding behâlde.
Hoe wurket it?
DALL-E 2 makket gebrûk fan CLIP en diffusion modellen, twa ferfine djip learen oanpak ûntwikkele yn de lêste jierren. It is lykwols basearre op itselde begryp as alle oare djipte neurale netwurken: fertsjintwurdiging learen. CLIP traint tagelyk twa neurale netwurken op foto's en byskriften.
It iene netwurk leart de fisuele foarstellings yn 'e foto, wylst it oare de tekstfoarstellings leart. Tidens training besykje de twa netwurken har parameters te feroarjen sadat fergelykbere ôfbyldings en beskriuwingen resultearje yn ferlykbere ynbêdingen.
"Diffusion", in soarte fan generatyf model dat leart foto's te meitsjen troch har trainingsmonsters stadichoan te lûdjen en te ferneatigjen, is de oare oanpak fan masine-learen dy't brûkt wurdt yn DALL-E 2. Diffusionsmodellen binne fergelykber mei autoencoders yn dat se ynfiergegevens transformearje yn in ynbêde fertsjintwurdiging en brûk dan de ynbêde ynformaasje om de orizjinele gegevens opnij oan te meitsjen.
Mei help fan OpenAI's taalmodel CLIP, dy't tekstuele beskriuwingen ferbine kin mei foto's, it fertaalt earst de skreaune prompt yn in tuskenfoarm dy't de krúsjale eigenskippen omfettet dy't in foto moatte hawwe om by dy prompt te passen (neffens CLIP).
Twadder makket DALL-E 2 in CLIP-kompatibel ôfbylding mei help fan in diffusion model, dat is in neural netwurk.
Op ferfoarme foto's mei willekeurige piksels wurde diffusiemodellen leard. Se leare hoe't se de oarspronklike foarm fan 'e foto's weromsette kinne. Diffusjonsmodellen kinne syntetyske ôfbyldings fan hege kwaliteit produsearje, foaral as se brûkt wurde yn kombinaasje mei in liedende oanpak dy't de krektens prioriteart boppe ferskaat.
As gefolch, de diffusion model nimt de willekeurige piksels en brûkt CLIP om se te konvertearjen yn in nije ôfbylding dy't oerienkomt mei de wurdprompt. Fanwegen de diffusion konsept kin DALL-E 2 produsearje hegere resolúsje ôfbyldings flugger as DALL-E.
DALL.E 2 gebrûk gefal
Yn de lêste tweintich jier, kompjûterfisy technology is foarútgong fan in ienfâldich begryp nei in grutte trochbraak. Nettsjinsteande dizze foarútgong steane modellen foar foto- en objektherkenning noch altyd foar wichtige obstakels yn it deistich libben. It ûntbrekken fan datasets is ien fan 'e wichtichste neidielen fan byldherkenning en kompjûterfisy. Om't d'r in gegevenstekoart is oan beide úteinen, is it oplieden fan ôfbyldingsherkenningsmodellen om 100 prosint krekte resultaten te jaan hast lestich.
Gelokkich kin it nije masine-learmodel fan OpenAI it gat yn technology oerbrêgje. DALLE 2 is by steat fan it generearjen fan geweldige foto's basearre op tekstbeskriuwings. Dizze falske fotoproduksje kin gegevens leverje oan modellen foar ôfbyldingsherkenning basearre op har easken. It ûntbrekken fan gegevens is in wichtich stroffelblok foar objekt- en byldidentifikaasje.
Yn it digitale tiidrek binne datasetten ubiquitêr, dochs sykje wy noch nei fluchtoetsen om it AI-model te fieden, sadat it goede resultaten kin leverje. It is lykwols net ienfâldich om in ôfbyldingsherkenningsmodel te trenen. It fereasket in grut oantal datasets mei lytse ferskillen, dy't wy miskien net gewoan kinne weromhelje.
Dus, wat is it antwurd: It antwurd is DALLE 2. De OpenAI-ôfbyldingsgenerator, mei syn fermogen om ôfbyldings te produsearjen fan teksten en besteande te feroarjen, kin helpe om it gat te oerbrêgjen. Dit sil helpe by it generearjen fan oanfoljende trainingsgegevens, wylst ek de hoemannichte fereaske minsklike etikettering ferminderje. Nettsjinsteande it wichtige foardiel, moatte jo bewust wêze fan frauduleuze ôfbyldingsproduksjes en ôfbyldings dy't ynklúzje útslute. Dit kin liede ta ôfbyldingsdeteksjemetoaden dy't biased resultaten produsearje.
beheinings
DALL.E 2 kin goed hawwe in skealike ynfloed as it falt yn 'e ferkearde hannen, ifolge OpenAI. Yn 'e hjoeddeiske wrâld fan djippe fakes koe it model maklik brûkt wurde om falske ynformaasje of rasistyske bylden te fersprieden, dat is wêrom OpenAI allinich ûntwikkelders tastean om DALL.2 te brûken op útnoeging. It model moat foldwaan oan in strang ynhâld beheining foar alle suggestjes sy krijt.
Om it potensjeel fan DALL.E 2 út te sluten, it meitsjen fan fijannige of gewelddiedige foto's, waard de dataset makke sûnder deadlik wapen. Wylst OpenAI hat oanjûn dat it fan plan is om it yn 'e takomst te transformearjen yn in API, yn it gefal fan DALL.E 2, is it ree om mei foarsichtigens troch te gean.
Konklúzje
DALL-E 2 is in oare ynteressante ûntdekking fan OpenAI-ûndersyk dy't de doar iepenet foar nije applikaasjes.
Ien foarbyld is it meitsjen fan massive datasets om te foldwaan oan ien fan 'e wichtichste knyppunten fan kompjûterfisy - gegevens. Wylst it ekonomyske gefal foar in protte DALL-E-basearre apps sil wurde bepaald troch de priis en belied dat OpenAI fêststelt foar har API-brûkers, sille se allegear sûnder mis de fotoproduksje foarútgean.
Leave a Reply