Tato anatin'ny taona vitsivitsy, ny modely fianarana lalina dia nanjary mahomby kokoa amin'ny fahazoana ny fitenin'olombelona.
Eritrereto ny tetikasa toy izany GPT-3, izay afaka mamorona lahatsoratra sy tranokala manontolo ankehitriny. GitHub dia nampiditra vao haingana GitHub Copilot, serivisy manome sombin-kaody manontolo amin'ny famaritana tsotra ny karazana kaody ilainao.
Ny mpikaroka ao amin'ny OpenAI, Facebook, ary Google dia niasa tamin'ny fomba hampiasana fianarana lalina mba hiatrehana asa hafa: fametahana sary. Mampiasa angon-drakitra lehibe misy fidirana an-tapitrisany izy ireo mahagaga vokatra.
Tato ho ato, nanandrana nanao asa mifanohitra amin'izany ireto mpikaroka ireto: mamorona sary avy amin'ny lohateny. Azo atao ve izao ny mamorona sary vaovao tanteraka amin'ny famaritana?
Ity toro-lalana ity dia hijery ny roa amin'ireo maodely an-tsoratra amin'ny sary mandroso indrindra: DALL-E 2 an'ny OpenAI sy Imagen AI an'ny Google. Ny tsirairay amin'ireo tetikasa ireo dia nampiditra fomba fiasa izay mety hanova ny fiarahamonina araka ny fantatsika.
Fa aloha, andeha hojerentsika ny tiana holazaina amin'ny famoronana lahatsoratra amin'ny sary.
Inona no atao hoe famoronana lahatsoratra amin'ny sary?
Modely amin'ny sary mamela ny solosaina hamorona sary vaovao sy miavaka mifototra amin'ny bitsika. Afaka manome famaritana lahatsoratra momba ny sary tian'izy ireo vokarina izao ny olona, ary ny modely dia hiezaka hamorona sary mifanaraka amin'io famaritana io araka izay azo atao.
Ny maodely fianarana milina dia nanararaotra ny fampiasana angon-drakitra lehibe misy sary miaraka amin'ny lohateny mba hanatsarana bebe kokoa ny fampisehoana.
Ny ankamaroan'ny lahatsoratra amin'ny sary Ny modely dia mampiasa modely amin'ny fiteny transformer handika ny bitsika. Ity karazana modely ity dia a ny tambazotran'ny fahasalamana izay miezaka mianatra ny teny manodidina sy ny hevitry ny teny voajanahary.
Manaraka, modely generative toy ny modely diffusion ary ny tambajotra adversarial generative dia ampiasaina amin'ny famoronana sary.
Inona no atao hoe DALLE 2?
DALL-E2 dia maodely solosaina avy amin'ny OpenAI izay navoaka tamin'ny Aprily 2022. Ny maodely dia niofana tamin'ny angon-drakitra misy sary misy marika an-tapitrisany mba hampifandray ireo teny sy andian-teny amin'ny sary.
Ny mpampiasa dia afaka manoratra fehezanteny tsotra, toy ny "saka mihinana lasagna", ary ny DALL-E 2 dia hamokatra ny heviny manokana momba izay ezahan'ilay andian-teny holazaina.
Ankoatra ny famoronana sary avy amin'ny scratch, DALL-E 2 dia afaka manova sary efa misy ihany koa. Ao amin'ny ohatra etsy ambany, DALL-E dia afaka namorona sary novaina amin'ny efitrano misy fandriana fanampiny.
DALL-E 2 dia iray amin'ireo tetikasa mitovy amin'izany navoakan'ny OpenAI tato anatin'ny taona vitsivitsy. Ny GPT-3 an'ny OpenAI dia nanjary mendrika ny vaovao rehefa toa namorona lahatsoratra amin'ny endrika samihafa.
Amin'izao fotoana izao, DALL-E 2 dia mbola ao anatin'ny fitsapana beta. Ireo mpampiasa liana dia afaka misoratra anarana ho azy ireo lisitra fiandrasana ary miandry ny fidirana.
Ahoana no hiasa?
Na dia mahavariana aza ny valin'ny DALL-E 2, dia mety hanontany tena ianao hoe ahoana no fiasan'izy rehetra.
DALL-E 2 dia ohatra iray amin'ny fampiharana multimodal ny tetikasa GPT-3 OpenAI.
Voalohany, apetraka ao anaty encoder lahatsoratra ny bitsika an'ny mpampiasa izay mametraka ny bitsika amin'ny habaka fanehoana. DALL-E 2 dia mampiasa modely OpenAI hafa antsoina hoe CLIP (Contrastive Language-Image Pre-Training) mba hahazoana fampahalalana semantika avy amin'ny fiteny voajanahary.
Manaraka, modely fantatra amin'ny anarana hoe ny mialoha sarintany ny fandrakofana lahatsoratra ho fandiovana sary. Ity fakan-tsary ity dia tokony haka ny fampahafantarana semantika hita ao amin'ny dingana fanovàna lahatsoratra.
Mba hamoronana ny tena sary, DALL-E 2 dia mampiasa decoder sary mba hamoronana sary amin'ny fampiasana fampahalalana semantika sy antsipiriany momba ny fanodinana sary. OpenAI dia mampiasa dikan-teny novaina amin'ny manidina modely hanaovana famoronana sary. GLIDE dia miankina amin'ny a modely diffusion hamorona sary.
Ny fampidirana GLIDE amin'ny maodely DALL-E 2 dia nahafahana namoaka sary azo tsapain-tanana kokoa. Satria ny maodely GLIDE dia stochastic na voafaritra kisendrasendra, ny maodely DALL-E 2 dia afaka mamorona fiovaovana mora foana amin'ny alàlan'ny fampandehanana ilay modely hatrany hatrany.
fetra
Na dia eo aza ny vokatra mahavariana amin'ny modely DALL-E 2, dia mbola misy fetrany ihany.
Tsipelina soratra
Ny fampandrenesana izay manandrana manamboatra lahatsoratra DALL-E 2 dia manambara fa sarotra ny manoratra teny. Mihevitra ny manam-pahaizana fa mety ho noho ny tsy fisian'ny fampahalalana tsipelina ao anatin'ny angon-drakitra fanofanana.
Fanjohian-kevitra
Ny mpikaroka dia mahita fa ny DALL-E 2 dia mbola manana olana amin'ny fanjohian-kevitra. Raha tsorina, ny modely dia afaka mahatakatra ny lafiny tsirairay amin'ny sary iray nefa mbola sahirana amin'ny famaritana ny fifandraisana misy eo amin'ireo lafiny ireo.
Ohatra, raha omena ny bitsika hoe "cube mena eo an-tampon'ny goba manga", DALL-E dia hamokatra goba manga sy goba mena amin'ny fomba marina fa tsy mametraka azy ireo tsara. Ny modely koa dia voamarika fa manana olana amin'ny bitsika izay mitaky zavatra voafaritra manokana havoaka.
Hiverina any amin'ny bias
Raha tsy misy pitsopitsony hafa ilay bitsika, dia voamarika fa mampiseho olona fotsy na tandrefana sy tontolo iainana ny DALL-E. Ity fitongilanana fanehoana ity dia mitranga noho ny habetsahan'ny sary mivondrona tandrefana amin'ny angona.
Ny modely koa dia voamarika hanaraka ny stereotypes momba ny lahy sy ny vavy. Ohatra, ny fanoratana ny "mpanao sidina" haingana dia miteraka sarin'ny vehivavy mpikarakara sidina.
Inona ny Google Imagen AI?
Google Imagen AI dia maodely mikendry ny hamorona sary photorealistic avy amin'ny lahatsoratra fampidirana. Mitovy amin'ny DALL-E, ny maodely dia mampiasa modely amin'ny fiteny mpanova mba hahatakarana ny lahatsoratra ary miankina amin'ny fampiasana modely fanaparitahana mba hamoronana sary avo lenta.
Miaraka amin'ny Imagen, Google dia namoaka benchmark ho an'ny maodely lahatsoratra-to-sary antsoina hoe DrawBench. Tamin'ny fampiasana DrawBench, dia afaka nahita izy ireo fa ny mpandinika olombelona dia naniry ny vokatra Imagen noho ny modely hafa anisan'izany ny DALL-E 2.
Ahoana no hiasa?
Mitovy amin'ny DALL-E, Imagen dia mamadika voalohany ny bitsiky ny mpampiasa ho lasa lahatsoratra amin'ny alàlan'ny encoder lahatsoratra mangatsiaka.
Imagen dia mampiasa modely fanaparitahana izay mianatra ny fomba hamadihana ny endriky ny tabataba ho sary. Ny vokatra voalohany amin'ireo sary ireo dia famaha ambany ary avy eo dia mandalo amin'ny modely hafa fantatra amin'ny hoe maodely diffusion super-resolution mba hampitomboana ny famaha ny sary farany. Ny modely fanaparitahana voalohany dia mamoaka sary 64×64 piksel ary avy eo mitsoka ho sary 1024×1024 avo lenta.
Mifototra amin'ny fikarohana nataon'ny ekipan'ny Imagen, ny maodely fiteny mangatsiaka be voaofana amin'ny angon-drakitra an-tsoratra fotsiny dia mbola mpanadika lahatsoratra tena mandaitra ho an'ny famoronana lahatsoratra amin'ny sary.
Ny fianarana koa dia mampiditra ny foto-kevitry ny tokonam-baravarana dynamique. Ity fomba ity dia ahafahan'ny sary miseho kokoa amin'ny fotorealista amin'ny alàlan'ny fampitomboana ny lanjan'ny fitarihana rehefa mamorona ny sary.
Fampisehoana ny DALLE 2 vs Imagen
Ny valiny savaranonando avy amin'ny mari-pamantarana Google dia mampiseho fa aleon'ny olona mamaly ny sary novokarin'ny Imagen noho ny DALL-E 2 sy ny maodely lahatsoratra amin'ny sary toy ny Latent Diffusion sy VQGAN+CLIP.
Ny vokatra avy amin'ny ekipan'ny Imagen dia naneho ihany koa fa ny maodelin'izy ireo dia mahavita tsara kokoa amin'ny tsipelina lahatsoratra, fahalemena fantatra amin'ny modely DALL-E 2.
Na izany aza, satria tsy mbola namoaka ny maodely ho an'ny daholobe i Google, dia mbola ho hita eo ny fahamarinan'ny mari-pamantarana Google.
Famaranana
Ny fiakaran'ny modely amin'ny sary amin'ny sary dia mampiady hevitra satria efa masaka ho an'ny fampiasana tsy ara-dalàna ireo modely ireo.
Ny teknolojia dia mety hitarika amin'ny famoronana votoaty mibaribary na ho fitaovana fanararaotana. Fantatry ny mpikaroka avy amin'ny Google sy OpenAI izany, ka izay no antony tsy ahafahan'ny rehetra miditra amin'ireo teknolojia ireo.
Misy fiantraikany ara-toekarena lehibe ihany koa ny maodely text-to-image. Moa ve hisy fiantraikany amin'ny asa toy ny modely, mpaka sary ary mpanakanto raha lasa mahazatra ny maodely toy ny DALL-E?
Amin'izao fotoana izao dia mbola manana fetra ireo modely ireo. Ny fitazonana sary vokarin'ny AI hojerena dia hampiseho ny tsy fahatanterahany. Miaraka amin'ny OpenAI sy Google izay mifaninana amin'ny modely mahomby indrindra, dia mety ho elaela vao hisy vokatra tena tonga lafatra: sary tsy azo avahana amin'ny tena izy.
Inona araka ny eritreritrao no hitranga rehefa lasa lavitra ny teknolojia?
Leave a Reply