Ang bag-o ug gipaayo nga AI nakapauswag sa mga abilidad, pagsabot, ug kapasidad sa paghimo og mas taas nga resolusyon nga mga hulagway. Tingali bag-o lang nakit-an nimo ang pipila ka katingad-an ug makalingaw nga mga imahe nga naglutaw sa internet.
Usa ka Shiba Inu nga iro nagsul-ob og beret ug itom nga turtleneck. Ug usa ka sea otter sa paagi sa Dutch nga pintor nga si Vermeer nga "Girl with a Pearl Earring." Ug adunay usa ka tasa sa sabaw nga morag balhiboon nga mananap.
Kini nga mga hulagway wala gilalang sa usa ka tawo nga artist.
Hinuon, ang DALL-E 2, usa ka bag-ong sistema sa AI nga makahimo sa pag-convert sa mga deskripsyon sa teksto ngadto sa mga imahe, naghimo niini.
Isulat lang kung unsa ang gusto nimo nga makita, ug ang AI maghimo niini alang kanimo - sa tin-aw nga detalye, maayo nga kalidad, ug, sa pipila ka mga kaso, tinuod nga pagka-imbento. Sa kini nga post, atong susihon pag-ayo ang pinakabag-o nga pagtuon sa OpenAI, DALL.E 2, ingon man kung giunsa kini paglihok, ug daghan pa. Magsugod na ta.
Mao na, unsa gyud DALL.E 2?
Ang DALL-E 2 usa ka "generative model," usa ka matang sa machine learning algorithm nga nagpatunghag komplikadong output kay sa paghimo sa mga buluhaton sa prediksyon o klasipikasyon sa input data.
Gihatagan nimo ang DALL-E 2 og sinulat nga paghulagway, ug nagmugna kini og hulagway nga katumbas niini. Pinaagi sa paghiusa sa mga konsepto, kalidad, ug estilo, ang DALLE 2 sa OpenAI makahimo og mga bag-o, realistiko nga mga graphic ug art gikan sa usa ka batakang deskripsyon sa pinulongan.
Ang pinakabag-o nga bersyon, DALLE 2, giingon nga mas versatile, makahimo sa paghimo og mga hulagway gikan sa mga caption sa mas taas nga mga resolusyon ug sa mas lapad nga spectrum sa creative styles. Pananglitan, ang mga hulagway sa ubos (gikan sa DALL-E 2 blog post) gihimo pinaagi sa paghulagway nga "Usa ka astronaut nga nagsakay sa kabayo."
Ang usa ka deskripsyon naghinapos, "sama sa usa ka sketch sa lapis," samtang ang lain naghinapos, "sa usa ka photorealistic nga paagi."
Mahimo usab kini nga usbon ang kasamtangan nga mga litrato nga adunay katingad-an nga katukma. Busa, mahimo nimong idugang o tangtangon ang mga elemento samtang gitipigan ang mga kolor, pamalandong, ug anino, tanan samtang gipadayon ang hitsura sa orihinal nga imahe.
Unsang paagi kini sa trabaho?
Ang DALL-E 2 naggamit sa CLIP ug diffusion nga mga modelo, duha ka sopistikado lawom nga pagkat-on mga pamaagi nga naugmad sa bag-ohay nga mga tuig. Bisan pa, gibase kini sa parehas nga ideya sama sa tanan nga lawom Mga neural network: pagkat-on sa representasyon. Ang CLIP dungan nga nagbansay sa duha neural networks sa mga hulagway ug mga caption.
Ang usa ka network nakakat-on sa biswal nga mga representasyon sa hulagway, samtang ang usa nakakat-on sa mga representasyon sa teksto. Atol sa pagbansay, ang duha ka network misulay sa pag-usab sa ilang mga parametro aron ang ikatandi nga mga hulagway ug mga deskripsyon moresulta sa susamang mga embeddings.
Ang "pagsabwag," usa ka matang sa generative model nga nakakat-on sa paghimo og mga hulagway pinaagi sa anam-anam nga pagsaba-saba ug pag-denoising sa mga sampol sa pagbansay niini, mao ang laing pamaagi sa pagkat-on sa makina nga gigamit sa DALL-E 2. Ang mga modelo sa diffusion susama sa mga autoencoders tungod kay ilang giusab ang input data ngadto sa usa ka pag-embed sa representasyon ug dayon gamita ang impormasyon sa pag-embed aron paghimo pag-usab sa orihinal nga datos.
Paggamit sa OpenAI's modelo sa pinulongan Ang CLIP, nga makakonektar sa mga deskripsyon sa teksto sa mga litrato, una nga gihubad niini ang sinulat nga prompt ngadto sa usa ka intermediate nga porma nga naglakip sa mahinungdanong mga kabtangan nga kinahanglan nga ang usa ka hulagway mohaum sa maong prompt (sumala sa CLIP).
Ikaduha, ang DALL-E 2 nagmugna og CLIP-compliant hulagway gamit ang diffusion model, nga usa ka neural network.
Sa gituis nga mga litrato nga adunay random nga mga pixel, ang mga modelo sa pagsabwag nahibal-an. Nakakat-on sila unsaon pag-uli sa orihinal nga porma sa mga litrato. Ang mga modelo sa pagsabwag makahimo og taas nga kalidad nga sintetikong mga hulagway, ilabi na kung gigamit kauban ang usa ka giya nga pamaagi nga nag-una sa katukma kaysa pagkalainlain.
Ingon usa ka sangputanan, ang modelo sa pagsabwag Gikuha ang random pixels ug gigamit ang CLIP aron mabag-o kini nga bag-ong imahe nga mohaum sa pulong nga prompt. Tungod sa konsepto sa pagsabwag, ang DALL-E 2 makahimo og mas taas nga resolusyon nga mga hulagway nga mas paspas kay sa DALL-E.
DALL.E 2 nga kaso sa paggamit
Sa miaging baynte ka tuig, computer vision Ang teknolohiya nag-uswag gikan sa usa ka yano nga ideya ngadto sa usa ka dakong kalampusan. Bisan pa niini nga mga pag-uswag, ang mga modelo sa pag-ila sa hulagway ug butang nag-atubang gihapon ug dagkong mga babag sa matag adlaw nga kinabuhi. Ang pagkawala sa mga dataset mao ang usa sa labing mahinungdanon nga mga disbentaha sa pag-ila sa imahe ug panglantaw sa kompyuter. Tungod kay adunay kakulang sa datos sa duha ka tumoy, ang pagbansay sa mga modelo sa pag-ila sa imahe aron mahatagan ang 100 porsyento nga tukma nga mga resulta hapit lisud.
Maayo na lang, ang bag-ong modelo sa pagkat-on sa makina sa OpenAI mahimong madugtong ang gintang sa teknolohiya. Ang DALLE 2 makahimo sa paghimo og mga katingalahang mga hulagway base sa mga deskripsyon sa teksto. Kining peke nga produksyon sa hulagway makahatag ug datos sa mga modelo sa pag-ila sa imahe base sa ilang mga kinahanglanon. Ang pagkawala sa datos usa ka hinungdanon nga babag alang sa pag-ila sa butang ug litrato.
Sa digital nga panahon, ang mga dataset kay ubiquitous, pero nangita gihapon mi og mga shortcut para mapakaon ang AI model, para makahatag kini og maayong resulta. Bisan pa, dili yano ang pagbansay sa usa ka modelo sa pag-ila sa imahe. Nagkinahanglan kini og daghang gidaghanon sa mga set sa datos nga adunay gamay nga mga kalainan, nga dili unta nato makuha nga yano.
Busa, unsa ang tubag: Ang tubag mao ang DALLE 2. Ang OpenAI picture generator, uban ang kapasidad niini sa pagprodyus og mga hulagway gikan sa mga teksto ug pag-usab sa mga anaa na, makatabang sa pagsumpay sa gintang. Makatabang kini sa paghimo og dugang nga datos sa pagbansay samtang gipakunhod usab ang gidaghanon sa gikinahanglan nga pag-label sa tawo. Bisan pa sa mahinungdanon nga kaayohan, kinahanglan nga imong mahibal-an ang mga malimbungon nga mga paggama sa imahe ug mga imahe nga wala iapil. Mahimong mosangput kini sa mga pamaagi sa pag-ila sa imahe nga nagpatunghag mga bias nga resulta.
limitasyon
Ang DALL.E 2 mahimong adunay makadaot nga impluwensya kung kini mahulog sa sayup nga mga kamot, sumala sa OpenAI. Sa karon nga kalibutan sa lawom nga mga peke, ang modelo dali nga magamit aron ipakaylap ang sayup nga kasayuran o rasista nga imahe, mao nga gitugotan sa OpenAI ang mga developer nga magamit ang DALL.2 pinaagi sa pagdapit. Ang modelo kinahanglan nga motuman sa usa ka higpit nga pagdili sa sulud alang sa tanan nga mga sugyot nga iyang makuha.
Aron dili iapil ang potensyal sa DALL.E 2 nga nagmugna sa bisan unsang kontra o bayolenteng mga hulagway, ang dataset gihimo nga walay bisan unsang makamatay nga hinagiban. Samtang gipahayag sa OpenAI nga nagplano kini nga usbon kini nga usa ka API sa umaabot, sa kaso sa DALL.E 2, andam kini nga magpadayon uban ang pag-amping.
Panapos
Ang DALL-E 2 usa pa ka makapaikag nga pagdiskobre sa panukiduki sa OpenAI nga nagbukas sa pultahan sa mga bag-ong aplikasyon.
Usa ka pananglitan mao ang paghimo og daghang mga dataset aron matubag ang usa sa mga nag-unang bottleneck sa computer vision–data. Samtang ang kaso sa ekonomiya alang sa daghang DALL-E-based nga mga app matino sa presyo ug mga palisiya nga gitukod sa OpenAI alang sa mga tiggamit niini sa API, silang tanan sa walay duhaduha mag-uswag sa produksyon sa hulagway.
Leave sa usa ka Reply