Orodha ya Yaliyomo[Ficha][Onyesha]
AI mpya na iliyoboreshwa imeboresha uwezo, ufahamu, na uwezo wa kutoa picha zenye msongo wa juu. Huenda hivi majuzi umekutana na picha za kushangaza na za kufurahisha zinazoelea kwenye mtandao.
Mbwa wa Shiba Inu amevaa bereti na turtleneck nyeusi. Na otter wa baharini kwa njia ya mchoraji wa Uholanzi Vermeer "Msichana Mwenye Pete ya Lulu." Na kuna kikombe cha supu ambacho kinaonekana kama mnyama wa manyoya.
picha hizi hazikuundwa na msanii wa kibinadamu.
Badala yake, DALL-E 2, mfumo mpya wa AI ambao unaweza kubadilisha maelezo ya maandishi kuwa picha, uliunda.
Andika tu kile unachotaka kuona, na AI itakutengenezea - kwa undani wazi, ubora mzuri, na, katika hali nyingine, uvumbuzi wa kweli. Katika chapisho hili, tutaangalia kwa kina utafiti wa hivi punde zaidi wa OpenAI, DALL.E 2, na jinsi inavyofanya kazi, na mengi zaidi. Tuanze.
Kwa hivyo, ni nini haswa DALL.E 2?
DALL-E 2 ni "muundo wa kuzalisha," aina ya algoriti ya kujifunza kwa mashine ambayo hutoa matokeo changamano badala ya kutekeleza majukumu ya kutabiri au kuainisha kwenye data ya ingizo.
Unatoa DALL-E 2 na maelezo yaliyoandikwa, na inaunda picha inayolingana nayo. Kwa kuchanganya dhana, sifa, na mitindo, DALLE 2 ya OpenAI inaweza kutoa michoro na sanaa bunifu, halisi kutoka kwa maelezo ya kimsingi ya lugha.
Toleo la hivi punde, DALLE 2, linasemekana kuwa na matumizi mengi zaidi, lenye uwezo wa kutengeneza picha kutoka kwa manukuu katika ubora wa juu na katika wigo mpana wa mitindo ya ubunifu. Kwa mfano, picha zilizo hapa chini (kutoka kwa chapisho la blogu la DALL-E 2) zimeundwa kwa maelezo "Mwanaanga anayeendesha farasi."
Ufafanuzi mmoja unamalizia, “kama mchoro wa penseli,” ilhali ule mwingine unamalizia, “kwa njia ya picha halisi.”
Inaweza pia kubadilisha picha zilizopo kwa usahihi wa kushangaza. Kwa hivyo, unaweza kuongeza au kufuta vipengele huku ukiweka rangi, uakisi na vivuli, huku ukidumisha mwonekano wa picha asili.
Jinsi gani kazi?
DALL-E 2 hutumia CLIP na modeli za uenezi, mbili za kisasa kujifunza kwa kina mbinu zilizotengenezwa katika miaka ya hivi karibuni. Walakini, ni msingi wa wazo sawa na zingine zote za kina mitandao ya neva: uwakilishi kujifunza. CLIP wakati huo huo hufunza wawili mitandao ya neural kwenye picha na maelezo.
Mtandao mmoja hujifunza uwakilishi wa kuona kwenye picha, wakati mwingine hujifunza uwakilishi wa maandishi. Wakati wa mafunzo, mitandao miwili inajaribu kurekebisha vigezo vyake ili picha na maelezo yanayolingana yatokeze upachikaji sawa.
"Diffusion," aina ya modeli zalisha ambayo hujifunza kutengeneza picha kwa kupiga kelele polepole na kupunguza sampuli zake za mafunzo, ndiyo mbinu nyingine ya kujifunza kwa mashine inayotumiwa katika DALL-E 2. Miundo ya usambaaji ni sawa na visimbaji otomatiki kwa kuwa hubadilisha data ya ingizo kuwa kisakinishi. kupachika uwakilishi na kisha utumie maelezo ya kupachika kuunda upya data asili.
Kwa kutumia OpenAI's mfano wa lugha CLIP, ambayo inaweza kuunganisha maelezo ya maandishi na picha, kwanza hutafsiri kidokezo kilichoandikwa katika fomu ya kati inayojumuisha sifa muhimu ambazo picha inapaswa kuwa nazo ili kuendana na dodoso hilo (kulingana na CLIP).
Pili, DALL-E 2 inaunda utiifu wa CLIP picha kwa kutumia modeli ya kueneza, ambayo ni mtandao wa neva.
Kwenye picha potofu zilizo na saizi nasibu, mifano ya uenezaji hujifunza. Wanajifunza jinsi ya kurejesha fomu asili ya picha. Miundo ya usambaaji inaweza kutoa picha za sanisi za ubora wa juu, hasa zinapotumiwa pamoja na mbinu elekezi inayotanguliza usahihi juu ya utofauti.
Kama matokeo, mfano wa kueneza huchukua pikseli nasibu na hutumia CLIP kuzibadilisha kuwa taswira mpya inayolingana na kidokezo cha neno. Kwa sababu ya dhana ya uenezaji, DALL-E 2 inaweza kutoa picha zenye ubora wa juu zaidi kuliko DALL-E.
DALL.E 2 kesi ya matumizi
Katika miaka ishirini iliyopita, maono ya kompyuta teknolojia imeendelea kutoka kwa dhana rahisi hadi mafanikio makubwa. Licha ya maendeleo haya, mifano ya utambuzi wa picha na vitu bado inakabiliwa na vizuizi muhimu katika maisha ya kila siku. Kutokuwepo kwa seti za data ni mojawapo ya vikwazo muhimu zaidi vya utambuzi wa picha na maono ya kompyuta. Kwa sababu kuna uhaba wa data katika ncha zote mbili, mafunzo ya miundo ya utambuzi wa picha ili kutoa matokeo sahihi kwa asilimia 100 ni karibu vigumu.
Kwa bahati nzuri, modeli mpya ya kujifunza mashine ya OpenAI inaweza kuziba pengo katika teknolojia. DALLE 2 ina uwezo wa kutoa picha za kushangaza kulingana na maelezo ya maandishi. Uzalishaji huu wa picha ghushi unaweza kutoa data kwa miundo ya utambuzi wa picha kulingana na mahitaji yao. Kutokuwepo kwa data ni kikwazo kikubwa kwa utambuzi wa kitu na picha.
Katika enzi ya dijitali, hifadhidata zinapatikana kila mahali, bado tunatafuta njia za mkato za kulisha muundo wa AI, ili iweze kutoa matokeo mazuri. Walakini, si rahisi kutoa mafunzo kwa mtindo wa utambuzi wa picha. Inahitaji idadi kubwa ya seti za data zilizo na tofauti kidogo, ambazo labda hatukuweza kuzipata kwa urahisi.
Kwa hivyo, jibu ni nini: Jibu ni DALLE 2. Jenereta ya picha ya OpenAI, yenye uwezo wake wa kutoa picha kutoka kwa maandiko na kubadilisha zilizopo, inaweza kusaidia kuziba pengo. Hii itasaidia katika utoaji wa data ya ziada ya mafunzo huku pia ikipunguza kiwango cha uwekaji lebo cha binadamu kinachohitajika. Licha ya manufaa makubwa, unapaswa kufahamu uzalishaji wa picha na picha za ulaghai ambazo hazijumuishi kujumuishwa. Hii inaweza kusababisha mbinu za utambuzi wa picha kutoa matokeo yenye upendeleo.
Mapungufu
DALL.E 2 inaweza kuwa na ushawishi mbaya ikiwa itaanguka kwenye mikono isiyofaa, kulingana na OpenAI. Katika ulimwengu wa kisasa wa uwongo wa kina, muundo huo unaweza kutumiwa kwa urahisi kueneza taarifa za uongo au picha za ubaguzi wa rangi, ndiyo maana OpenAI inaruhusu wasanidi programu kutumia DALL.2 pekee kwa mwaliko. Muundo lazima utii vikwazo vikali vya maudhui kwa mapendekezo yote anayopata.
Ili kuwatenga uwezekano wa DALL.E 2 kuunda picha zozote za uhasama au vurugu, mkusanyiko wa data uliundwa bila silaha yoyote mbaya. Wakati OpenAI imesema kuwa inapanga kuibadilisha kuwa API katika siku zijazo, kwa upande wa DALL.E 2, iko tayari kuendelea kwa tahadhari.
Hitimisho
DALL-E 2 ni ugunduzi mwingine wa kuvutia wa utafiti wa OpenAI ambao hufungua mlango wa programu mpya.
Mfano mmoja ni kuunda hifadhidata kubwa ili kukidhi mojawapo ya vikwazo kuu vya maono ya kompyuta-data. Ingawa hali ya kiuchumi kwa programu nyingi zinazotumia DALL-E itabainishwa na bei na sera ambazo OpenAI itaweka kwa watumiaji wake wa API, bila shaka zote zitaendeleza utengenezaji wa picha.
Acha Reply