Teburin Abubuwan Ciki[Boye][Nuna]
A cikin 'yan shekarun nan, tsarin ilmantarwa mai zurfi ya zama mafi tasiri wajen fahimtar harshen ɗan adam.
Yi tunanin ayyukan kamar GPT-3, wanda a yanzu yana iya ƙirƙirar duka labarai da gidajen yanar gizo. GitHub ya ƙaddamar da kwanan nan GitHub Copilot, sabis ɗin da ke ba da snippets na lamba gabaɗaya ta hanyar bayyana nau'in lambar da kuke buƙata kawai.
Masu bincike a OpenAI, Facebook, da Google suna aiki akan hanyoyin yin amfani da zurfin koyo don ɗaukar wani aiki: taken hotuna. Yin amfani da babban bayanan bayanai tare da miliyoyin shigarwar, sun fito da wasu mamaki sakamakon.
Kwanan nan, waɗannan masu binciken sun yi ƙoƙari su yi aikin da aka saba: ƙirƙirar hotuna daga taken. Shin yanzu yana yiwuwa a ƙirƙiri sabon hoto gaba ɗaya daga bayanin?
Wannan jagorar za ta bincika nau'ikan ci-gaba biyu na rubutu-zuwa hoto: OpenAI's DALL-E 2 da Google's Imagen AI. Kowane ɗayan waɗannan ayyukan sun ƙaddamar da hanyoyin da za su iya canza al'umma kamar yadda muka sani.
Amma da farko, bari mu fahimci abin da muke nufi da tsara rubutu zuwa hoto.
Menene ƙarni na rubutu-zuwa-hoto?
Samfuran rubutu-zuwa-hoto ƙyale kwamfutoci su ƙirƙiri sabbin hotuna na musamman dangane da faɗakarwa. Yanzu mutane na iya ba da bayanin rubutu na hoton da suke son samarwa, kuma ƙirar za ta yi ƙoƙarin ƙirƙirar abin gani wanda ya dace da wannan bayanin kamar yadda zai yiwu.
Samfuran koyon inji sun yi amfani da manyan bayanan da ke ɗauke da nau'i-nau'i-nau'i-nau'i don ƙara haɓaka aiki.
Yawancin rubutu-zuwa hoto samfura suna amfani da samfurin yaren canji don fassara tsokaci. Irin wannan samfurin shine a neural network wanda ke ƙoƙarin koyon mahallin da ma'anar ma'anar harshen halitta.
Na gaba, ƙirar ƙira irin su samfurori masu yaduwa kuma ana amfani da hanyoyin sadarwa na gaba don haɗa hoto.
Menene DALLE 2?
DALL-E2 samfurin kwamfuta ne na OpenAI wanda aka saki a cikin Afrilu 2022. An horar da ƙirar akan bayanan miliyoyin hotuna masu lakabi don haɗa kalmomi da jimloli zuwa hotuna.
Masu amfani za su iya buga jumla mai sauƙi, kamar "catin cin lasagna", kuma DALL-E 2 zai haifar da nasa fassarar abin da kalmar ke ƙoƙarin bayyanawa.
Bayan ƙirƙirar hotuna daga karce, DALL-E 2 kuma na iya shirya hotunan da ke akwai. A cikin misalin da ke ƙasa, DALL-E ya sami damar samar da hoton da aka gyara na ɗaki tare da ƙaramar kujera.
DALL-E 2 ɗaya ne daga cikin ayyuka iri ɗaya da OpenAI ta saki a cikin ƴan shekarun da suka gabata. OpenAI's GPT-3 ya zama abin labari lokacin da ya zama kamar yana samar da rubutu na salo daban-daban.
A halin yanzu, DALL-E 2 har yanzu yana cikin gwajin beta. Masu sha'awar za su iya yin rajista don nasu jerin jira kuma jira samun shiga.
Yaya Yayi aiki?
Yayin da sakamakon DALL-E 2 yana da ban sha'awa, kuna iya yin mamakin yadda duk yake aiki.
DALL-E 2 misali ne na aiwatar da aikin GPT-3 na OpenAI na multimodal.
Da farko, ana sanya saƙon rubutu na mai amfani a cikin maɓalli na rubutu wanda ke yin taswirar faɗakarwa zuwa sararin wakilci. DALL-E 2 yana amfani da wani samfurin OpenAI mai suna CLIP (Transtive Language-Hoto Pre-Training) don samun bayanan natsuwa daga harshen halitta.
Na gaba, samfurin da aka sani da kafin yin taswirorin rububin rubutu zuwa cikin hoton hoto. Wannan hoton hoton ya kamata ya ɗauki bayanan ma'anar fassarar da aka samo a cikin matakin rufaffen rubutu.
Don ƙirƙirar ainihin hoton, DALL-E 2 yana amfani da na'urar tantance hoto don samar da na gani ta amfani da bayanan natsuwa da bayanan ɓoye hoto. OpenAI yana amfani da ingantaccen sigar GASKIYA samfurin don aiwatar da ƙirƙirar hoto. GLIDE ya dogara da a samfurin yaduwa don ƙirƙirar hotuna.
Ƙarin GLIDE zuwa ƙirar DALL-E 2 ya ba da damar ƙarin fitowar hoto. Tunda ƙirar GLIDE tana da jujjuyawa ko ƙayyadaddun tsari, ƙirar DALL-E 2 na iya ƙirƙirar bambance-bambance cikin sauƙi ta hanyar gudanar da ƙirar akai-akai.
gazawar
Duk da kyakkyawan sakamako na samfurin DALL-E 2, har yanzu yana fuskantar wasu gazawa.
Rubutun Rubutu
Ƙoƙarin yin DALL-E 2 ya haifar da rubutu yana nuna cewa yana da wahalar rubuta kalmomi. Masana sun ɗauka cewa hakan na iya zama saboda bayanan rubutun ba sa cikin bayanan horo.
Haɗin Haɗin
Masu bincike sun lura cewa DALL-E 2 har yanzu yana da ɗan wahala tare da tunani mai ƙima. A taƙaice, ƙirar na iya fahimtar fa'idodin mutum ɗaya na hoto yayin da har yanzu yana fuskantar matsala wajen gano alakar da ke tsakanin waɗannan bangarorin.
Misali, idan aka ba da hanzarin “cube ja a saman kubu mai shuɗi”, DALL-E zai samar da kubu mai shuɗi da jajayen cube daidai amma ya kasa sanya su daidai. An kuma lura da ƙirar yana da wahala tare da faɗakarwa waɗanda ke buƙatar takamaiman adadin abubuwa da za a zana.
Bias a cikin dataset
Idan faɗakarwar ba ta ƙunshi wasu cikakkun bayanai ba, an lura da DALL-E don nuna fararen ko mutanen yamma da muhalli. Wannan ra'ayi na wakilci yana faruwa ne saboda yalwar hotuna na tsakiya na yammacin duniya a cikin bayanan.
An kuma lura da ƙirar don bin ra'ayoyin jinsi. Misali, buga “ma’aikacin jirgin” da sauri yana haifar da hotunan mata masu hidimar jirgin.
Menene Google Imagen AI?
Google ta Hoton AI samfuri ne wanda ke nufin ƙirƙirar hotuna na zahiri daga rubutun shigarwa. Hakazalika da DALL-E, ƙirar kuma tana amfani da ƙirar yaren canji don fahimtar rubutu kuma ta dogara da amfani da ƙirar yaduwa don ƙirƙirar hotuna masu inganci.
Tare da Imagen, Google kuma ya fitar da ma'auni don ƙirar rubutu-zuwa hoto mai suna DrawBench. Ta amfani da DrawBench, sun sami damar lura cewa masu ƙima na ɗan adam sun fi son fitar da Imagen fiye da sauran samfuran da suka haɗa da DALL-E 2.
Yaya Yayi aiki?
Hakazalika da DALL-E, Imagen na farko yana canza mai amfani da gaggawa zuwa cikin rubutun da ke haɗawa ta hanyar daskararru mai rikodin rubutu.
Imagen yana amfani da samfurin watsawa wanda ke koyon yadda ake canza yanayin amo zuwa hotuna. Fitowar farko na waɗannan hotuna ƙananan ƙuduri ne kuma daga baya an wuce su ta wani samfurin da aka sani da babban ƙirar yaduwa don ƙara ƙudurin hoton ƙarshe. Samfurin yaduwa na farko yana fitar da hoton pixel 64 × 64 kuma daga baya an busa shi zuwa babban hoto mai girman 1024 × 1024.
Dangane da binciken ƙungiyar Imagen, manyan daskararrun nau'ikan harshe waɗanda aka horar da su akan bayanan rubutu kawai har yanzu suna da tasiri sosai ga tsarar rubutu-zuwa hoto.
Har ila yau, binciken ya gabatar da ra'ayi na ƙorafi mai ƙarfi. Wannan hanyar tana ba da damar hotuna su bayyana mafi kyawun hoto ta hanyar haɓaka ma'aunin jagora lokacin samar da hoton.
Ayyukan DALLE 2 vs Imagen
Sakamako na farko daga ma'auni na Google ya nuna cewa masu ba da amsa na ɗan adam sun fi son hotunan da Imagen ya ƙirƙira akan DALL-E 2 da sauran samfuran rubutu-zuwa hoto kamar Latent Diffusion da VQGAN+CLIP.
Fitowar da ke fitowa daga ƙungiyar Imagen ta kuma nuna cewa ƙirar su tana yin aiki mafi kyau a rubutun haruffa, sanannen rauni na ƙirar DALL-E 2.
Duk da haka, tun da Google har yanzu bai fitar da samfurin ga jama'a ba, har yanzu ya rage a ga yadda daidaitattun ma'auni na Google suke.
Kammalawa
Yunƙurin ƙirar ƙirar rubutu-zuwa-hoton hoto yana da cece-kuce saboda waɗannan samfuran sun cika don amfani mara kyau.
Fasahar na iya haifar da ƙirƙirar abun ciki a sarari ko azaman kayan aiki don lalata bayanai. Masu bincike daga Google da OpenAI suna sane da wannan, wanda shine dalilin da ya sa har yanzu waɗannan fasahohin ba su isa ga kowa ba.
Samfurin rubutu-zuwa-hoto suma suna da tasirin tattalin arziki. Shin sana'o'i kamar samfura, masu daukar hoto, da masu fasaha za su shafi idan samfura irin su DALL-E ya zama na yau da kullun?
A halin yanzu, waɗannan samfuran har yanzu suna da iyakancewa. Riƙe kowane hoton AI da aka ƙirƙira don dubawa zai bayyana rashin lafiyarsa. Tare da duka OpenAI da Google suna fafatawa don samfuran mafi inganci, yana iya zama ɗan lokaci kafin a samar da ingantaccen fitarwa na gaske: hoton da ba a iya bambanta shi da ainihin abu.
Me kuke tunanin zai faru idan fasaha ta yi nisa?
Leave a Reply