I kēia mau makahiki i hala iho nei, ua ʻoi aku ka maikaʻi o nā kumu hoʻohālike hohonu i ka hoʻomaopopo ʻana i ka ʻōlelo kanaka.
E noʻonoʻo i nā papahana like GPT-3, hiki iā ia ke hana i nā ʻatikala holoʻokoʻa a me nā pūnaewele. Ua hoʻolauna hou ʻo GitHub ʻO GitHub Copilot, he lawelawe e hāʻawi ana i nā snippet code holoʻokoʻa ma ka wehewehe wale ʻana i ke ʻano o ke code āu e pono ai.
Ke hana nei nā mea noiʻi ma OpenAI, Facebook, a me Google i nā ala e hoʻohana ai i ke aʻo hohonu e mālama i kahi hana ʻē aʻe: nā kiʻi captioning. Ke hoʻohana nei i kahi ʻikepili nui me nā miliona o nā helu, ua loaʻa iā lākou kekahi pihoihoi nā hualoaʻa.
I kēia mau lā, ua hoʻāʻo kēia mau mea noiʻi e hana i ka hana kūʻē: hana i nā kiʻi mai kahi caption. Hiki i kēia manawa ke hana i kahi kiʻi hou loa mai kahi wehewehe?
E ʻimi kēia alakaʻi i ʻelua o nā hiʻohiʻona kiʻi kiʻi kiʻi kiʻi loa: OpenAI's DALL-E 2 a me Google's Imagen AI. Ua hoʻolauna kēlā me kēia mau papahana i nā ʻano hana hoʻololi e hiki ke hoʻololi i ke kaiāulu e like me kā mākou i ʻike ai.
Akā ʻo ka mua, e hoʻomaopopo kākou i ke ʻano o ka hanauna kikokiko-i-kiʻi.
He aha ka hana kikokiko-i-kiʻi?
Nā hiʻohiʻona kikokikona-i-kiʻi e ʻae i nā kamepiula e hana i nā kiʻi hou a kū hoʻokahi ma muli o nā koi. Hiki i nā kānaka ke hāʻawi i kahi wehewehe kikokikona o kahi kiʻi a lākou e makemake ai e hana, a e hoʻāʻo ke kumu hoʻohālike e hana i kahi kiʻi e pili pono i kēlā wehewehe.
Ua hoʻohana nā ʻano hoʻohālike mīkini i ka hoʻohana ʻana i nā ʻikepili nui i loaʻa nā paʻi kiʻi-caption e hoʻomaikaʻi hou i ka hana.
ʻO ka hapa nui o ke kikokikona i ke kiʻi hoʻohana nā kumu hoʻohālike i ka ʻōlelo hoʻololi e wehewehe i nā koi. ʻO kēia ʻano hoʻohālike he kaʻenehana kikowaena e ho'āʻo nei e aʻo i ka pōʻaiapili a me ke ʻano o ka ʻōlelo kūlohelohe.
Aʻe, generative models like nā hoʻohālike diffusion a hoʻohana ʻia nā ʻupena ʻenemi generative no ke kiʻi synthesis.
He aha ka DALLE 2?
DALL-E2 He polokalamu kamepiula ia na OpenAI i hoʻokuʻu ʻia ma ʻApelila 2022. Ua aʻo ʻia ke kumu hoʻohālike ma ka waihona o nā miliona o nā kiʻi i hōʻailona ʻia e hoʻopili i nā huaʻōlelo a me nā ʻōlelo i nā kiʻi.
Hiki i nā mea hoʻohana ke paʻi i kahi huaʻōlelo maʻalahi, e like me "ka pipi e ʻai ana i ka lasagna", a na DALL-E 2 e hoʻopuka i kāna wehewehe ponoʻī i ka mea a ka huaʻōlelo e hoʻāʻo nei e wehewehe.
Ma waho aʻe o ka hana ʻana i nā kiʻi mai ka wā ʻōpala, hiki nō iā DALL-E 2 ke hoʻoponopono i nā kiʻi i loaʻa. Ma ka laʻana ma lalo nei, hiki iā DALL-E ke hana i ke kiʻi i hoʻololi ʻia o kahi lumi me kahi moe i hoʻohui ʻia.
ʻO DALL-E 2 kekahi o nā papahana like i hoʻokuʻu ʻia e OpenAI i nā makahiki i hala. Ua lilo ʻo OpenAI's GPT-3 i mea nūhou i ka wā i manaʻo ʻia e hana i nā kikokikona o nā ʻano like ʻole.
I kēia manawa, aia nō ʻo DALL-E 2 i ka hoʻāʻo beta. Hiki i nā mea hoʻohana hoihoi ke kau inoa no kā lākou papa inoa kali a kali no ke komo.
Pehea anei ia hana?
ʻOiai he mea kupanaha nā hopena o DALL-E 2, e noʻonoʻo paha ʻoe pehea e hana ai.
ʻO DALL-E 2 kahi laʻana o ka hoʻokō multimodal o ka papahana GPT-3 o OpenAI.
ʻO ka mua, hoʻokomo ʻia ka ʻōkuhi kikokikona a ka mea hoʻohana i loko o kahi encoder kikokikona e palapala ʻāina i ka wikiwiki i kahi wahi hōʻike. Hoʻohana ʻo DALL-E 2 i kekahi ʻano OpenAI i kapa ʻia ʻo CLIP (Contrastive Language-Image Pre-Training) no ka loaʻa ʻana o ka ʻike semantic mai ka ʻōlelo kūlohelohe.
A laila, he kumu hoʻohālike i kapa ʻia ʻo ka mamua palapala 'āina i ka hoʻopili kikokikona i loko o ka hoʻopili kiʻi. Pono kēia hoʻopili kiʻi e hopu i ka ʻike semantic i loaʻa ma ka pae hoʻopili kikokikona.
No ka hana ʻana i ke kiʻi maoli, hoʻohana ʻo DALL-E 2 i kahi decoder kiʻi e hana i kahi ʻike me ka hoʻohana ʻana i ka ʻike semantic a me nā kikoʻī hoʻopili kiʻi. Hoʻohana ʻo OpenAI i kahi mana hoʻololi o ka GLIDA kumu hoʻohālike e hana i ka hana kiʻi. Ke hilinaʻi nei ʻo GLIDE i kahi kumu hoʻohālike e hana i nā kiʻi.
ʻO ka hoʻohui ʻana o GLIDE i ke kumu hoʻohālike DALL-E 2 i hiki ai ke hoʻopuka hou aku i ka photorealistic. No ka mea he stochastic a i ʻole hoʻoholo ʻia ke kumu hoʻohālike GLIDE, hiki i ke kumu hoʻohālike DALL-E 2 ke hana maʻalahi i nā ʻano like ʻole ma o ka holo ʻana i ke kumu hoʻohālike.
hoʻokau
ʻOiai nā hopena maikaʻi loa o ka hoʻohālike DALL-E 2, aia nō ia i kekahi mau palena.
Kikokikona Spelling
ʻO nā ʻōlelo paipai e hoʻāʻo ana e hana i ka DALL-E 2 e hoʻohua i nā kikokikona e hōʻike ana he paʻakikī ke kala ʻana i nā huaʻōlelo. Manaʻo ka poʻe akamai no ka mea ʻaʻole ʻo ka ʻike spelling i ʻāpana o ka ʻikepili hoʻomaʻamaʻa.
Kumu Hoʻokumu
Ua ʻike ka poʻe noiʻi he paʻakikī ko DALL-E 2 me ka noʻonoʻo haku mele. Ma ka ma'alahi, hiki i ke kŘkohu ke ho'omaopopo i nā hi'ohi'ona o ke ki'i me ka pilikia e no'ono'o i ka pilina ma waena o kēia mau mea.
No ka laʻana, inā hāʻawi ʻia ka "huipu ʻulaʻula ma luna o kahi pahu polū", e hoʻopuka ʻo DALL-E i kahi pahu polū a me kahi pahu ʻulaʻula me ka pololei akā ʻaʻole hiki ke kau pololei iā lākou. Ua ʻike ʻia ka paʻakikī o ke kŘkohu me nā ʻōkuhi e koi ana i kahi helu kikoʻī o nā mea e huki ʻia.
Kūlike i ka ʻikepili
Inā ʻaʻohe kikoʻī ʻē aʻe i ka wikiwiki, ua ʻike ʻia ʻo DALL-E e hōʻike i ka poʻe keʻokeʻo a i ʻole ke Komohana a me nā kaiapuni. Loaʻa kēia manaʻo hoʻohālikelike ma muli o ka nui o nā kiʻi Western-centric i ka waihona.
Ua ʻike ʻia ke kumu hoʻohālike e hahai i nā stereotypes kāne. No ka laʻana, ʻo ka paʻi ʻana i ka "lawelawe lele" ka hapa nui o nā kiʻi o nā kahu lele wahine.
He aha ka Google Imagen AI?
ʻO Google Kiʻi AI he kumu hoʻohālike e manaʻo e hana i nā kiʻi photorealistic mai nā kikokikona hoʻokomo. E like me DALL-E, hoʻohana pū ke kŘkohu i nā kŘkohu 'ōlelo transformer e hoʻomaopopo i ka kikokikona a hilinaʻi i ka hoʻohana 'ana i nā kŘkohu diffusion e hana i nā kiʻi kiʻekiʻe.
Ma ka ʻaoʻao o Imagen, ua hoʻokuʻu pū ʻo Google i kahi hōʻailona no nā kiʻi kikokikona i kapa ʻia ʻo DrawBench. Me ka hoʻohana ʻana iā DrawBench, hiki iā lākou ke ʻike i ka makemake o nā poʻe loiloi kanaka i ka hoʻopuka Imagen ma mua o nā hiʻohiʻona ʻē aʻe me DALL-E 2.
Pehea anei ia hana?
E like me DALL-E, hoʻololi mua ʻo Imagen i ka ʻōlelo a ka mea hoʻohana i loko o kahi kikokikona e hoʻopili ʻia ma o kahi encoder kikokikona hau.
Hoʻohana ʻo Imagen i kahi hoʻohālike diffusion e aʻo i ka hoʻololi ʻana i ke ʻano o ka walaʻau i nā kiʻi. ʻO ka hoʻopuka mua ʻana o kēia mau kiʻi he haʻahaʻa haʻahaʻa a ma hope aku e hoʻoholo ʻia ma o kekahi kumu hoʻohālike i kapa ʻia ʻo ka super-resolution diffusion model e hoʻonui i ka hoʻonā o ke kiʻi hope loa. Hoʻopuka ke kumu hoʻohālikelike mua i kahi kiʻi 64 × 64 pixel a ma hope e puhi ʻia i kahi kiʻi 1024 × 1024 kiʻekiʻe.
Ma muli o ka noiʻi ʻana o ka hui Imagen, ʻo nā ʻōlelo hoʻohālike nui i hoʻomaʻamaʻa ʻia ma ka ʻikepili kikokikona, he mau mea hoʻopili kikokikona maikaʻi loa ia no ka hana ʻana i ke kikokikona i ke kiʻi.
Hoʻokomo pū ka haʻawina i ka manaʻo o ka paepae dynamic. Hāʻawi kēia ʻano hana i nā kiʻi e ʻike hou aku i ka photorealistic ma o ka hoʻonui ʻana i nā kaupaona alakaʻi i ka wā e hana ai i ke kiʻi.
Hana o DALLE 2 vs Imagen
Hōʻike nā hualoaʻa mua mai kā Google benchmark e makemake ka poʻe pane kanaka i nā kiʻi i hana ʻia e Imagen ma mua o DALL-E 2 a me nā hiʻohiʻona kikokikona-i-kiʻi e like me Latent Diffusion a me VQGAN+CLIP.
Ua hōʻike pū ʻia nā mea hoʻopuka mai ka hui Imagen e ʻoi aku ka maikaʻi o kā lākou kumu hoʻohālike ma ka spelling kikokikona, kahi nāwaliwali i ʻike ʻia o ka model DALL-E 2.
Eia nō naʻe, ʻoiai ʻaʻole i hoʻokuʻu ʻia ʻo Google i ke kumu hoʻohālike i ka lehulehu, e ʻike mau ʻia ana ka pololei o nā hōʻailona Google.
Panina
He mea hoʻopaʻapaʻa ka piʻi ʻana o nā kiʻi kiʻi kiʻi kiʻi kiʻi kiʻi no ka mea ua mākaukau kēia mau hiʻohiʻona no ka hoʻohana pono ʻole.
Hiki i ka ʻenehana ke alakaʻi i ka hana ʻana i nā ʻike kikoʻī a i ʻole he mea hana no ka hoʻopunipuni. Ua ʻike nā mea noiʻi mai Google a me OpenAI i kēia, ʻo ia ke kumu i hiki ʻole ai kēia mau ʻenehana i nā mea āpau.
Loaʻa i nā kumu hoʻohālike kikokikona i ke kiʻi nā hopena waiwai nui. E hoʻopilikia ʻia nā ʻoihana e like me nā kumu hoʻohālike, nā mea paʻi kiʻi, a me nā mea pena kiʻi inā lilo nā kumu hoʻohālike e like me DALL-E i mea nui?
I kēia manawa, aia nō kēia mau hiʻohiʻona i nā palena. ʻO ka paʻa ʻana i kekahi kiʻi i hana ʻia e AI e nānā e hōʻike i kona mau hemahema. Me ka hoʻokūkū ʻana o OpenAI a me Google no nā hiʻohiʻona maikaʻi loa, he manawa paha ia ma mua o ka hoʻopuka ʻia ʻana o kahi huahana kūpono maoli: he kiʻi ʻike ʻole ʻia mai ka mea maoli.
He aha kāu e manaʻo ai ke hele ka ʻenehana i kēlā mamao?
Waiho i ka Reply