Мундариҷа[Пинҳон кардан][Намоиш]
Дар солҳои охир, моделҳои омӯзиши амиқ дар фаҳмидани забони инсон самараноктар шуданд.
Дар бораи лоиҳаҳо фикр кунед GPT-3, ки ҳоло қодир аст тамоми мақолаҳо ва вебсайтҳоро эҷод кунад. GitHub ба наздикӣ муаррифӣ шуд Копилоти GitHub, хидмате, ки тамоми пораҳои кодро тавассути тавсифи навъи рамзи ба шумо лозимӣ таъмин мекунад.
Муҳаққиқон дар OpenAI, Facebook ва Google дар бораи роҳҳои истифодаи омӯзиши амиқ барои иҷрои вазифаи дигар кор мекунанд: тасвирҳо. Бо истифода аз маҷмӯаи бузурги маълумот бо миллионҳо вуруд, онҳо баъзе аз онҳо пайдо карданд тааҷубовар натиҷаҳои.
Вақтҳои охир, ин тадқиқотчиён кӯшиш карданд, ки вазифаи муқобилро иҷро кунанд: эҷод кардани тасвирҳо аз сарлавҳа. Оё ҳоло имкон дорад, ки аз тавсиф тасвири комилан нав эҷод кунад?
Ин дастур ду модели пешрафтаи матн ба тасвирро меомӯзад: OpenAI-и DALL-E 2 ва Imagen AI-и Google. Ҳар яке аз ин лоиҳаҳо усулҳои бунёдкореро ҷорӣ кардаанд, ки метавонанд ҷомеаро, тавре ки мо медонем, тағир диҳад.
Аммо аввал, биёед бифаҳмем, ки мо аз насли матн ба тасвир чӣ маъно дорем.
Насли матн ба тасвир чист?
Моделҳои матн ба тасвир ба компютер имкон медиҳад, ки дар асоси дастурҳо тасвирҳои нав ва беназир эҷод кунанд. Ҳоло одамон метавонанд тавсифи матнии тасвиреро, ки мехоҳанд тавлид кунанд, пешниҳод кунанд ва модел кӯшиш мекунад, ки визуалиеро эҷод кунад, ки ба ин тавсиф то ҳадди имкон мувофиқат кунад.
Моделҳои омӯзиши мошинсозӣ аз истифодаи маҷмӯаҳои бузурги додаҳо, ки дорои ҷуфтҳои тасвирҳои тасвирӣ мебошанд, барои боз ҳам беҳтар кардани кор истифода кардаанд.
Аксари матн ба тасвир моделҳо модели забони трансформаторро истифода мебаранд барои тафсири дархостҳо. Ин навъи модели а шабакаи нейралӣ ки барои омухтани мазмун ва маънои семантикии забони табий кушиш мекунад.
Минбаъд, моделҳои тавлидкунанда ба монанди моделҳои диффузия ва шабакаҳои генеративии рақобат барои синтези тасвир истифода мешаванд.
DALLE 2 чист?
DALL-E2 модели компютерии OpenAI мебошад, ки моҳи апрели соли 2022 бароварда шудааст. Модел дар пойгоҳи додаҳои миллионҳо расмҳои тамғагузорӣ барои алоқаманд кардани калимаҳо ва ибораҳо бо тасвирҳо омӯзонида шудааст.
Истифодабарандагон метавонанд ибораи оддиеро, ба мисли "гурбае, ки лазанья мехӯрад" нависед ва DALL-E 2 тафсири худро дар бораи он чизе, ки ин ибора тасвир карданӣ мешавад, тавлид мекунад.
Ба ғайр аз эҷоди тасвирҳо аз сифр, DALL-E 2 инчунин метавонад тасвирҳои мавҷударо таҳрир кунад. Дар мисоли дар поён овардашуда, DALL-E тавонист тасвири тағирёфтаи ҳуҷраро бо дивани иловагӣ тавлид кунад.
DALL-E 2 танҳо яке аз лоиҳаҳои шабеҳест, ки OpenAI дар чанд соли охир интишор кардааст. OpenAI-и GPT-3 вақте ки ба назар чунин менамуд, ки матни сабкҳои гуногунро тавлид мекард, аҳамияти навигарӣ пайдо кард.
Дар айни замон, DALL-E 2 то ҳол дар озмоиши бета қарор дорад. Корбарони ҳавасманд метавонанд барои худ сабти ном шаванд рӯйхати интизорӣ ва дастрасиро интизор шавед.
Чӣ тавр Оё он Кор?
Гарчанде ки натиҷаҳои DALL-E 2 таъсирбахшанд, шумо шояд ҳайрон шавед, ки ин ҳама чӣ гуна кор мекунад.
DALL-E 2 як мисоли татбиқи бисёрҷонибаи лоиҳаи OpenAI GPT-3 мебошад.
Аввалан, дархости матнии корбар дар рамзгузори матнӣ ҷойгир карда мешавад, ки дархостро ба фазои намояндагӣ харита мекунад. DALL-E 2 як модели дигари OpenAI-ро бо номи CLIP (Training Pre-Training Language Contrastive Language-Image) барои гирифтани маълумоти семантикӣ аз забони табиӣ истифода мебарад.
Баъдан, моделе бо номи пеш рамзгузории матнро ба рамзгузории тасвир харита мекунад. Ин рамзгузории тасвир бояд маълумоти семантикиро, ки дар қадами рамзгузории матн пайдо шудааст, гирад.
Барои эҷоди тасвири воқеӣ, DALL-E 2 декодери тасвирро барои тавлиди визуалӣ бо истифода аз иттилооти семантикӣ ва тафсилоти рамзгузории тасвир истифода мебарад. OpenAI версияи тағирёфтаро истифода мебарад ГЛИД модел барои иҷрои тавлиди тасвир. GLIDE ба як такя мекунад модели диффузия барои эҷод кардани тасвирҳо.
Илова кардани GLIDE ба модели DALL-E 2 имкон дод, ки натиҷаи бештари фотореалистиро ба даст оранд. Азбаски модели GLIDE стохастикӣ ё ба таври тасодуфӣ муайян карда мешавад, модели DALL-E 2 метавонад ба осонӣ вариантҳоро тавассути такрор ва такрор иҷро кардани модел эҷод кунад.
Маҳдудияти
Сарфи назар аз натиҷаҳои таъсирбахши модели DALL-E 2, он ҳанӯз ҳам бо баъзе маҳдудиятҳо дучор меояд.
Матни имло
Пешниҳодҳое, ки кӯшиш мекунанд, ки DALL-E 2 матн тавлид кунанд, нишон медиҳанд, ки он дар имлои калимаҳо мушкил дорад. Коршиносон тахмин мезананд, ки ин метавонад аз он сабаб бошад, ки иттилооти имло қисми таркиби он нест маҷмӯи маълумотҳои омӯзишӣ.
Таҳлили таркибӣ
Муҳаққиқон мушоҳида мекунанд, ки DALL-E 2 то ҳол бо тафаккури таркибӣ каме душворӣ дорад. Оддӣ карда гӯем, модел метавонад ҷанбаҳои инфиродии тасвирро дарк кунад, дар ҳоле ки дар муайян кардани муносибатҳои байни ин ҷанбаҳо мушкилӣ дорад.
Масалан, агар дархости "куби сурх дар болои мукааби кабуд" дода шавад, DALL-E як куби кабуд ва мукааби сурхро дақиқ тавлид мекунад, аммо онҳоро дуруст ҷойгир карда наметавонад. Модел инчунин мушоҳида шудааст, ки бо дархостҳое, ки миқдори муайяни объектҳоро кашиданро талаб мекунанд, душворӣ мекашад.
Мушкилот дар маҷмӯи маълумот
Агар дархост ягон ҷузъиёти дигар надошта бошад, DALL-E мушоҳида шудааст, ки одамон ва муҳитҳои сафед ё ғарбиро тасвир мекунад. Ин ғарази намояндагӣ аз сабаби фаровонии тасвирҳои ғарбӣ дар маҷмӯи додаҳо ба амал меояд.
Модел инчунин мушоҳида шудааст, ки стереотипҳои гендериро риоя мекунад. Масалан, ҳангоми навиштани фаврии "стюардесса" бештар тасвирҳои занҳои стюардесса тавлид мешавад.
Google Imagen AI чист?
Google Тасвир AI моделест, ки ҳадафи он эҷод кардани тасвирҳои фотореалистӣ аз матни воридотӣ мебошад. Ба монанди DALL-E, модел инчунин барои фаҳмидани матн моделҳои забони трансформаториро истифода мебарад ва ба истифодаи моделҳои диффузия барои эҷоди тасвирҳои баландсифат такя мекунад.
Дар баробари Imagen, Google инчунин як нишондиҳанда барои моделҳои матн ба тасвир бо номи DrawBench баровардааст. Бо истифода аз DrawBench, онҳо тавонистанд мушоҳида кунанд, ки баҳодиҳандагони инсонӣ баромади Imagen-ро аз моделҳои дигар, аз ҷумла DALL-E 2 афзалтар медонанд.
Чӣ тавр Оё он Кор?
Ба монанди DALL-E, Imagen аввал дархости корбарро ба матни воридшуда тавассути рамзгузори матни яхкардашуда табдил медиҳад.
Imagen модели диффузиро истифода мебарад, ки тарзи табдил додани шакли садоро ба тасвирҳо меомӯзад. Натиҷаи ибтидоии ин тасвирҳо ҳалли паст доранд ва баъдтар тавассути модели дигаре, ки бо номи модели диффузияи супер-резолютсионӣ маъруф аст, барои баланд бардоштани ҳалли тасвири ниҳоӣ гузаронида мешаванд. Модели диффузияи аввал тасвири 64 × 64 пикселро мебарорад ва баъдтар ба тасвири баландсифати 1024 × 1024 тарконда мешавад.
Бар асоси таҳқиқоти гурӯҳи Imagen, моделҳои бузурги забони яхкардашуда, ки танҳо дар асоси маълумоти матнӣ таълим дода шудаанд, ҳоло ҳам рамзгузорҳои матнии хеле муассир барои тавлиди матн ба тасвир мебошанд.
Таҳқиқот инчунин консепсияи ҳадди динамикиро муаррифӣ мекунад. Ин усул имкон медиҳад, ки тасвирҳо бо афзоиши вазнҳои роҳнамо ҳангоми тавлиди тасвир бештар фотореалистӣ пайдо шаванд.
Намоиши DALLE 2 против Imagen
Натиҷаҳои муқаддамотии Google нишон медиҳанд, ки мусоҳибони инсонӣ тасвирҳои аз ҷониби Imagen тавлидшуда нисбат ба DALL-E 2 ва дигар моделҳои матн ба тасвир ба мисли Диффузияи Латентӣ ва VQGAN+CLIP-ро афзалтар медонанд.
Натиҷаҳое, ки аз дастаи Imagen бармеоянд, инчунин нишон доданд, ки модели онҳо дар имлои матн беҳтар кор мекунад, заъфи маълуми модели DALL-E 2.
Бо вуҷуди ин, азбаски Google то ҳол ин моделро ба мардум нашр накардааст, то ҳол дида мешавад, ки нишондиҳандаҳои Google то чӣ андоза дақиқанд.
хулоса
Афзоиши моделҳои фотореалистии матн ба тасвир баҳсбарангез аст, зеро ин моделҳо барои истифодаи ғайриахлоқӣ пухтаанд.
Технология метавонад боиси эҷоди мундариҷаи ошкор ё ҳамчун воситаи маълумоти бардурӯғ гардад. Муҳаққиқони Google ва OpenAI аз ин огоҳанд, ки қисман ин технологияҳо то ҳол барои ҳама дастрас нестанд.
Моделҳои матн ба тасвир инчунин оқибатҳои назарраси иқтисодӣ доранд. Оё моделҳо, суратгирҳо ва рассомон, агар моделҳо ба монанди DALL-E маъмул гарданд, оё ба касбҳо таъсир мерасонанд?
Дар айни замон, ин моделҳо ҳанӯз маҳдудият доранд. Нигоҳ доштани ҳама гуна тасвири аз ҷониби AI тавлидшуда камбудиҳои онро ошкор мекунад. Дар ҳоле ки ҳам OpenAI ва ҳам Google барои моделҳои муассиртарин рақобат мекунанд, шояд як масъалаи вақт бошад, то ҳосили воқеан комил тавлид шавад: тасвире, ки аз чизи воқеӣ фарқ намекунад.
Ба фикри шумо, вақте ки технология ин қадар дур меравад, чӣ мешавад?
Дин ва мазҳаб