Акыркы жылдары терең үйрөнүү моделдери адамдын тилин түшүнүүдө кыйла натыйжалуу болуп калды.
сыяктуу долбоорлорду ойлонуп көрөлү GPT-3, ал азыр бүтүндөй макалаларды жана веб-сайттарды түзө алат. GitHub жакында тааныштырды GitHub Копилоту, сизге керектүү коддун түрүн жөн гана сүрөттөп берүү менен бүт код үзүндүлөрүн камсыз кылган кызмат.
OpenAI, Facebook жана Google изилдөөчүлөрү дагы бир милдетти аткаруу үчүн терең үйрөнүүнү колдонуу жолдорунун үстүндө иштеп жатышат: сүрөттөргө жазуу. Миллиондогон жазуулары бар чоң маалымат топтомун колдонуп, алар кээ бирлерин ойлоп табышты таң калтырган натыйжалары.
Акыркы убакта бул изилдөөчүлөр карама-каршы тапшырманы аткарууга аракет кылышты: жазуудан сүрөттөрдү түзүү. Эми сүрөттөмөдөн таптакыр жаңы образ жаратууга болобу?
Бул колдонмо эки эң өнүккөн тексттен сүрөткө моделдерин изилдейт: OpenAIдин DALL-E 2 жана Google Imagen AI. Бул долбоорлордун ар бири биз билгендей коомду өзгөртө турган жаңы ыкмаларды киргизди.
Бирок, адегенде, келгиле, тексттен сүрөткө генерация дегенди түшүнүп алалы.
Тексттен сүрөткө түзүү деген эмне?
Тексттен сүрөткө моделдер компьютерлерге эскертүүлөрдүн негизинде жаңы жана уникалдуу сүрөттөрдү түзүүгө мүмкүндүк берет. Эми адамдар чыгаргысы келген сүрөттүн тексттик сыпаттамасын бере алышат жана модель ошол сүрөттөмөгө мүмкүн болушунча дал келген визуалдык сүрөттү түзүүгө аракет кылат.
Машина үйрөнүү моделдери натыйжалуулугун мындан ары жакшыртуу үчүн сүрөт-коштомо түгөйлөрүн камтыган чоң маалымат топтомдорун колдонууну колдонушту.
Көпчүлүк тексттен сүрөткө моделдер трансформатор тилинин моделин колдонушат чакырыктарды чечмелөө. Бул типтеги модель а нейрон тармак табигый тилдин контекстти жана семантикалык маанисин үйрөнүүгө аракет кылат.
Кийинки, генерациялык моделдер, мисалы диффузиялык моделдер жана генеративдик атаандаштык тармактары сүрөттөрдү синтездөө үчүн колдонулат.
DALLE 2 деген эмне?
DALL-E2 OpenAI тарабынан 2022-жылдын апрель айында чыгарылган компьютердик модель. Модель сүрөттөр менен сөздөрдү жана сөз айкаштарын байланыштыруу үчүн миллиондогон энбелгиленген сүрөттөрдүн маалымат базасында үйрөтүлгөн.
Колдонуучулар "лазанья жеп жаткан мышык" сыяктуу жөнөкөй фразаны тере алышат жана DALL-E 2 бул сөз айкашын сүрөттөөгө аракет кылып жаткан нерсенин өзүнүн интерпретациясын жаратат.
Нөлдөн баштап сүрөттөрдү түзүүдөн тышкары, DALL-E 2 учурдагы сүрөттөрдү түзөтө алат. Төмөндөгү мисалда DALL-E кошумча диван менен бөлмөнүн өзгөртүлгөн сүрөтүн түзө алды.
DALL-E 2 - OpenAI акыркы бир нече жылда чыгарган окшош долбоорлордун бири гана. OpenAIдин GPT-3 ар кандай стилдеги текстти жаратып жатканда жаңылык болуп калды.
Учурда, DALL-E 2 дагы эле бета тестирлөөдө. Кызыккан колдонуучулар өздөрүнүн сайтына каттала алышат күтүү тизмеси жана кирүүнү күтүңүз.
Бул кантип иштейт?
DALL-E 2 натыйжалары таасирдүү болгону менен, сиз мунун баары кандай иштээри жөнүндө ойлонуп жаткандырсыз.
DALL-E 2 OpenAIдин GPT-3 долбоорунун мультимодалдык ишке ашыруунун мисалы болуп саналат.
Биринчиден, колдонуучунун тексттик кеңеши сунушту өкүлчүлүк мейкиндигине салыштырган текст коддорунда жайгаштырылат. DALL-E 2 табигый тилден семантикалык маалыматты алуу үчүн CLIP (Контрасттык тил-сүрөт алдын ала окутуу) деп аталган дагы бир OpenAI моделин колдонот.
Андан кийин, модель катары белгилүү алдын ала текстти коддоону сүрөт коддоосуна түзөт. Бул сүрөт коддоо текстти коддоо кадамында табылган семантикалык маалыматты камтышы керек.
Чыныгы сүрөттү түзүү үчүн, DALL-E 2 семантикалык маалыматты жана сүрөт коддоо деталдарын колдонуу менен визуалды түзүү үчүн сүрөт декодерин колдонот. OpenAI анын өзгөртүлгөн версиясын колдонот калкый сүрөттү түзүү үчүн үлгү. GLIDE а таянат диффузиялык модель сүрөттөрдү түзүү.
DALL-E 2 моделине GLIDE кошулуусу фотореалисттик чыгарууну камсыз кылды. GLIDE модели стохастикалык же туш келди аныкталгандыктан, DALL-E 2 модели моделди кайра-кайра иштетүү менен оңой вариацияларды түзө алат.
чектөөлөр
DALL-E 2 моделинин таасирдүү натыйжаларына карабастан, ал дагы эле кээ бир чектөөлөргө дуушар болот.
Орфографиялык текст
DALL-E 2 текстти түзүүгө аракет кылган сунуштар анын сөздөрдү жазууда кыйынчылыкка дуушар болгонун көрсөтүп турат. Эксперттер бул орфографиялык маалыматтын бир бөлүгү болбогондуктан болушу мүмкүн деп эсептешет окутуу маалымат топтому.
Композициялык ой жүгүртүү
Окумуштуулар DALL-E 2 дагы эле композициялык ой жүгүртүү менен бир аз кыйынчылыкка ээ экенин байкашты. Жөнөкөй сөз менен айтканда, модель сүрөттөлүштүн айрым аспектилерин түшүнө алат, ошол эле учурда бул аспектилердин ортосундагы байланышты аныктоо кыйынга турат.
Мисалы, "көк кубтун үстүндөгү кызыл куб" деген эскертүү берилсе, DALL-E көк куб менен кызыл кубду так жаратат, бирок аларды туура жайгаштыра албайт. Модель ошондой эле белгилүү бир сандагы объекттерди чийүүнү талап кылган чакырыктар менен кыйынчылыктарга дуушар болгону байкалган.
Берилиштер топтомундагы тенденция
Эгерде сунушта башка деталдар жок болсо, DALL-E ак же батыштык адамдарды жана чөйрөлөрдү чагылдырганы байкалган. Бул өкүлчүлүктүн бир жактуулугу маалыматтар топтомундагы Батышка багытталган сүрөттөрдүн көптүгүнө байланыштуу пайда болот.
Модель гендердик стереотиптерди карманганы да байкалган. Мисалы, "стюардессаны" ыкчам терүү көбүнчө аял стюардессалардын сүрөттөрүн жаратат.
Google Imagen AI деген эмне?
Google анын Imagen AI киргизилген тексттен фотореалисттик сүрөттөрдү түзүүгө багытталган модель. DALL-E сыяктуу, модель текстти түшүнүү үчүн трансформатор тилинин моделдерин да колдонот жана жогорку сапаттагы сүрөттөрдү түзүү үчүн диффузиялык моделдерди колдонууга таянат.
Imagen менен катар Google дагы DrawBench деп аталган тексттен сүрөткө моделдер үчүн эталон чыгарды. DrawBench колдонуу менен, алар адам баалоочулары DALL-E 2, анын ичинде башка моделдерге караганда Imagen чыгарууну артык көрө алышты.
Бул кантип иштейт?
DALL-Eге окшоп, Imagen адегенде колдонуучунун сунушун тоңдурулган текст коддору аркылуу кыстарылган текстке айлантат.
Imagen ызы-чуунун үлгүсүн сүрөттөргө кантип айландырууну үйрөнгөн диффузиялык моделди колдонот. Бул сүрөттөрдүн баштапкы чыгарылышы төмөн резолюция болуп саналат жана кийинчерээк акыркы сүрөттүн чечкиндүүлүгүн жогорулатуу үчүн супер резолюциядагы диффузиялык модель деп аталган башка моделден өткөрүлөт. Биринчи диффузиялык модель 64×64 пикселдик сүрөттү чыгарат жана кийинчерээк 1024×1024 жогорку резолюциядагы сүрөткө чейин жарылат.
Imagen командасынын изилдөөлөрүнүн негизинде, тексттик маалыматтарга гана үйрөтүлгөн чоң тоңдурулган тил моделдери дагы эле текстти сүрөткө айлантуу үчүн абдан эффективдүү текст кодерлору болуп саналат.
Изилдөө ошондой эле динамикалык босого түшүнүгүн киргизет. Бул ыкма сүрөттү түзүүдө жетектөөчү салмактарды көбөйтүү менен сүрөттөрдүн фотореалдуу болушуна мүмкүндүк берет.
DALLE 2 vs Imagen аткаруусу
Google'дун эталонунун алдын ала жыйынтыктары көрсөткөндөй, адам респонденттери DALL-E 2ге караганда Imagen тарабынан түзүлгөн сүрөттөрдү жана Latent Diffusion жана VQGAN+CLIP сыяктуу башка тексттен сүрөткө моделдерге артыкчылык беришет.
Imagen командасынын натыйжасы алардын модели тексттин орфографиясын жакшыраак аткарарын көрсөттү, бул DALL-E 2 моделинин белгилүү алсыздыгы.
Бирок, Google бул моделди коомчулукка чыгара элек болгондуктан, Google'дун эталондору канчалык так экенин көрүүгө болот.
жыйынтыктоо
Фотореалисттик тексттен сүрөткө моделдердин өсүшү талаштуу, анткени бул моделдер этикага туура келбейт.
Технология ачык мазмунду түзүүгө же жалган маалымат үчүн курал катары алып келиши мүмкүн. Бул тууралуу Google жана OpenAI изилдөөчүлөрү билишет, ошондуктан бул технологиялар дагы эле бардыгына жеткиликтүү эмес.
Тексттен-сүрөткө моделдер да олуттуу экономикалык кесепеттерге ээ. DALL-E сыяктуу моделдер негизги агымга айланса, моделдер, фотографтар жана сүрөтчүлөр сыяктуу кесиптерге таасирин тийгизеби?
Азыркы учурда, бул моделдер дагы эле чектөөлөр бар. AI тарабынан жаратылган ар кандай сүрөттү текшерүү үчүн кармап туруу анын кемчиликтерин ачып берет. OpenAI жана Google экөө тең эң эффективдүү моделдер үчүн атаандашып жаткандыктан, чындап эле кемчиликсиз натыйжа: чыныгы нерседен айырмаланбаган сүрөт жаралгыча убакыт маселеси болушу мүмкүн.
Технология ушунчалык алыска кеткенде эмне болот деп ойлойсуз?
Таштап Жооп