Соңғы жылдары терең оқыту үлгілері адам тілін түсінуде тиімдірек болды.
сияқты жобаларды ойлап көріңіз GPT-3, ол енді бүкіл мақалалар мен веб-сайттарды жасай алады. GitHub жақында енгізілді GitHub Copilot, сізге қажет код түрін жай сипаттау арқылы бүкіл код үзінділерін қамтамасыз ететін қызмет.
OpenAI, Facebook және Google зерттеушілері басқа тапсырманы шешу үшін терең оқытуды пайдалану жолдарын қарастыруда: суреттерге жазу. Миллиондаған жазбалары бар үлкен деректер жинағын пайдалана отырып, олар біразын ойлап тапты таңқаларлық нәтижелері.
Соңғы уақытта бұл зерттеушілер қарама-қарсы тапсырманы орындауға тырысты: жазудан кескіндер жасау. Енді сипаттамадан мүлдем жаңа кескін жасауға болады ма?
Бұл нұсқаулық мәтіннен кескінге дейінгі ең жетілдірілген екі модельді зерттейді: OpenAI DALL-E 2 және Google Imagen AI. Бұл жобалардың әрқайсысы біз білетін қоғамды өзгерте алатын жаңашыл әдістерді енгізді.
Бірақ алдымен мәтіннен кескінге генерация дегенді түсінейік.
Мәтіннен кескінге генерация дегеніміз не?
Мәтіннен кескінге модельдер компьютерлерге сұраулар негізінде жаңа және бірегей кескіндерді жасауға мүмкіндік береді. Адамдар енді өздері шығарғысы келетін кескіннің мәтіндік сипаттамасын бере алады және модель сол сипаттамаға барынша сәйкес келетін көрнекі бейнені жасауға тырысады.
Машиналық оқыту үлгілері өнімділікті одан әрі жақсарту үшін сурет-тақырып жұптары бар үлкен деректер жиынын пайдалануды пайдаланды.
Көбінесе мәтіннен суретке модельдер трансформатор тілінің моделін пайдаланады шақыруларды түсіндіру. Модельдің бұл түрі а нейрондық желі табиғи тілдің контекстін және семантикалық мағынасын білуге тырысады.
Келесі, сияқты генеративті модельдер диффузиялық модельдер және кескін синтезі үшін генеративті қарсылас желілер қолданылады.
DALLE 2 дегеніміз не?
DALL-E2 — OpenAI компаниясының 2022 жылдың сәуірінде шығарылған компьютерлік үлгісі. Модель сөздер мен сөз тіркестерін кескіндермен байланыстыру үшін миллиондаған таңбаланған суреттердің дерекқорында оқытылды.
Пайдаланушылар «лазанья жейтін мысық» сияқты қарапайым фразаны тере алады және DALL-E 2 сөз тіркесінің сипаттауға тырысып жатқанын өз түсіндірмесін жасайды.
Суреттерді нөлден жасаумен қатар, DALL-E 2 бар кескіндерді де өңдей алады. Төмендегі мысалда DALL-E қосымша кушеткасы бар бөлменің өзгертілген кескінін жасай алды.
DALL-E 2 - OpenAI соңғы бірнеше жылда шығарған ұқсас жобалардың бірі ғана. OpenAI-дің GPT-3 нұсқасы әртүрлі стильдердің мәтінін жасағанда жаңалық болды.
Қазіргі уақытта DALL-E 2 әлі бета тестілеуде. Қызығушылық танытқан пайдаланушылар өздерінің сайтына жазыла алады күту тізімі және кіруді күтіңіз.
Бұл қалай жұмыс істейді?
DALL-E 2 нәтижелері әсерлі болғанымен, сіз мұның бәрі қалай жұмыс істейтіні туралы ойлануыңыз мүмкін.
DALL-E 2 OpenAI компаниясының GPT-3 жобасының мультимодальды іске асыру мысалы болып табылады.
Біріншіден, пайдаланушының мәтіндік сұрауы сұрауды ұсыну кеңістігіне салыстыратын мәтіндік кодтаушыға орналастырылады. DALL-E 2 табиғи тілден семантикалық ақпаратты алу үшін CLIP (Контрастивті тіл-суретті алдын ала оқыту) деп аталатын басқа OpenAI үлгісін пайдаланады.
Әрі қарай модель ретінде белгілі бұрынғы мәтінді кодтауды кескін кодтауымен салыстырады. Бұл кескінді кодтау мәтінді кодтау қадамында табылған семантикалық ақпаратты түсіруі керек.
Нақты кескінді жасау үшін DALL-E 2 семантикалық ақпаратты және кескінді кодтау мәліметтерін пайдалана отырып визуалды жасау үшін кескін декодерін пайдаланады. OpenAI өзгертілген нұсқасын пайдаланады ГЛИД кескінді құруға арналған модель. GLIDE a-ға сүйенеді диффузиялық модель бейнелер жасау үшін.
DALL-E 2 үлгісіне GLIDE қосу көбірек фотореалистикалық шығаруға мүмкіндік берді. GLIDE үлгісі стохастикалық немесе кездейсоқ анықталғандықтан, DALL-E 2 үлгісі модельді қайта-қайта іске қосу арқылы оңай вариация жасай алады.
шектеулер
DALL-E 2 моделінің әсерлі нәтижелеріне қарамастан, ол әлі де кейбір шектеулерге тап болады.
Орфографиялық мәтін
DALL-E 2 мәтінін жасауға тырысатын кеңестер оның сөздерді жазуда қиындықтары бар екенін көрсетеді. Сарапшылардың пайымдауынша, бұл орфографиялық ақпараттың бөлігі болмағандықтан болуы мүмкін оқыту деректер жинағы.
Композициялық дәлелдеу
Зерттеушілер DALL-E 2 композициялық ой қорытуда әлі де біраз қиындықтар бар екенін байқады. Қарапайым тілмен айтқанда, модель кескіннің жеке аспектілерін түсіне алады, бірақ бұл аспектілер арасындағы байланыстарды анықтау қиынға соғады.
Мысалы, «көк текшенің үстіндегі қызыл текше» сұрауы берілсе, DALL-E көк текшені және қызыл текшені дәл жасайды, бірақ оларды дұрыс орналастыра алмайды. Модельде нысандардың белгілі бір санын сызуды талап ететін шақырулармен қиындықтар туындайтыны да байқалды.
Деректер жиынындағы ауытқу
Егер сұрауда басқа мәліметтер болмаса, DALL-E ақ немесе батыс адамдар мен орталарды бейнелегені байқалады. Бұл репрезентативті қиғаштық деректер жинағындағы батысқа бағытталған кескіндердің көптігінен туындайды.
Модельдің гендерлік стереотиптерді ұстануы да байқалды. Мысалы, жылдам «бортсерік» сөзін теру көбінесе әйел стюардессалардың кескіндерін жасайды.
Google Imagen AI дегеніміз не?
Google Imagen AI енгізілген мәтіннен фотореалистік кескіндерді жасауға бағытталған модель. DALL-E сияқты, модель мәтінді түсіну үшін трансформатор тілінің үлгілерін де пайдаланады және жоғары сапалы кескіндерді жасау үшін диффузиялық модельдерді пайдалануға сүйенеді.
Imagen-мен қатар, Google сонымен қатар DrawBench деп аталатын мәтіннен кескінге модельдер үшін эталонды шығарды. DrawBench көмегімен олар адам бағалаушылары DALL-E 2 қоса алғанда, басқа модельдерден Imagen шығысын артық көретінін байқады.
Бұл қалай жұмыс істейді?
DALL-E-ге ұқсас, Imagen алдымен пайдаланушы шақыруын мұздатылған мәтіндік кодтауыш арқылы ендірілген мәтінге түрлендіреді.
Imagen шу үлгісін кескіндерге түрлендіруді үйренетін диффузиялық модельді пайдаланады. Бұл кескіндердің бастапқы шығысы төмен ажыратымдылық болып табылады және кейінірек соңғы кескіннің ажыратымдылығын арттыру үшін аса ажыратымдылықтағы диффузиялық модель деп аталатын басқа модель арқылы өтеді. Бірінші диффузиялық модель 64×64 пиксельдік кескінді шығарады және кейінірек жоғары ажыратымдылығы 1024×1024 кескінге дейін үрленеді.
Imagen тобының зерттеулеріне сүйене отырып, тек мәтіндік деректерге үйретілген үлкен қатырылған тіл үлгілері әлі де мәтіннен кескінге генерациялау үшін жоғары тиімді мәтін кодтаушылар болып табылады.
Зерттеу сонымен қатар динамикалық шек ұғымын енгізеді. Бұл әдіс кескінді жасау кезінде бағыттау салмағын арттыру арқылы кескіндердің фотореалистикалық болып көрінуіне мүмкіндік береді.
DALLE 2 және Imagen өнімділігі
Google эталонының алдын ала нәтижелері респонденттердің DALL-E 2 және жасырын диффузия және VQGAN+CLIP сияқты басқа мәтіннен кескінге үлгілеріне қарағанда Imagen жасаған кескіндерді ұнататынын көрсетеді.
Imagen командасының нәтижелері олардың үлгісі мәтінді жазуда жақсырақ жұмыс істейтінін көрсетті, бұл DALL-E 2 үлгісінің белгілі әлсіздігі.
Дегенмен, Google бұл модельді жұртшылыққа әлі жарияламағандықтан, Google-дің эталондарының қаншалықты дәл екенін әлі де көру керек.
қорытынды
Фотореалистік мәтіннен кескінге модельдердің өсуі даулы болып табылады, өйткені бұл модельдер этикалық емес қолдануға дайын.
Технология анық мазмұнды жасауға немесе жалған ақпарат құралы ретінде әкелуі мүмкін. Google және OpenAI зерттеушілері бұл туралы біледі, сондықтан ішінара бұл технологиялар әлі де барлығына қол жетімді емес.
Мәтіннен кескінге модельдердің маңызды экономикалық салдары да бар. DALL-E сияқты модельдер негізгі ағымға айналса, модельдер, фотографтар және суретшілер сияқты мамандықтарға әсер ете ме?
Қазіргі уақытта бұл модельдерде әлі де шектеулер бар. Кез келген AI-генерацияланған кескінді мұқият қарау оның кемшіліктерін көрсетеді. OpenAI және Google екеуі де ең тиімді үлгілер үшін бәсекелесіп жатқанда, шын мәнінде тамаша нәтиже: нақты нәрседен ажыратылмайтын кескін жасалу үшін уақыт мәселесі болуы мүмкін.
Технология соншалықты алысқа кеткенде не болады деп ойлайсыз?
пікір қалдыру