Жаңа және жетілдірілген AI қабілеттерін, түсінуін және жоғары ажыратымдылықтағы кескіндерді шығару мүмкіндігін жақсартты. Жақында интернетте қалықтап жүрген біртүрлі және қызықты суреттерді кездестірген боларсыз.
Шиба ину иті берет пен қара тасбақа киген. Ал голланд суретшісі Вермеердің «Інжу сырғалы қыз» үлгісіндегі теңіз құмырасы. Ал жүнді құбыжық сияқты бір кесе сорпа бар.
бұл суреттер суретші адам жасаған жоқ.
Оның орнына DALL-E 2, мәтіндік сипаттамаларды кескіндерге түрлендіруге болатын жаңа AI жүйесі оларды жасады.
Жай ғана көргіңіз келетін нәрсені жазыңыз, сонда AI оны сіз үшін жасайды – нақты егжей-тегжейлі, тамаша сапа және кейбір жағдайларда шынайы өнертапқыштық. Бұл постта біз OpenAI-дің соңғы зерттеуі DALL.E 2, оның қалай жұмыс істейтінін және т.б. қарастырамыз. Бастайық.
Сонымен, нақты не DALL.E 2?
DALL-E 2 – «генеративті модель», кіріс деректерінде болжау немесе жіктеу тапсырмаларын орындаудың орнына күрделі нәтижелерді жасайтын машиналық оқыту алгоритмінің түрі.
Сіз DALL-E 2 жазбаша сипаттамасын бересіз және ол оған сәйкес суретті жасайды. Тұжырымдамаларды, қасиеттерді және стильдерді біріктіре отырып, OpenAI DALLE 2 негізгі лингвистикалық сипаттамадан инновациялық, шынайы графика мен өнер жасай алады.
DALLE 2 соңғы нұсқасы анағұрлым әмбебап, жоғары ажыратымдылықтағы және шығармашылық стильдердің кең спектріндегі жазулардан суреттер жасауға қабілетті деп айтылады. Мысалы, төмендегі суреттер (DALL-E 2 блог жазбасынан) «Атқа мінген астронавт» сипаттамасы арқылы жасалған.
Бір сипаттама «қарындаш эскизі сияқты», ал екіншісі «фотореалистік түрде» деп қорытындылайды.
Ол сондай-ақ бар фотосуреттерді таңқаларлық дәлдікпен өзгерте алады. Сонымен, түстерді, шағылыстарды және көлеңкелерді сақтай отырып, бастапқы кескіннің сыртқы түрін сақтай отырып, элементтерді қосуға немесе жоюға болады.
Бұл қалай жұмыс істейді?
DALL-E 2 CLIP және диффузиялық модельдерді пайдаланады, екі күрделі терең білім алу соңғы жылдары қалыптасқан тәсілдер. Дегенмен, ол барлық басқа тереңдіктер сияқты бірдей ұғымға негізделген нейрондық желілер: бейнелеуді оқыту. CLIP бір уақытта екеуін жаттықтырады нейрондық желілер суреттер мен жазулар бойынша.
Бір желі суреттегі көрнекі бейнелерді үйренсе, екіншісі мәтіндік бейнелерді үйренеді. Жаттығу кезінде екі желі салыстырмалы суреттер мен сипаттамалар ұқсас ендірулерге әкелетіндей етіп өз параметрлерін өзгертуге тырысады.
«Диффузия», жаттығу үлгілерін бірте-бірте шуылдату және дыбыссыздандыру арқылы суреттер жасауды үйренетін генеративті үлгінің түрі, DALL-E 2 жүйесінде қолданылатын машиналық оқытудың басқа тәсілі. Диффузия модельдері кіріс деректерін түрлендіретін автокодерлерге ұқсас. ендірілген ұсыну, содан кейін бастапқы деректерді қайта жасау үшін ендірілген ақпаратты пайдаланыңыз.
OpenAI қолдану тіл үлгісі Мәтіндік сипаттамаларды фотосуреттермен байланыстыра алатын CLIP, ол алдымен жазбаша сұрауды суреттің осы шақыруға сәйкес болуы керек маңызды қасиеттерін қамтитын аралық пішінге аударады (CLIP сәйкес).
Екіншіден, DALL-E 2 CLIP-үйлесімді жасайды диффузиялық модельді қолданатын кескін, бұл нейрондық желі.
Кездейсоқ пиксельдері бар бұрмаланған фотосуреттерде диффузиялық модельдер үйренеді. Олар фотосуреттердің бастапқы пішінін қалпына келтіруді үйренеді. Диффузиялық модельдер жоғары сапалы синтетикалық кескіндерді жасай алады, әсіресе әртүрліліктен гөрі дәлдікке басымдық беретін жетекші тәсілмен бірге пайдаланылғанда.
Нәтижесінде диффузиялық модель кездейсоқ пикселдерді алады және оларды сөз сұрауына сәйкес келетін жаңа кескінге түрлендіру үшін CLIP пайдаланады. Диффузия тұжырымдамасының арқасында DALL-E 2 DALL-E-ге қарағанда жоғары ажыратымдылықтағы кескіндерді жылдам шығара алады.
DALL.E 2 пайдалану жағдайы
Соңғы жиырма жылда, компьютерлік көру технология қарапайым түсініктен үлкен жетістікке жетті. Осы жетістіктерге қарамастан, сурет пен нысанды тану үлгілері әлі де күнделікті өмірде айтарлықтай кедергілерге тап болады. Деректер жиынтығының болмауы кескінді тану мен компьютерлік көрудің ең маңызды кемшіліктерінің бірі болып табылады. Екі жақта да деректер тапшылығы болғандықтан, кескінді тану үлгілерін 100 пайыз дәл нәтиже беретіндей үйрету қиынға соғады.
Бақытымызға орай, OpenAI-дің машиналық оқытудың жаңа моделі технологиядағы алшақтықты жоя алады. DALLE 2 мәтіндік сипаттамалар негізінде таңғажайып суреттер жасауға қабілетті. Бұл жалған сурет өндірісі олардың талаптарына негізделген кескінді тану үлгілеріне деректерді бере алады. Деректердің болмауы объект пен суретті сәйкестендіру үшін айтарлықтай кедергі болып табылады.
Цифрлық дәуірде деректер жинақтары барлық жерде кездеседі, бірақ біз әлі де AI моделін қамтамасыз ету үшін төте жолдарды іздейміз, сондықтан ол жақсы нәтижелерді қамтамасыз ете алады. Дегенмен, кескінді тану үлгісін үйрету оңай емес. Бұл аз ғана айырмашылықтары бар деректер жиынының үлкен санын қажет етеді, мүмкін біз оларды жай ғана шығарып ала алмадық.
Сонымен, жауап қандай: Жауап - DALLE 2. OpenAI сурет генераторы мәтіндерден кескіндер шығаруға және барларын өзгертуге мүмкіндік береді, алшақтықты жоюға көмектеседі. Бұл қосымша оқу деректерін жасауға көмектеседі, сонымен қатар талап етілетін адам таңбалау көлемін азайтады. Айтарлықтай артықшылыққа қарамастан, сіз жалған кескіндер мен қосуды болдырмайтын кескіндерді білуіңіз керек. Бұл біржақты нәтижелер беретін кескінді анықтау әдістеріне әкелуі мүмкін.
шектеулер
OpenAI мәліметтері бойынша, DALL.E 2 қате қолдарға түссе, зиянды әсер етуі мүмкін. Бүгінгі терең фейктер әлемінде модель жалған ақпаратты немесе нәсілшіл бейнелерді тарату үшін оңай пайдаланылуы мүмкін, сондықтан OpenAI әзірлеушілерге DALL.2-ні шақыру арқылы ғана пайдалануға мүмкіндік береді. Модель алған барлық ұсыныстар үшін қатаң мазмұн шектеуіне сай болуы керек.
DALL.E 2 кез келген дұшпандық немесе зорлық-зомбылық суреттерін жасау мүмкіндігін болдырмау үшін деректер жинағы өлімге әкелетін қарусыз жасалды. OpenAI болашақта оны API-ге түрлендіруді жоспарлап отырғанын мәлімдегенімен, DALL.E 2 жағдайында ол сақтықпен әрекет етуге дайын.
қорытынды
DALL-E 2 - жаңа қосымшаларға жол ашатын тағы бір қызықты OpenAI зерттеу жаңалығы.
Бір мысал - компьютерлік көрудің негізгі кедергілерінің бірін қанағаттандыру үшін ауқымды деректер жиынын жасау - деректер. Көптеген DALL-E негізіндегі қолданбалар үшін экономикалық жағдай OpenAI API пайдаланушылары үшін белгілейтін баға мен саясатпен анықталатынымен, олардың барлығы сурет өндірісін ілгерілететіні сөзсіз.
пікір қалдыру