Съдържание[Крия][Покажи]
Новият и подобрен AI има подобрени способности, разбиране и капацитет за създаване на изображения с по-висока разделителна способност. Напоследък може да сте попаднали на някои странни и забавни изображения, които витаят из интернет.
Куче шиба ину е облечено в барета и черна водолазка. И морска видра в стила на „Момиче с перлена обица“ на холандския художник Вермеер. И има чаша супа, която прилича на вълнесто чудовище.
Тези снимки не са създадени от човек-художник.
Вместо това, DALL-E 2, нова AI система, която може да конвертира текстови описания в изображения, ги създаде.
Просто запишете това, което искате да видите, и AI ще го създаде за вас – с ярки детайли, страхотно качество и, в някои случаи, истинска изобретателност. В тази публикация ще разгледаме задълбочено най-новото проучване на OpenAI, DALL.E 2, както и как работи и много повече. Да започваме.
И така, какво точно е DALL.E 2?
DALL-E 2 е „генеративен модел“, вид алгоритъм за машинно обучение, който генерира сложен изход, вместо да изпълнява задачи за прогнозиране или класифициране на входни данни.
Предоставяте на DALL-E 2 писмено описание и той създава картина, която съответства на него. Чрез комбиниране на концепции, качества и стилове, DALLE 2 на OpenAI може да създаде иновативни, реалистични графики и изкуство от основно езиково описание.
Най-новата версия, DALLE 2, се казва, че е по-гъвкава, способна да прави снимки от надписи при по-високи разделителни способности и в по-широк спектър от творчески стилове. Например, снимките по-долу (от публикацията в блога на DALL-E 2) са създадени от описанието „Астронавт, яздейки кон“.
Едно описание завършва „като скица с молив“, докато другото завършва „по фотореалистичен начин“.
Може също така да променя съществуващи снимки с удивителна прецизност. Така че можете да добавяте или изтривате елементи, като запазвате цветове, отражения и сенки, като същевременно запазвате външния вид на оригиналното изображение.
Как работи?
DALL-E 2 използва модели CLIP и дифузия, два сложни дълбоко учене подходи, разработени през последните години. Въпреки това, той се основава на същата идея като всички други дълбоки невронни мрежи: представяне обучение. CLIP обучава едновременно двама невронни мрежи на снимки и надписи.
Едната мрежа научава визуалните представяния в картината, докато другата научава текстовите представяния. По време на обучението двете мрежи се опитват да променят своите параметри, така че сравнимите картини и описания да водят до подобни вграждания.
„Дифузия“, тип генеративен модел, който се научава да прави картини чрез постепенно зашумяване и обезшумяване на обучителните си проби, е другият подход за машинно обучение, използван в DALL-E 2. Дифузионните модели са подобни на автоенкодерите по това, че трансформират входните данни в представяне на вграждане и след това използвайте информацията за вграждане, за да пресъздадете оригиналните данни.
Използване на OpenAI езиков модел CLIP, който може да свързва текстови описания със снимки, той първо превежда писмената подкана в междинна форма, която включва важните свойства, които една картина трябва да има, за да съответства на тази подкана (според CLIP).
Второ, DALL-E 2 създава CLIP-съвместим изображение с помощта на дифузионен модел, което е невронна мрежа.
На изкривени снимки с произволни пиксели се научават модели на дифузия. Те се научават как да възстановят оригиналния вид на снимките. Дифузионните модели могат да произвеждат висококачествени синтетични изображения, особено когато се използват заедно с насочващ подход, който дава приоритет на точността пред разнообразието.
В резултат на това дифузионен модел взема произволните пиксели и използва CLIP, за да ги преобразува в ново изображение, което съответства на подканата за дума. Поради концепцията за дифузия, DALL-E 2 може да създава изображения с по-висока разделителна способност по-бързо от DALL-E.
Случай на използване на DALL.E 2
През последните двадесет години, компютърно зрение технологията напредна от проста идея до голям пробив. Въпреки този напредък, моделите за разпознаване на картини и обекти все още се сблъскват със значителни пречки в ежедневието. Липсата на набори от данни е един от най-значимите недостатъци на разпознаването на изображения и компютърното зрение. Тъй като има недостиг на данни и от двете страни, обучението на модели за разпознаване на изображения да дават 100 процента точни резултати е почти трудно.
За щастие, новият модел за машинно обучение на OpenAI може да преодолее празнината в технологиите. DALLE 2 е в състояние да генерира невероятни снимки въз основа на текстови описания. Това производство на фалшиви изображения може да предостави данни на моделите за разпознаване на изображения въз основа на техните изисквания. Липсата на данни е значителна пречка за идентифициране на обекти и изображения.
В дигиталната ера наборите от данни са повсеместни, но все още търсим преки пътища за захранване на AI модела, така че той да може да осигури добри резултати. Обаче не е лесно да се обучи модел за разпознаване на изображения. Това изисква голям брой набори от данни с малки разлики, които може да не сме успели да извлечем просто.
И така, какъв е отговорът: Отговорът е DALLE 2. Генераторът на картини OpenAI, с капацитета си да създава изображения от текстове и да променя съществуващите, може да помогне за преодоляване на празнината. Това ще подпомогне генерирането на допълнителни данни за обучение, като същевременно ще намали необходимото количество човешко етикетиране. Въпреки значителната полза, трябва да сте наясно с измамни изображения и изображения, които изключват включването. Това може да доведе до изкривени резултати от методите за откриване на изображения.
Ограничения
DALL.E 2 може да има вредно влияние, ако попадне в грешни ръце, според OpenAI. В днешния свят на дълбоки фалшификати, моделът може лесно да се използва за разпространение на невярна информация или расистки образи, поради което OpenAI позволява на разработчиците да използват DALL.2 само с покана. Моделът трябва да спазва строго ограничение на съдържанието за всички предложения, които получава.
За да се изключи потенциалът на DALL.E 2 да създава враждебни или насилствени картини, наборът от данни е създаден без никакви смъртоносни оръжия. Докато OpenAI заяви, че планира да го трансформира в API в бъдеще, в случая с DALL.E 2, той е готов да продължи с повишено внимание.
Заключение
DALL-E 2 е друго интересно OpenAI изследователско откритие, което отваря вратата към нови приложения.
Един пример е създаването на масивни набори от данни, за да се отговори на едно от основните пречки на компютърното зрение – данните. Въпреки че икономическият случай за много приложения, базирани на DALL-E, ще се определя от цената и политиките, които OpenAI установява за своите потребители на API, всички те несъмнено ще ускорят производството на картина.
Оставете коментар