Зміст[Сховати][Показати]
Новий покращений AI покращив здібності, розуміння та здатність створювати зображення з більш високою роздільною здатністю. Можливо, останнім часом ви натрапили на дивні та кумедні зображення, які ширяють по Інтернету.
Собака шиба-іну одягнена в берет і чорну водолазку. І морська видра в манері голландського художника Вермеєра «Дівчина з перлинною сережкою». А ще є чашка супу, схожа на шерстистого монстра.
ці зображення були створені не людиною художником.
Натомість DALL-E 2, нова система AI, яка може перетворювати текстові описи в зображення, створила їх.
Просто запишіть те, що ви хочете побачити, і ШІ створить це для вас – з яскравими деталями, високою якістю та, в деяких випадках, справжньою винахідливістю. У цій публікації ми детально розглянемо останнє дослідження OpenAI, DALL.E 2, а також як воно працює та багато іншого. Давайте розпочнемо.
Отже, що саме є DALL.E 2?
DALL-E 2 — це «генеративна модель», тип алгоритму машинного навчання, який генерує складний вихід, а не виконує завдання прогнозування або класифікації вхідних даних.
Ви надаєте DALL-E 2 письмовий опис, і він створює зображення, яке йому відповідає. Поєднуючи концепції, якості та стилі, DALLE 2 OpenAI може створювати інноваційну, реалістичну графіку та мистецтво з базового лінгвістичного опису.
Вважається, що остання версія, DALLE 2, є більш універсальною, здатною створювати зображення з підписів у вищій роздільній здатності та в більш широкому спектрі креативних стилів. Наприклад, зображення нижче (з публікації в блозі DALL-E 2) створено описом «Астронавт верхи на коні».
Один опис закінчується «як начерк олівцем», а інший – «фотореалістично».
Він також може змінювати існуючі фотографії з дивовижною точністю. Таким чином, ви можете додавати або видаляти елементи, зберігаючи кольори, відображення та тіні, зберігаючи оригінальний вигляд зображення.
Як це працює?
DALL-E 2 використовує дві складні моделі CLIP та дифузійну глибоке навчання підходи, розроблені в останні роки. Однак він ґрунтується на тому ж уявленні, що й усі інші глибокі нейронні мережі: репрезентаційне навчання. CLIP одночасно навчає двох нейронні мережі на малюнках і підписах.
Одна мережа вивчає візуальні уявлення на картинці, а інша вивчає текстові уявлення. Під час навчання обидві мережі намагаються змінити свої параметри, щоб порівнянні зображення та описи призвели до подібних вбудов.
Іншим підходом машинного навчання, який використовується в DALL-E 2, є «Дифузія», тип генеративної моделі, яка вчиться створювати зображення шляхом поступового шумування та знешукування своїх навчальних зразків. Моделі дифузії подібні до автокодерів тим, що вони перетворюють вхідні дані у вбудовування подання, а потім використовувати інформацію про вбудовування для відтворення вихідних даних.
Використання OpenAI мовна модель CLIP, який може поєднувати текстові описи з фотографіями, він спочатку переводить письмову підказку в проміжну форму, яка містить ключові властивості, якими має володіти зображення, щоб відповідати цій підказці (відповідно до CLIP).
По-друге, DALL-E 2 створює CLIP-сумісний зображення за допомогою дифузійної моделі, яка є нейронною мережею.
На спотворених фотографіях із випадковими пікселями вивчаються дифузійні моделі. Вони вчаться відновити оригінальний вигляд фотографій. Дифузійні моделі можуть створювати високоякісні синтетичні зображення, особливо якщо вони використовуються разом із керуючим підходом, який віддає перевагу точності над різноманітністю.
Як наслідок, дифузійна модель бере випадкові пікселі та використовує CLIP, щоб перетворити їх на нове зображення, яке відповідає слову підказки. Завдяки концепції дифузії DALL-E 2 може створювати зображення з вищою роздільною здатністю швидше, ніж DALL-E.
Випадок використання DALL.E 2
За останні двадцять років, комп'ютерне бачення технологія просунулася від простого поняття до великого прориву. Незважаючи на ці досягнення, моделі розпізнавання зображень і об’єктів все ще стикаються зі значними перешкодами в повсякденному житті. Відсутність наборів даних є одним з найбільш істотних недоліків розпізнавання зображень і комп'ютерного зору. Оскільки існує дефіцит даних на обох сторонах, навчити моделі розпізнавання зображень давати 100-відсотково точні результати майже важко.
На щастя, нова модель машинного навчання OpenAI може подолати розрив у технологіях. DALLE 2 здатний створювати дивовижні зображення на основі текстових описів. Це створення підроблених зображень може надавати дані моделям розпізнавання зображень на основі їхніх вимог. Відсутність даних є суттєвим каменем спотикання для ідентифікації об’єктів та зображень.
У цифрову еру набори даних повсюдно, але ми все ще шукаємо ярлики для живлення моделі AI, щоб вона могла забезпечити хороші результати. Однак навчити модель розпізнавання зображень непросто. Це вимагає великої кількості наборів даних з невеликими відмінностями, які ми, можливо, не змогли б просто отримати.
Отже, яка відповідь: відповідь — DALLE 2. Генератор зображень OpenAI з його здатністю створювати зображення з текстів і змінювати наявні може допомогти подолати цю прогалину. Це допоможе створити додаткові навчальні дані, а також зменшить кількість необхідного маркування людини. Незважаючи на значну перевагу, ви повинні пам’ятати про шахрайські зображення та зображення, які виключають включення. Це може призвести до того, що методи виявлення зображень дають необ’єктивні результати.
Недоліки
Згідно OpenAI, DALL.E 2 цілком може мати шкідливий вплив, якщо потрапить у чужі руки. У сучасному світі глибоких підробок модель можна легко використовувати для поширення неправдивої інформації або расистських образів, тому OpenAI дозволяє розробникам використовувати DALL.2 лише за запрошенням. Модель повинна дотримуватися суворих обмежень щодо вмісту для всіх пропозицій, які вона отримує.
Щоб виключити можливість створення DALL.E 2 будь-яких ворожих або насильницьких зображень, набір даних був створений без будь-якої смертельної зброї. Хоча OpenAI заявив, що планує перетворити його на API в майбутньому, у випадку з DALL.E 2 він готовий діяти з обережністю.
Висновок
DALL-E 2 — це ще одне цікаве дослідження OpenAI, яке відкриває двері для нових додатків.
Одним із прикладів є створення масивних наборів даних для вирішення одного з основних вузьких місць комп’ютерного зору – даних. Хоча економічна ситуація для багатьох програм на базі DALL-E буде визначатися ціною та політикою, яку OpenAI встановлює для своїх користувачів API, усі вони, безсумнівно, сприятимуть створенню зображень.
залишити коментар