Содржина[Крие][Прикажи]
Новата и подобрена вештачка интелигенција ги подобри способностите, разбирањето и капацитетот за производство на слики со повисока резолуција. Можеби во последно време наидовте на некои чудни и забавни слики кои лебдат низ интернет.
Куче Шиба Ину е облечено во беретка и црн врат. И морска видра на манирот на „Девојка со бисерна обетка“ на холандскиот сликар Вермер. И има една чаша супа што изгледа како волнено чудовиште.
Овие слики не се создадени од човечки уметник.
Наместо тоа, DALL-E 2, нов систем за вештачка интелигенција што може да ги конвертира текстуалните описи во слики, ги создаде.
Едноставно запишете го она што сакате да го видите и вештачката интелигенција ќе го создаде за вас - со живописни детали, одличен квалитет и, во некои случаи, вистинска инвентивност. Во овој пост, ќе разгледаме длабоко најновата студија на OpenAI, DALL.E 2, како и како таа функционира и многу повеќе. Ајде да почнеме.
Значи, што точно е DALL.E 2?
DALL-E 2 е „генеративен модел“, тип на алгоритам за машинско учење што генерира комплициран излез наместо да врши задачи за предвидување или класификација на влезните податоци.
На DALL-E 2 му давате пишан опис и тој создава слика што одговара на него. Со комбинирање на концепти, квалитети и стилови, DALLE 2 на OpenAI може да произведе иновативна, реална графика и уметност од основен лингвистички опис.
Најновата верзија, DALLE 2, се вели дека е повеќе разновидна, способна да прави слики од натписи со поголема резолуција и во поширок спектар на креативни стилови. На пример, сликите подолу (од блог постот DALL-E 2) се создадени со описот „Астронаут јава коњ“.
Едниот опис завршува „како скица со молив“, додека другиот заклучува „на фотореалистичен начин“.
Исто така, може да ги промени постоечките фотографии со неверојатна прецизност. Така, можете да додавате или бришете елементи додека ги задржувате боите, рефлексиите и сенките, а сето тоа додека го одржувате изгледот на оригиналната слика.
Како работи?
DALL-E 2 користи модели CLIP и дифузија, два софистицирани длабоко учење пристапи развиени во последните години. Сепак, се заснова на истиот поим како и сите други длабоки невронски мрежи: репрезентативно учење. CLIP истовремено тренира двајца нервните мрежи на слики и натписи.
Едната мрежа ги учи визуелните претстави на сликата, додека другата ги учи текстуалните претстави. За време на обуката, двете мрежи се обидуваат да ги изменат нивните параметри така што споредливите слики и описи резултираат со слични вградувања.
„Дифузија“, тип на генеративен модел кој учи да прави слики со постепено шумирање и отпишување на примероците за обука, е другиот пристап за машинско учење што се користи во DALL-E 2. Моделите за дифузија се слични на автоенкодерите по тоа што ги трансформираат влезните податоци во вградување претставување и потоа користете ги информациите за вградување за да ги рекреирате оригиналните податоци.
Користење на OpenAI јазичен модел CLIP, кој може да ги поврзе текстуалните описи со фотографии, прво го преведува писменото барање во средна форма што ги вклучува клучните својства што треба да ги има една слика за да одговара на тој промпт (според CLIP).
Второ, DALL-E 2 создава CLIP-компатибилен слика користејќи дифузен модел, што е невронска мрежа.
На искривените фотографии со случајни пиксели, се учат моделите на дифузија. Тие учат како да ја вратат оригиналната форма на фотографиите. Моделите со дифузија можат да произведат висококвалитетни синтетички слики, особено кога се користат заедно со водечки пристап кој дава приоритет на точноста пред различноста.
Како последица на тоа, на модел на дифузија ги зема случајните пиксели и користи CLIP за да ги претвори во нова слика што одговара на барањето за збор. Поради концептот на дифузија, DALL-E 2 може да произведе слики со повисока резолуција побрзо од DALL-E.
DALL.E 2 футрола за употреба
Во последните дваесет години, компјутерска визија технологијата напредуваше од едноставен поим до голем пробив. И покрај овие достигнувања, моделите за препознавање слики и предмети сè уште се соочуваат со значителни пречки во секојдневниот живот. Отсуството на збирки на податоци е еден од најзначајните недостатоци на препознавањето на слики и компјутерската визија. Бидејќи има недостиг на податоци на двата краја, обуката на моделите за препознавање слики за да дадат 100 проценти прецизни резултати е речиси тешко.
За среќа, новиот модел на машинско учење на OpenAI може да го премости јазот во технологијата. DALLE 2 е способен да генерира неверојатни слики врз основа на описи на текст. Ова производство на лажни слики може да обезбеди податоци за моделите за препознавање слики врз основа на нивните барања. Отсуството на податоци е значаен камен на сопнување за идентификација на предмети и слики.
Во дигиталната ера, збирките на податоци се сеприсутни, но сепак ние сè уште бараме кратенки за да го нахраниме моделот со вештачка интелигенција, за да може да обезбеди добри резултати. Сепак, не е едноставно да се обучи модел за препознавање слика. Потребен е голем број на збирки на податоци со мали разлики, кои можеби нема да можевме едноставно да ги вратиме.
Значи, кој е одговорот: Одговорот е DALLE 2. Генераторот на слики OpenAI, со својот капацитет да произведува слики од текстови и да ги менува постоечките, може да помогне да се премости јазот. Ова ќе помогне во генерирањето на дополнителни податоци за обука, истовремено намалувајќи ја количината на потребната ознака за луѓе. И покрај значителната придобивка, треба да бидете свесни за лажни продукции на слики и слики што го исклучуваат вклучувањето. Ова може да доведе до методи за откривање слики кои произведуваат пристрасни резултати.
Ограничувања
DALL.E 2 може да има штетно влијание ако падне во погрешни раце, според OpenAI. Во денешниот свет на длабоки фалсификати, моделот лесно може да се користи за ширење лажни информации или расистички слики, па затоа OpenAI им дозволува на програмерите да користат DALL.2 само со покана. Манекенката мора да се придржува до ригорозно ограничување на содржината за сите предлози што ги добива.
За да се исклучи потенцијалот на DALL.E 2 да создава какви било непријателски или насилни слики, базата на податоци е создадена без никакво смртоносно оружје. Додека OpenAI изјави дека планира да го трансформира во API во иднина, во случајот со DALL.E 2, тој е подготвен да продолжи со претпазливост.
Заклучок
DALL-E 2 е уште едно интересно откритие за истражување на OpenAI што ја отвора вратата за нови апликации.
Еден пример е создавање масивни сетови на податоци за да се исполни еден од главните тесни грла на компјутерската визија – податоци. Додека економскиот случај за многу апликации базирани на DALL-E ќе биде одреден од цената и политиките што OpenAI ги воспоставува за своите корисници на API, сите тие несомнено ќе го унапредат производството на слики.
Оставете Одговор