DALL.E 2 - Пераўтварыце свае думкі ў візуальныя матэрыялы з дапамогай тэксту

Змест[Схаваць][Паказаць]

Такім чынам, што такое DALL.E 2?
Як гэта працуе?
Выпадак выкарыстання DALL.E 2
Недахопы
заключэнне

Новы палепшаны штучны інтэлект мае палепшаныя здольнасці, разуменне і здольнасць ствараць выявы з больш высокай разрознасцю. Магчыма, вы апошнім часам сутыкаліся з дзіўнымі і пацешнымі малюнкамі, якія луналі ў Інтэрнэце.

Сабака шыба-іну апранутая ў бярэ і чорную водолазка. І марская выдра на манер галандскага мастака Вермеера «Дзяўчына з жамчужнай завушніцай». І ёсць кубак супу, які падобны на шарсцістага монстра.

Гэтыя выявы не былі створаны чалавекам-мастаком.

Замест гэтага DALL-E 2, новая сістэма штучнага інтэлекту, якая можа канвертаваць тэкставыя апісанні ў выявы, стварыла іх.

Проста запішыце тое, што вы хочаце бачыць, і штучны інтэлект створыць гэта для вас - з яркімі дэталямі, выдатнай якасцю і, у некаторых выпадках, з сапраўднай вынаходлівасцю. У гэтай публікацыі мы падрабязна разгледзім апошняе даследаванне OpenAI, DALL.E 2, а таксама тое, як гэта працуе, і многае іншае. Давайце пачнем.

Такім чынам, што менавіта DALL.E 2?

DALL-E 2 - гэта "генератыўная мадэль", тып алгарытму машыннага навучання, які стварае складаны вывад, а не выконвае задачы прагназавання або класіфікацыі ўваходных даных.

Вы даяце DALL-E 2 пісьмовае апісанне, і ён стварае карцінку, якая яму адпавядае. Камбінуючы канцэпцыі, якасці і стылі, DALLE 2 ад OpenAI можа ствараць інавацыйныя, рэалістычныя графікі і мастацтва з базавага лінгвістычнага апісання.

Кажуць, што апошняя версія, DALLE 2, больш універсальная, здольная ствараць выявы з подпісаў у больш высокай разрознасці і ў больш шырокім спектры творчых стыляў. Напрыклад, малюнкі ніжэй (з паведамлення ў блогу DALL-E 2) створаны па апісанні «Касманаўт верхам на кані».

Адно апісанне заканчваецца «як эскіз алоўкам», а другое — «фотарэалістычным».

Касманаўт верхам на кані

Ён таксама можа змяняць існуючыя фатаграфіі з дзіўнай дакладнасцю. Такім чынам, вы можаце дадаваць або выдаляць элементы, захоўваючы пры гэтым колеры, водбліскі і цені, захоўваючы зыходны выгляд выявы.

Як гэта працуе?

DALL-E 2 выкарыстоўвае дзве складаныя мадэлі CLIP і diffusion глыбокае вывучэнне падыходаў, выпрацаваных у апошнія гады. Аднак ён заснаваны на тым жа паняцці, што і ўсе іншыя глыбіні нейронныя сеткі: прадстаўленне навучання. CLIP адначасова трэніруецца двое нейронавыя сеткі на малюнках і подпісах.

Адна сетка вывучае візуальныя ўяўленні на малюнку, а другая - тэкставыя. Падчас навучання абедзве сеткі спрабуюць змяніць свае параметры так, каб супастаўныя малюнкі і апісанні прыводзілі да падобных убудоўванняў.

«Дыфузія», тып генератыўнай мадэлі, якая вучыцца ствараць выявы шляхам паступовага шумавіння і дэшумлення навучальных узораў, з'яўляецца іншым падыходам машыннага навучання, які выкарыстоўваецца ў DALL-E 2. Дыфузійныя мадэлі падобныя на аўтакадавальнікі тым, што яны пераўтвараюць ўваходныя даныя ў убудаванае прадстаўленне, а затым выкарыстоўвайце інфармацыю аб убудаванні для ўзнаўлення зыходных даных.

DALL.E2 працуе

Выкарыстанне OpenAI моўная мадэль CLIP, які можа звязваць тэкставыя апісанні з фатаграфіямі, ён спачатку перакладае пісьмовую падказку ў прамежкавую форму, якая ўключае важныя ўласцівасці, якімі павінна валодаць выява, каб адпавядаць гэтай падказцы (згодна з CLIP).

Па-другое, DALL-E 2 стварае CLIP-сумяшчальны малюнак з выкарыстаннем дыфузійнай мадэлі, які з'яўляецца нейронавай сеткай.

На скажоных фотаздымках са выпадковымі пікселямі вывучаюцца мадэлі дыфузіі. Яны вучацца аднаўляць першапачатковы выгляд фатаграфій. Дыфузійныя мадэлі могуць ствараць высакаякасныя сінтэтычныя выявы, асабліва калі яны выкарыстоўваюцца ў спалучэнні з кіруючым падыходам, які аддае перавагу дакладнасці перад разнастайнасцю.

Як следства, ст дыфузійная мадэль бярэ выпадковыя пікселі і выкарыстоўвае CLIP для пераўтварэння іх у новы малюнак, які адпавядае слову падказкі. З-за канцэпцыі дыфузіі DALL-E 2 можа ствараць выявы з больш высокай разрознасцю хутчэй, чым DALL-E.

Выпадак выкарыстання DALL.E 2

За апошнія дваццаць гадоў, машыннае зрок тэхналогія прасунулася ад простай ідэі да вялікага прарыву. Нягледзячы на гэтыя дасягненні, мадэлі распазнання малюнкаў і аб'ектаў па-ранейшаму сутыкаюцца са значнымі перашкодамі ў паўсядзённым жыцці. Адсутнасць набораў даных з'яўляецца адным з найбольш істотных недахопаў распазнавання малюнкаў і камп'ютэрнага зроку. З-за дэфіцыту дадзеных на абодвух канцах, навучанне мадэляў распазнавання малюнкаў, каб даваць 100-працэнтныя дакладныя вынікі, амаль складана.

На шчасце, новая мадэль машыннага навучання OpenAI можа пераадолець разрыў у тэхналогіях. DALLE 2 здольны ствараць дзіўныя малюнкі на аснове тэкставых апісанняў. Гэтая фальшывая вытворчасць малюнкаў можа прадастаўляць даныя мадэлям распазнавання малюнкаў у адпаведнасці з іх патрабаваннямі. Адсутнасць дадзеных з'яўляецца істотным каменем перапоны для ідэнтыфікацыі аб'ектаў і малюнкаў.

У лічбавую эру наборы даных распаўсюджаны паўсюдна, але мы ўсё яшчэ шукаем цэтлікі для падсілкоўвання мадэлі штучнага інтэлекту, каб яна магла даць добрыя вынікі. Аднак навучыць мадэль распазнання выявы няпроста. Гэта патрабуе вялікай колькасці набораў даных з невялікімі адрозненнямі, якія мы, магчыма, не змаглі б проста атрымаць.

Такім чынам, які адказ: Адказ - DALLE 2. Генератар малюнкаў OpenAI з яго здольнасцю ствараць выявы з тэкстаў і змяняць існуючыя можа дапамагчы ліквідаваць гэты разрыў. Гэта дапаможа ў генерацыі дадатковых даных для навучання, а таксама паменшыць колькасць неабходнай маркіроўкі чалавекам. Нягледзячы на значную карысць, вы павінны быць дасведчаныя аб фальшывых вырабах малюнкаў і малюнках, якія выключаюць уключэнне. Гэта можа прывесці да таго, што метады выяўлення выявы будуць даваць неаб'ектыўныя вынікі.

Недахопы

Згодна з OpenAI, DALL.E 2 цалкам можа мець шкодны ўплыў, калі трапіць у чужыя рукі. У сучасным свеце глыбокіх фэйкаў мадэль можа лёгка выкарыстоўвацца для распаўсюджвання ілжывай інфармацыі або расісцкіх вобразаў, таму OpenAI дазваляе распрацоўшчыкам выкарыстоўваць DALL.2 толькі па запрашэнні. Мадэль павінна адпавядаць строгім абмежаванням зместу для ўсіх прапаноў, якія яна атрымлівае.

Каб выключыць патэнцыял DALL.E 2 для стварэння варожых або гвалтоўных малюнкаў, набор даных быў створаны без смяротнай зброі. У той час як OpenAI заявіў, што плануе ператварыць яго ў API у будучыні, у выпадку з DALL.E 2 ён гатовы дзейнічаць асцярожна.

заключэнне

DALL-E 2 - яшчэ адно цікавае даследчае адкрыццё OpenAI, якое адкрывае дзверы для новых прыкладанняў.

Адным з прыкладаў з'яўляецца стварэнне масіўных набораў даных, каб справіцца з адным з асноўных вузкіх месцаў камп'ютэрнага зроку - дадзенымі. У той час як эканамічнае абгрунтаванне для многіх прыкладанняў на базе DALL-E будзе вызначацца коштам і палітыкай, якія OpenAI устанаўлівае для сваіх карыстальнікаў API, усе яны, несумненна, паспрыяюць вытворчасці малюнкаў.

DALL.E 2 – ператварыце свае думкі ў візуал, выкарыстоўваючы тэкст

Такім чынам, што менавіта DALL.E 2?

Як гэта працуе?

Выпадак выкарыстання DALL.E 2

Недахопы

заключэнне

аб Сойка

Іншыя артыкулы на HashDork:

Як паменшыць галюцынацыі ў вашым AI

Каласян супраць Хейгена

Гэты інфармацыйны бюлетэнь будучых тэхналогій не адстой

DALL.E 2 – ператварыце свае думкі ў візуал, выкарыстоўваючы тэкст

Такім чынам, што менавіта DALL.E 2?

Як гэта працуе?

Выпадак выкарыстання DALL.E 2

Недахопы

заключэнне

аб Сойка

Іншыя артыкулы на HashDork:

Як паменшыць галюцынацыі ў вашым AI

10 лепшых інструментаў AI для сацыяльных сетак

Каласян супраць Хейгена

10 лепшых інструментаў для стварэння анімаваных відэа са штучным інтэлектам

чытач узаемадзеянняў

Пакінуць каментар адмяніць адказ

Гэты інфармацыйны бюлетэнь будучых тэхналогій не адстой