Преглед садржаја[Сакрити][Прикажи]
Нова и побољшана АИ има побољшане способности, разумевање и капацитет за производњу слика веће резолуције. Можда сте у последње време наишли на неке чудне и забавне слике које лебде интернетом.
Пас Шиба Ину обучен је у беретку и црну долчеву. И морска видра у маниру „Девојке са бисерном минђушом“ холандског сликара Вермера. А ту је и шоља супе која изгледа као вунасто чудовиште.
Ове слике није створио људски уметник.
Уместо тога, креирао их је ДАЛЛ-Е 2, нови АИ систем који може да конвертује текстуалне описе у слике.
Једноставно запишите шта желите да видите и АИ ће то креирати за вас – са живописним детаљима, одличног квалитета и, у неким случајевима, истинске инвентивности. У овом посту ћемо детаљно погледати најновију ОпенАИ-ову студију, ДАЛЛ.Е 2, као и како она функционише, и још много тога. Хајде да почнемо.
Дакле, шта је тачно ДАЛЛ.Е 2?
ДАЛЛ-Е 2 је „генеративни модел“, врста алгоритма за машинско учење који генерише компликоване излазне податке уместо да извршава задатке предвиђања или класификације на улазним подацима.
ДАЛЛ-Е 2 дајете писани опис и он ствара слику која му одговара. Комбиновањем концепата, квалитета и стилова, ОпенАИ-јев ДАЛЛЕ 2 може да произведе иновативну, реалистичну графику и уметност из основног језичког описа.
За најновију верзију, ДАЛЛЕ 2, каже се да је свестранија, способна да прави слике од натписа у већим резолуцијама и у ширем спектру креативних стилова. На пример, слике испод (из поста на блогу ДАЛЛ-Е 2) су направљене описом „Астронаут који јаше коња“.
Један опис завршава, „као скица оловком“, док други закључује, „на фотореалистичан начин“.
Такође може да промени постојеће фотографије са запањујућом прецизношћу. Дакле, можете да додајете или бришете елементе уз задржавање боја, одсјаја и сенки, а све истовремено задржавајући изглед оригиналне слике.
Како то функционише?
ДАЛЛ-Е 2 користи моделе ЦЛИП и дифузију, два софистицирана дубоко учење приступи развијени последњих година. Међутим, заснива се на истом појму као и сви други дубоки неуронске мреже: репрезентативно учење. ЦЛИП истовремено тренира двоје неуронске мреже на сликама и натписима.
Једна мрежа учи визуелне представе на слици, док друга учи текстуалне репрезентације. Током обуке, две мреже покушавају да модификују своје параметре тако да упоредиве слике и описи резултирају сличним уграђивањем.
„Дифузија“, тип генеративног модела који учи да прави слике постепеним шумом и уклањањем шума својих узорака за обуку, је други приступ машинском учењу који се користи у ДАЛЛ-Е 2. Модели дифузије су слични аутоматским кодерима по томе што трансформишу улазне податке у уграђивање репрезентације, а затим користи информације о уграђивању да поново креира оригиналне податке.
Коришћење ОпенАИ језички модел ЦЛИП, који може да повеже текстуалне описе са фотографијама, он прво преводи писани упит у средњи облик који укључује кључна својства која слика треба да има да би одговарала том упиту (према ЦЛИП-у).
Друго, ДАЛЛ-Е 2 ствара ЦЛИП-компатибилан слика помоћу дифузионог модела, што је неуронска мрежа.
На изобличеним фотографијама са насумичним пикселима, уче се модели дифузије. Они уче како да врате оригинални облик фотографија. Дифузиони модели могу да произведу висококвалитетне синтетичке слике, посебно када се користе у комбинацији са водећим приступом који даје предност прецизности у односу на разноликост.
Као посљедица тога модел дифузије узима насумичне пикселе и користи ЦЛИП да их конвертује у нову слику која одговара упиту за реч. Због концепта дифузије, ДАЛЛ-Е 2 може да производи слике веће резолуције брже од ДАЛЛ-Е.
Случај употребе ДАЛЛ.Е 2
У последњих двадесет година, рачунарски вид технологија је напредовала од једноставне идеје до великог открића. Упркос овом напретку, модели за препознавање слика и објеката и даље се суочавају са значајним препрекама у свакодневном животу. Одсуство скупова података један је од најзначајнијих недостатака препознавања слика и компјутерског вида. Пошто постоји недостатак података на оба краја, обучавање модела за препознавање слика да дају 100 посто тачне резултате је скоро тешко.
На срећу, ОпенАИ-јев нови модел машинског учења може премостити јаз у технологији. ДАЛЛЕ 2 је способан да генерише невероватне слике на основу текстуалних описа. Ова лажна производња слика може да обезбеди податке моделима за препознавање слика на основу њихових захтева. Одсуство података је значајан камен спотицања за идентификацију објеката и слика.
У дигиталној ери, скупови података су свеприсутни, али још увек тражимо пречице за напајање АИ модела, тако да може да пружи добре резултате. Међутим, није једноставно обучити модел за препознавање слика. То захтева велики број скупова података са малим разликама, које можда не бисмо могли једноставно да преузмемо.
Дакле, шта је одговор: Одговор је ДАЛЛЕ 2. ОпенАИ генератор слика, са својим капацитетом да производи слике из текстова и мења постојеће, може помоћи да се премости јаз. Ово ће помоћи у генерисању додатних података о обуци, а истовремено ће смањити количину потребног обележавања људи. Упркос значајној предности, требало би да будете свесни лажних продукција слика и слика које искључују укључивање. Ово може довести до метода детекције слике које дају пристрасне резултате.
Ограничења
ДАЛЛ.Е 2 може имати штетан утицај ако падне у погрешне руке, према ОпенАИ. У данашњем свету дубоких лажирања, модел би се лако могао користити за ширење лажних информација или расистичких слика, због чега ОпенАИ дозвољава програмерима да користе ДАЛЛ.2 само по позиву. Модел мора да поштује ригорозно ограничење садржаја за све предлоге које добије.
Да би се искључио потенцијал да ДАЛЛ.Е 2 ствара било какве непријатељске или насилне слике, скуп података је креиран без икаквог смртоносног оружја. Иако је ОпенАИ изјавио да планира да га трансформише у АПИ у будућности, у случају ДАЛЛ.Е 2, спреман је да настави са опрезом.
Zakljucak
ДАЛЛ-Е 2 је још једно занимљиво ОпенАИ истраживачко откриће које отвара врата новим апликацијама.
Један пример је креирање масивних скупова података како би се задовољило једно од главних уских грла компјутерског вида – подаци. Иако ће економски случај многих апликација заснованих на ДАЛЛ-Е бити одређен ценом и политикама које ОпенАИ успоставља за своје АПИ кориснике, све ће оне несумњиво унапредити производњу слика.
Ostavite komentar