DALL-E 2 vs Imagen - AI-જનરેટેડ ઈમેજીસ અને આર્ટ

સામગ્રીનું કોષ્ટક[છુપાવો][બતાવો]

ટેક્સ્ટ-ટુ-ઇમેજ જનરેશન શું છે?
DALLE 2 શું છે?+-
- તે કેવી રીતે કામ કરે છે?
- મર્યાદાઓ
Google Imagen AI શું છે?+-
- તે કેવી રીતે કામ કરે છે?
DALLE 2 vs Imagen નું પ્રદર્શન
ઉપસંહાર

તાજેતરના વર્ષોમાં, ડીપ-લર્નિંગ મોડલ માનવ ભાષાને સમજવામાં વધુ અસરકારક બન્યા છે.

જેવા પ્રોજેક્ટ્સ વિશે વિચારો જીપીટી-3, જે હવે સંપૂર્ણ લેખો અને વેબસાઇટ્સ બનાવવા માટે સક્ષમ છે. GitHub તાજેતરમાં રજૂ કર્યું છે ગિટહબ કોપાયલોટ, એક સેવા જે તમને જરૂરી કોડના પ્રકારનું વર્ણન કરીને સમગ્ર કોડ સ્નિપેટ્સ પ્રદાન કરે છે.

OpenAI, Facebook અને Google ના સંશોધકો અન્ય કાર્યને હેન્ડલ કરવા માટે ડીપ લર્નિંગનો ઉપયોગ કરવાની રીતો પર કામ કરી રહ્યા છે: કૅપ્શનિંગ છબીઓ. લાખો એન્ટ્રીઓ સાથે મોટા ડેટાસેટનો ઉપયોગ કરીને, તેઓ કેટલાક સાથે આવ્યા છે આશ્ચર્યજનક પરિણામો.

તાજેતરમાં, આ સંશોધકોએ વિપરીત કાર્ય કરવાનો પ્રયાસ કર્યો છે: કૅપ્શનમાંથી છબીઓ બનાવવી. શું હવે વર્ણનમાંથી સંપૂર્ણપણે નવી છબી બનાવવી શક્ય છે?

આ માર્ગદર્શિકા બે સૌથી અદ્યતન ટેક્સ્ટ-ટુ-ઇમેજ મોડલ્સની શોધ કરશે: OpenAI નું DALL-E 2 અને Google નું Imagen AI. આમાંના દરેક પ્રોજેક્ટે ગ્રાઉન્ડબ્રેકિંગ પદ્ધતિઓ રજૂ કરી છે જે સમાજને બદલી શકે છે જેમ આપણે જાણીએ છીએ.

પરંતુ પહેલા, ચાલો સમજીએ કે ટેક્સ્ટ-ટુ-ઈમેજ જનરેશન દ્વારા આપણો અર્થ શું છે.

ટેક્સ્ટ-ટુ-ઇમેજ જનરેશન શું છે?

ટેક્સ્ટ-ટુ-ઇમેજ મોડલ્સ કોમ્પ્યુટરને પ્રોમ્પ્ટના આધારે નવી અને અનન્ય છબીઓ બનાવવાની મંજૂરી આપો. લોકો હવે તેઓ જે ઇમેજ બનાવવા માગે છે તેનું ટેક્સ્ટ વર્ણન પ્રદાન કરી શકે છે, અને મોડલ એક વિઝ્યુઅલ બનાવવાનો પ્રયાસ કરશે જે શક્ય તેટલું નજીકથી તે વર્ણન સાથે મેળ ખાતું હોય.

મશીન લર્નિંગ મોડલ્સે પ્રભાવને વધુ બહેતર બનાવવા માટે ઇમેજ-કેપ્શન જોડી ધરાવતા મોટા ડેટાસેટ્સનો ઉપયોગ કર્યો છે.

સૌથી વધુ ટેક્સ્ટ-ટુ-ઇમેજ મોડેલો ટ્રાન્સફોર્મર ભાષા મોડેલનો ઉપયોગ કરે છે પ્રોમ્પ્ટનું અર્થઘટન કરવું. આ પ્રકારનું મોડેલ એ મજ્જાતંતુકીય નેટવર્ક જે કુદરતી ભાષાના સંદર્ભ અને સિમેન્ટીક અર્થને જાણવાનો પ્રયાસ કરે છે.

આગળ, જનરેટિવ મોડલ જેમ કે પ્રસરણ મોડેલો અને જનરેટિવ વિરોધી નેટવર્કનો ઉપયોગ ઈમેજ સિન્થેસિસ માટે થાય છે.

DALLE 2 શું છે?

DALL-E 2 વાસ્તવિક છબીઓ અને કલા બનાવે છે

DALL-E2 OpenAI દ્વારા એક કોમ્પ્યુટર મોડેલ છે જે એપ્રિલ 2022 માં બહાર પાડવામાં આવ્યું હતું. આ મોડેલને લાખો લેબલવાળા ચિત્રોના ડેટાબેઝ પર શબ્દો અને શબ્દસમૂહોને છબીઓ સાથે સાંકળવા માટે તાલીમ આપવામાં આવી હતી.

વપરાશકર્તાઓ એક સરળ વાક્ય ટાઈપ કરી શકે છે, જેમ કે "એક બિલાડી ખાતી લાસગ્ના", અને DALL-E 2 શબ્દસમૂહ શું વર્ણવવાનો પ્રયાસ કરી રહ્યું છે તેનું પોતાનું અર્થઘટન જનરેટ કરશે.

શરૂઆતથી ઈમેજો બનાવવા ઉપરાંત, DALL-E 2 હાલની ઈમેજીસને એડિટ પણ કરી શકે છે. નીચેના ઉદાહરણમાં, DALL-E ઉમેરાયેલ પલંગ સાથે રૂમની સુધારેલી છબી જનરેટ કરવામાં સક્ષમ હતું.

DALL-E 2 હાલની છબીઓને સંપાદિત કરી શકે છે

DALL-E 2 એ OpenAI દ્વારા છેલ્લાં કેટલાંક વર્ષોમાં બહાર પાડવામાં આવેલ ઘણા સમાન પ્રોજેક્ટ્સમાંનો એક છે. OpenAI નું GPT-3 સમાચાર લાયક બન્યું જ્યારે તે વિવિધ શૈલીઓનું લખાણ જનરેટ કરે તેવું લાગ્યું.

હાલમાં, DALL-E 2 હજુ પણ બીટા પરીક્ષણમાં છે. રસ ધરાવતા વપરાશકર્તાઓ તેમના માટે સાઇન અપ કરી શકે છે પ્રતીક્ષા યાદી અને પ્રવેશ માટે રાહ જુઓ.

તે કેવી રીતે કામ કરે છે?

DALL-E 2 ના પરિણામો પ્રભાવશાળી હોવા છતાં, તમે આશ્ચર્ય પામી રહ્યા હશો કે આ બધું કેવી રીતે કાર્ય કરે છે.

DALL-E 2 એ OpenAI ના GPT-3 પ્રોજેક્ટના મલ્ટિમોડલ અમલીકરણનું ઉદાહરણ છે.

DALL-E 2 આર્કિટેક્ચરની ઝાંખી

પ્રથમ, વપરાશકર્તાના ટેક્સ્ટ પ્રોમ્પ્ટને ટેક્સ્ટ એન્કોડરમાં મૂકવામાં આવે છે જે પ્રોમ્પ્ટને પ્રતિનિધિત્વ જગ્યા પર મેપ કરે છે. DALL-E 2 કુદરતી ભાષામાંથી સિમેન્ટીક માહિતી મેળવવા માટે CLIP ( કોન્ટ્રાસ્ટિવ લેંગ્વેજ-ઇમેજ પ્રી-ટ્રેનિંગ) નામના અન્ય OpenAI મોડલનો ઉપયોગ કરે છે.

આગળ, એક મોડેલ તરીકે ઓળખાય છે પહેલાં ટેક્સ્ટ એન્કોડિંગને ઇમેજ એન્કોડિંગમાં મેપ કરે છે. આ ઇમેજ એન્કોડિંગમાં ટેક્સ્ટ એન્કોડિંગ સ્ટેપમાં મળેલી સિમેન્ટીક માહિતીને કૅપ્ચર કરવી જોઈએ.

વાસ્તવિક ઇમેજ બનાવવા માટે, DALL-E 2 સિમેન્ટીક માહિતી અને ઇમેજ એન્કોડિંગ વિગતોનો ઉપયોગ કરીને વિઝ્યુઅલ જનરેટ કરવા માટે ઇમેજ ડીકોડરનો ઉપયોગ કરે છે. OpenAI ના સંશોધિત સંસ્કરણનો ઉપયોગ કરે છે ગ્લાઇડ ઇમેજ જનરેશન કરવા માટેનું મોડલ. ગ્લાઈડ એ પર આધાર રાખે છે પ્રસરણ મોડેલ છબીઓ બનાવવા માટે.

DALL-E 2 મોડલમાં ગ્લાઈડ ઉમેરવાથી વધુ ફોટોરિયલિસ્ટિક આઉટપુટ સક્ષમ બન્યું. GLIDE મોડલ સ્ટોકેસ્ટિક અથવા રેન્ડમલી નિર્ધારિત હોવાથી, DALL-E 2 મોડલ મોડલને ફરીથી અને ફરીથી ચલાવીને સરળતાથી વિવિધતા બનાવી શકે છે.

મર્યાદાઓ

DALL-E 2 મોડેલના પ્રભાવશાળી પરિણામો હોવા છતાં, તે હજુ પણ કેટલીક મર્યાદાઓનો સામનો કરે છે.

જોડણી લખાણ

મોડેલ સંકેતોમાં શબ્દોની જોડણીને ગડબડ કરે છે

પ્રોમ્પ્ટ કે જે DALL-E 2 ને ટેક્સ્ટ જનરેટ કરવાનો પ્રયાસ કરે છે તે દર્શાવે છે કે તેને શબ્દોની જોડણી કરવામાં મુશ્કેલી છે. નિષ્ણાતો માને છે કે આવું એટલા માટે હોઈ શકે છે કારણ કે જોડણીની માહિતીનો ભાગ નથી તાલીમ ડેટાસેટ.

રચનાત્મક તર્ક

મોડલ અવકાશમાં વસ્તુઓ મૂકવા સાથે સંઘર્ષ કરે છે

સંશોધકોએ અવલોકન કર્યું છે કે DALL-E 2 હજુ પણ રચનાત્મક તર્ક સાથે થોડી મુશ્કેલી ધરાવે છે. સરળ શબ્દોમાં કહીએ તો, મોડેલ છબીના વ્યક્તિગત પાસાઓને સમજી શકે છે જ્યારે હજુ પણ આ પાસાઓ વચ્ચેના સંબંધોને શોધવામાં મુશ્કેલી આવી રહી છે.

ઉદાહરણ તરીકે, જો પ્રોમ્પ્ટ આપવામાં આવે તો “બ્લુ ક્યુબની ટોચ પર લાલ ક્યુબ”, DALL-E બ્લુ ક્યુબ અને રેડ ક્યુબ ચોક્કસ રીતે જનરેટ કરશે પરંતુ તેમને યોગ્ય રીતે મૂકવામાં નિષ્ફળ જશે. મોડેલને પ્રોમ્પ્ટ્સમાં મુશ્કેલી હોવાનું પણ જોવામાં આવ્યું છે કે જેના માટે ચોક્કસ સંખ્યામાં ઑબ્જેક્ટ્સ દોરવા જરૂરી છે.

ડેટાસેટમાં પૂર્વગ્રહ

જો પ્રોમ્પ્ટમાં અન્ય કોઈ વિગતો ન હોય, તો DALL-E સફેદ અથવા પશ્ચિમી લોકો અને વાતાવરણને દર્શાવતું જોવા મળ્યું છે. આ પ્રતિનિધિત્વ પૂર્વગ્રહ ડેટાસેટમાં પશ્ચિમી-કેન્દ્રિત છબીઓની વિપુલતાને કારણે થાય છે.

DALL-E 2 લિંગ પૂર્વગ્રહ ધરાવે છે

મોડલ પણ લિંગ સ્ટીરિયોટાઇપ્સને અનુસરતું જોવા મળ્યું છે. ઉદાહરણ તરીકે, પ્રોમ્પ્ટ "ફ્લાઇટ એટેન્ડન્ટ" માં ટાઇપ કરવાથી મોટે ભાગે મહિલા ફ્લાઇટ એટેન્ડન્ટની છબીઓ જનરેટ થાય છે.

Google Imagen AI શું છે?

DALL-E 2 vs Imagen - સ્પેલિંગ અને કમ્પોઝિશનમાં ઇમેજન વધુ સારું છે

Google ની છબી AI એક મોડેલ છે જેનો ઉદ્દેશ ઇનપુટ ટેક્સ્ટમાંથી ફોટોરિયલિસ્ટિક છબીઓ બનાવવાનો છે. DALL-E ની જેમ, મોડેલ ટેક્સ્ટને સમજવા માટે ટ્રાન્સફોર્મર લેંગ્વેજ મોડલ્સનો પણ ઉપયોગ કરે છે અને ઉચ્ચ-ગુણવત્તાવાળી છબીઓ બનાવવા માટે પ્રસરણ મોડલના ઉપયોગ પર આધાર રાખે છે.

ઇમેજનની સાથે, ગૂગલે ડ્રોબેન્ચ નામના ટેક્સ્ટ-ટુ-ઇમેજ મોડલ્સ માટે બેન્ચમાર્ક પણ બહાર પાડ્યો છે. ડ્રોબેન્ચનો ઉપયોગ કરીને, તેઓ એ અવલોકન કરવામાં સક્ષમ હતા કે માનવ રેટરોએ DALL-E 2 સહિતના અન્ય મોડલ્સ કરતાં ઈમેજન આઉટપુટને પ્રાધાન્ય આપ્યું હતું.

તે કેવી રીતે કામ કરે છે?

imagen ઉચ્ચ રીઝોલ્યુશન વર્ક બનાવવા માટે પ્રસરણ મોડેલનો ઉપયોગ કરે છે

DALL-E ની જેમ, Imagen પ્રથમ વપરાશકર્તા પ્રોમ્પ્ટને સ્થિર ટેક્સ્ટ એન્કોડર દ્વારા ટેક્સ્ટ એમ્બેડિંગમાં રૂપાંતરિત કરે છે.

ઈમેજન એક પ્રસરણ મોડેલનો ઉપયોગ કરે છે જે અવાજની પેટર્નને ઈમેજીસમાં કેવી રીતે કન્વર્ટ કરવું તે શીખે છે. આ ઈમેજોનું પ્રારંભિક આઉટપુટ ઓછું રિઝોલ્યુશન છે અને પછીથી અંતિમ ઈમેજનું રિઝોલ્યુશન વધારવા માટે સુપર-રિઝોલ્યુશન ડિફ્યુઝન મોડલ તરીકે ઓળખાતા અન્ય મોડલમાંથી પસાર થાય છે. પ્રથમ ડિફ્યુઝન મોડલ 64×64 પિક્સેલ ઈમેજ આઉટપુટ કરે છે અને બાદમાં હાઈ-રિઝોલ્યુશન 1024×1024 ઈમેજ સુધી ફૂંકાય છે.

Imagen ટીમના સંશોધનના આધારે, માત્ર ટેક્સ્ટ ડેટા પર પ્રશિક્ષિત મોટા ફ્રોઝન લેંગ્વેજ મોડલ્સ હજુ પણ ટેક્સ્ટ-ટુ-ઇમેજ જનરેશન માટે અત્યંત અસરકારક ટેક્સ્ટ એન્કોડર છે.

અભ્યાસમાં ગતિશીલ થ્રેશોલ્ડિંગનો ખ્યાલ પણ રજૂ કરવામાં આવ્યો છે. આ પદ્ધતિ ઇમેજ જનરેટ કરતી વખતે માર્ગદર્શન વજન વધારીને છબીઓને વધુ ફોટોરિયલિસ્ટિક દેખાવા માટે સક્ષમ કરે છે.

DALLE 2 vs Imagen નું પ્રદર્શન

Google ના બેન્ચમાર્કના પ્રારંભિક પરિણામો દર્શાવે છે કે માનવ પ્રતિવાદીઓ DALL-E 2 અને અન્ય ટેક્સ્ટ-ટુ-ઇમેજ મોડલ્સ જેમ કે લેટન્ટ ડિફ્યુઝન અને VQGAN+CLIP કરતાં ઈમેજેન દ્વારા જનરેટ કરેલી ઈમેજોને પસંદ કરે છે.

Google તરફથી DrawBench નો ઉપયોગ કરીને DALL-E 2 vs Imagen પરિણામો

ઇમેજેન ટીમ તરફથી આવતા આઉટપુટએ એ પણ દર્શાવ્યું છે કે તેમનું મોડેલ સ્પેલિંગ ટેક્સ્ટમાં વધુ સારું પ્રદર્શન કરે છે, જે DALL-E 2 મોડેલની જાણીતી નબળાઈ છે.

જો કે, ગૂગલે હજુ સુધી લોકો માટે મોડલ જાહેર કર્યું નથી, તેથી તે જોવાનું બાકી છે કે ગૂગલના બેન્ચમાર્ક કેટલા સચોટ છે.

ઉપસંહાર

ફોટોરિયલિસ્ટિક ટેક્સ્ટ-ટુ-ઇમેજ મોડલ્સનો ઉદય વિવાદાસ્પદ છે કારણ કે આ મોડલ્સ અનૈતિક ઉપયોગ માટે યોગ્ય છે.

ટેક્નોલોજી અસ્પષ્ટ સામગ્રીના નિર્માણ તરફ દોરી શકે છે અથવા અશુદ્ધ માહિતીના સાધન તરીકે. Google અને OpenAI બંનેના સંશોધકો આનાથી વાકેફ છે, જેના કારણે આંશિક રીતે આ તકનીકો હજુ પણ દરેક માટે સુલભ નથી.

ટેક્સ્ટ-ટુ-ઇમેજ મોડલ્સમાં પણ નોંધપાત્ર આર્થિક અસરો હોય છે. જો DALL-E જેવા મૉડલ મુખ્ય પ્રવાહમાં બને તો શું મૉડલ, ફોટોગ્રાફર અને કલાકારો જેવા વ્યવસાયોને અસર થશે?

આ ક્ષણે, આ મોડેલોમાં હજુ પણ મર્યાદાઓ છે. કોઈપણ AI-જનરેટેડ ઈમેજને તપાસમાં રાખવાથી તેની અપૂર્ણતા છતી થશે. ઓપનએઆઈ અને ગૂગલ બંને સૌથી અસરકારક મોડલ્સ માટે સ્પર્ધા કરે છે, તે ખરેખર સંપૂર્ણ આઉટપુટ જનરેટ થાય તે પહેલા સમયની બાબત હોઈ શકે છે: એક છબી જે વાસ્તવિક વસ્તુથી અસ્પષ્ટ છે.

જ્યારે ટેક્નોલોજી આટલી આગળ જશે ત્યારે તમને શું લાગે છે?

DALL-E 2 vs Imagen – AI-જનરેટેડ ઈમેજીસ અને આર્ટ

ટેક્સ્ટ-ટુ-ઇમેજ જનરેશન શું છે?

DALLE 2 શું છે?

તે કેવી રીતે કામ કરે છે?

મર્યાદાઓ

Google Imagen AI શું છે?

તે કેવી રીતે કામ કરે છે?

DALLE 2 vs Imagen નું પ્રદર્શન

ઉપસંહાર

વિશે ડીયોન મેનોર

HashDork પર વધુ લેખો:

તમારા AI માં આભાસને કેવી રીતે ઘટાડવો

કોલોસીયન વિ હેજેન

આ ફ્યુચર ટેક ન્યૂઝલેટર ગમતું નથી

DALL-E 2 vs Imagen – AI-જનરેટેડ ઈમેજીસ અને આર્ટ

ટેક્સ્ટ-ટુ-ઇમેજ જનરેશન શું છે?

DALLE 2 શું છે?

તે કેવી રીતે કામ કરે છે?

મર્યાદાઓ

Google Imagen AI શું છે?

તે કેવી રીતે કામ કરે છે?

DALLE 2 vs Imagen નું પ્રદર્શન

ઉપસંહાર

વિશે ડીયોન મેનોર

HashDork પર વધુ લેખો:

તમારા AI માં આભાસને કેવી રીતે ઘટાડવો

સોશિયલ મીડિયા માટે 10 શ્રેષ્ઠ AI સાધનો

કોલોસીયન વિ હેજેન

10 શ્રેષ્ઠ AI એનિમેટેડ વિડિઓ મેકર ટૂલ્સ

રીડર અસર

એક જવાબ છોડો જવાબ રદ કરો

આ ફ્યુચર ટેક ન્યૂઝલેટર ગમતું નથી