તાજેતરના વર્ષોમાં, ડીપ-લર્નિંગ મોડલ માનવ ભાષાને સમજવામાં વધુ અસરકારક બન્યા છે.
જેવા પ્રોજેક્ટ્સ વિશે વિચારો જીપીટી-3, જે હવે સંપૂર્ણ લેખો અને વેબસાઇટ્સ બનાવવા માટે સક્ષમ છે. GitHub તાજેતરમાં રજૂ કર્યું છે ગિટહબ કોપાયલોટ, એક સેવા જે તમને જરૂરી કોડના પ્રકારનું વર્ણન કરીને સમગ્ર કોડ સ્નિપેટ્સ પ્રદાન કરે છે.
OpenAI, Facebook અને Google ના સંશોધકો અન્ય કાર્યને હેન્ડલ કરવા માટે ડીપ લર્નિંગનો ઉપયોગ કરવાની રીતો પર કામ કરી રહ્યા છે: કૅપ્શનિંગ છબીઓ. લાખો એન્ટ્રીઓ સાથે મોટા ડેટાસેટનો ઉપયોગ કરીને, તેઓ કેટલાક સાથે આવ્યા છે આશ્ચર્યજનક પરિણામો.
તાજેતરમાં, આ સંશોધકોએ વિપરીત કાર્ય કરવાનો પ્રયાસ કર્યો છે: કૅપ્શનમાંથી છબીઓ બનાવવી. શું હવે વર્ણનમાંથી સંપૂર્ણપણે નવી છબી બનાવવી શક્ય છે?
આ માર્ગદર્શિકા બે સૌથી અદ્યતન ટેક્સ્ટ-ટુ-ઇમેજ મોડલ્સની શોધ કરશે: OpenAI નું DALL-E 2 અને Google નું Imagen AI. આમાંના દરેક પ્રોજેક્ટે ગ્રાઉન્ડબ્રેકિંગ પદ્ધતિઓ રજૂ કરી છે જે સમાજને બદલી શકે છે જેમ આપણે જાણીએ છીએ.
પરંતુ પહેલા, ચાલો સમજીએ કે ટેક્સ્ટ-ટુ-ઈમેજ જનરેશન દ્વારા આપણો અર્થ શું છે.
ટેક્સ્ટ-ટુ-ઇમેજ જનરેશન શું છે?
ટેક્સ્ટ-ટુ-ઇમેજ મોડલ્સ કોમ્પ્યુટરને પ્રોમ્પ્ટના આધારે નવી અને અનન્ય છબીઓ બનાવવાની મંજૂરી આપો. લોકો હવે તેઓ જે ઇમેજ બનાવવા માગે છે તેનું ટેક્સ્ટ વર્ણન પ્રદાન કરી શકે છે, અને મોડલ એક વિઝ્યુઅલ બનાવવાનો પ્રયાસ કરશે જે શક્ય તેટલું નજીકથી તે વર્ણન સાથે મેળ ખાતું હોય.
મશીન લર્નિંગ મોડલ્સે પ્રભાવને વધુ બહેતર બનાવવા માટે ઇમેજ-કેપ્શન જોડી ધરાવતા મોટા ડેટાસેટ્સનો ઉપયોગ કર્યો છે.
સૌથી વધુ ટેક્સ્ટ-ટુ-ઇમેજ મોડેલો ટ્રાન્સફોર્મર ભાષા મોડેલનો ઉપયોગ કરે છે પ્રોમ્પ્ટનું અર્થઘટન કરવું. આ પ્રકારનું મોડેલ એ મજ્જાતંતુકીય નેટવર્ક જે કુદરતી ભાષાના સંદર્ભ અને સિમેન્ટીક અર્થને જાણવાનો પ્રયાસ કરે છે.
આગળ, જનરેટિવ મોડલ જેમ કે પ્રસરણ મોડેલો અને જનરેટિવ વિરોધી નેટવર્કનો ઉપયોગ ઈમેજ સિન્થેસિસ માટે થાય છે.
DALLE 2 શું છે?
DALL-E2 OpenAI દ્વારા એક કોમ્પ્યુટર મોડેલ છે જે એપ્રિલ 2022 માં બહાર પાડવામાં આવ્યું હતું. આ મોડેલને લાખો લેબલવાળા ચિત્રોના ડેટાબેઝ પર શબ્દો અને શબ્દસમૂહોને છબીઓ સાથે સાંકળવા માટે તાલીમ આપવામાં આવી હતી.
વપરાશકર્તાઓ એક સરળ વાક્ય ટાઈપ કરી શકે છે, જેમ કે "એક બિલાડી ખાતી લાસગ્ના", અને DALL-E 2 શબ્દસમૂહ શું વર્ણવવાનો પ્રયાસ કરી રહ્યું છે તેનું પોતાનું અર્થઘટન જનરેટ કરશે.
શરૂઆતથી ઈમેજો બનાવવા ઉપરાંત, DALL-E 2 હાલની ઈમેજીસને એડિટ પણ કરી શકે છે. નીચેના ઉદાહરણમાં, DALL-E ઉમેરાયેલ પલંગ સાથે રૂમની સુધારેલી છબી જનરેટ કરવામાં સક્ષમ હતું.
DALL-E 2 એ OpenAI દ્વારા છેલ્લાં કેટલાંક વર્ષોમાં બહાર પાડવામાં આવેલ ઘણા સમાન પ્રોજેક્ટ્સમાંનો એક છે. OpenAI નું GPT-3 સમાચાર લાયક બન્યું જ્યારે તે વિવિધ શૈલીઓનું લખાણ જનરેટ કરે તેવું લાગ્યું.
હાલમાં, DALL-E 2 હજુ પણ બીટા પરીક્ષણમાં છે. રસ ધરાવતા વપરાશકર્તાઓ તેમના માટે સાઇન અપ કરી શકે છે પ્રતીક્ષા યાદી અને પ્રવેશ માટે રાહ જુઓ.
તે કેવી રીતે કામ કરે છે?
DALL-E 2 ના પરિણામો પ્રભાવશાળી હોવા છતાં, તમે આશ્ચર્ય પામી રહ્યા હશો કે આ બધું કેવી રીતે કાર્ય કરે છે.
DALL-E 2 એ OpenAI ના GPT-3 પ્રોજેક્ટના મલ્ટિમોડલ અમલીકરણનું ઉદાહરણ છે.
પ્રથમ, વપરાશકર્તાના ટેક્સ્ટ પ્રોમ્પ્ટને ટેક્સ્ટ એન્કોડરમાં મૂકવામાં આવે છે જે પ્રોમ્પ્ટને પ્રતિનિધિત્વ જગ્યા પર મેપ કરે છે. DALL-E 2 કુદરતી ભાષામાંથી સિમેન્ટીક માહિતી મેળવવા માટે CLIP ( કોન્ટ્રાસ્ટિવ લેંગ્વેજ-ઇમેજ પ્રી-ટ્રેનિંગ) નામના અન્ય OpenAI મોડલનો ઉપયોગ કરે છે.
આગળ, એક મોડેલ તરીકે ઓળખાય છે પહેલાં ટેક્સ્ટ એન્કોડિંગને ઇમેજ એન્કોડિંગમાં મેપ કરે છે. આ ઇમેજ એન્કોડિંગમાં ટેક્સ્ટ એન્કોડિંગ સ્ટેપમાં મળેલી સિમેન્ટીક માહિતીને કૅપ્ચર કરવી જોઈએ.
વાસ્તવિક ઇમેજ બનાવવા માટે, DALL-E 2 સિમેન્ટીક માહિતી અને ઇમેજ એન્કોડિંગ વિગતોનો ઉપયોગ કરીને વિઝ્યુઅલ જનરેટ કરવા માટે ઇમેજ ડીકોડરનો ઉપયોગ કરે છે. OpenAI ના સંશોધિત સંસ્કરણનો ઉપયોગ કરે છે ગ્લાઇડ ઇમેજ જનરેશન કરવા માટેનું મોડલ. ગ્લાઈડ એ પર આધાર રાખે છે પ્રસરણ મોડેલ છબીઓ બનાવવા માટે.
DALL-E 2 મોડલમાં ગ્લાઈડ ઉમેરવાથી વધુ ફોટોરિયલિસ્ટિક આઉટપુટ સક્ષમ બન્યું. GLIDE મોડલ સ્ટોકેસ્ટિક અથવા રેન્ડમલી નિર્ધારિત હોવાથી, DALL-E 2 મોડલ મોડલને ફરીથી અને ફરીથી ચલાવીને સરળતાથી વિવિધતા બનાવી શકે છે.
મર્યાદાઓ
DALL-E 2 મોડેલના પ્રભાવશાળી પરિણામો હોવા છતાં, તે હજુ પણ કેટલીક મર્યાદાઓનો સામનો કરે છે.
જોડણી લખાણ
પ્રોમ્પ્ટ કે જે DALL-E 2 ને ટેક્સ્ટ જનરેટ કરવાનો પ્રયાસ કરે છે તે દર્શાવે છે કે તેને શબ્દોની જોડણી કરવામાં મુશ્કેલી છે. નિષ્ણાતો માને છે કે આવું એટલા માટે હોઈ શકે છે કારણ કે જોડણીની માહિતીનો ભાગ નથી તાલીમ ડેટાસેટ.
રચનાત્મક તર્ક
સંશોધકોએ અવલોકન કર્યું છે કે DALL-E 2 હજુ પણ રચનાત્મક તર્ક સાથે થોડી મુશ્કેલી ધરાવે છે. સરળ શબ્દોમાં કહીએ તો, મોડેલ છબીના વ્યક્તિગત પાસાઓને સમજી શકે છે જ્યારે હજુ પણ આ પાસાઓ વચ્ચેના સંબંધોને શોધવામાં મુશ્કેલી આવી રહી છે.
ઉદાહરણ તરીકે, જો પ્રોમ્પ્ટ આપવામાં આવે તો “બ્લુ ક્યુબની ટોચ પર લાલ ક્યુબ”, DALL-E બ્લુ ક્યુબ અને રેડ ક્યુબ ચોક્કસ રીતે જનરેટ કરશે પરંતુ તેમને યોગ્ય રીતે મૂકવામાં નિષ્ફળ જશે. મોડેલને પ્રોમ્પ્ટ્સમાં મુશ્કેલી હોવાનું પણ જોવામાં આવ્યું છે કે જેના માટે ચોક્કસ સંખ્યામાં ઑબ્જેક્ટ્સ દોરવા જરૂરી છે.
ડેટાસેટમાં પૂર્વગ્રહ
જો પ્રોમ્પ્ટમાં અન્ય કોઈ વિગતો ન હોય, તો DALL-E સફેદ અથવા પશ્ચિમી લોકો અને વાતાવરણને દર્શાવતું જોવા મળ્યું છે. આ પ્રતિનિધિત્વ પૂર્વગ્રહ ડેટાસેટમાં પશ્ચિમી-કેન્દ્રિત છબીઓની વિપુલતાને કારણે થાય છે.
મોડલ પણ લિંગ સ્ટીરિયોટાઇપ્સને અનુસરતું જોવા મળ્યું છે. ઉદાહરણ તરીકે, પ્રોમ્પ્ટ "ફ્લાઇટ એટેન્ડન્ટ" માં ટાઇપ કરવાથી મોટે ભાગે મહિલા ફ્લાઇટ એટેન્ડન્ટની છબીઓ જનરેટ થાય છે.
Google Imagen AI શું છે?
Google ની છબી AI એક મોડેલ છે જેનો ઉદ્દેશ ઇનપુટ ટેક્સ્ટમાંથી ફોટોરિયલિસ્ટિક છબીઓ બનાવવાનો છે. DALL-E ની જેમ, મોડેલ ટેક્સ્ટને સમજવા માટે ટ્રાન્સફોર્મર લેંગ્વેજ મોડલ્સનો પણ ઉપયોગ કરે છે અને ઉચ્ચ-ગુણવત્તાવાળી છબીઓ બનાવવા માટે પ્રસરણ મોડલના ઉપયોગ પર આધાર રાખે છે.
ઇમેજનની સાથે, ગૂગલે ડ્રોબેન્ચ નામના ટેક્સ્ટ-ટુ-ઇમેજ મોડલ્સ માટે બેન્ચમાર્ક પણ બહાર પાડ્યો છે. ડ્રોબેન્ચનો ઉપયોગ કરીને, તેઓ એ અવલોકન કરવામાં સક્ષમ હતા કે માનવ રેટરોએ DALL-E 2 સહિતના અન્ય મોડલ્સ કરતાં ઈમેજન આઉટપુટને પ્રાધાન્ય આપ્યું હતું.
તે કેવી રીતે કામ કરે છે?
DALL-E ની જેમ, Imagen પ્રથમ વપરાશકર્તા પ્રોમ્પ્ટને સ્થિર ટેક્સ્ટ એન્કોડર દ્વારા ટેક્સ્ટ એમ્બેડિંગમાં રૂપાંતરિત કરે છે.
ઈમેજન એક પ્રસરણ મોડેલનો ઉપયોગ કરે છે જે અવાજની પેટર્નને ઈમેજીસમાં કેવી રીતે કન્વર્ટ કરવું તે શીખે છે. આ ઈમેજોનું પ્રારંભિક આઉટપુટ ઓછું રિઝોલ્યુશન છે અને પછીથી અંતિમ ઈમેજનું રિઝોલ્યુશન વધારવા માટે સુપર-રિઝોલ્યુશન ડિફ્યુઝન મોડલ તરીકે ઓળખાતા અન્ય મોડલમાંથી પસાર થાય છે. પ્રથમ ડિફ્યુઝન મોડલ 64×64 પિક્સેલ ઈમેજ આઉટપુટ કરે છે અને બાદમાં હાઈ-રિઝોલ્યુશન 1024×1024 ઈમેજ સુધી ફૂંકાય છે.
Imagen ટીમના સંશોધનના આધારે, માત્ર ટેક્સ્ટ ડેટા પર પ્રશિક્ષિત મોટા ફ્રોઝન લેંગ્વેજ મોડલ્સ હજુ પણ ટેક્સ્ટ-ટુ-ઇમેજ જનરેશન માટે અત્યંત અસરકારક ટેક્સ્ટ એન્કોડર છે.
અભ્યાસમાં ગતિશીલ થ્રેશોલ્ડિંગનો ખ્યાલ પણ રજૂ કરવામાં આવ્યો છે. આ પદ્ધતિ ઇમેજ જનરેટ કરતી વખતે માર્ગદર્શન વજન વધારીને છબીઓને વધુ ફોટોરિયલિસ્ટિક દેખાવા માટે સક્ષમ કરે છે.
DALLE 2 vs Imagen નું પ્રદર્શન
Google ના બેન્ચમાર્કના પ્રારંભિક પરિણામો દર્શાવે છે કે માનવ પ્રતિવાદીઓ DALL-E 2 અને અન્ય ટેક્સ્ટ-ટુ-ઇમેજ મોડલ્સ જેમ કે લેટન્ટ ડિફ્યુઝન અને VQGAN+CLIP કરતાં ઈમેજેન દ્વારા જનરેટ કરેલી ઈમેજોને પસંદ કરે છે.
ઇમેજેન ટીમ તરફથી આવતા આઉટપુટએ એ પણ દર્શાવ્યું છે કે તેમનું મોડેલ સ્પેલિંગ ટેક્સ્ટમાં વધુ સારું પ્રદર્શન કરે છે, જે DALL-E 2 મોડેલની જાણીતી નબળાઈ છે.
જો કે, ગૂગલે હજુ સુધી લોકો માટે મોડલ જાહેર કર્યું નથી, તેથી તે જોવાનું બાકી છે કે ગૂગલના બેન્ચમાર્ક કેટલા સચોટ છે.
ઉપસંહાર
ફોટોરિયલિસ્ટિક ટેક્સ્ટ-ટુ-ઇમેજ મોડલ્સનો ઉદય વિવાદાસ્પદ છે કારણ કે આ મોડલ્સ અનૈતિક ઉપયોગ માટે યોગ્ય છે.
ટેક્નોલોજી અસ્પષ્ટ સામગ્રીના નિર્માણ તરફ દોરી શકે છે અથવા અશુદ્ધ માહિતીના સાધન તરીકે. Google અને OpenAI બંનેના સંશોધકો આનાથી વાકેફ છે, જેના કારણે આંશિક રીતે આ તકનીકો હજુ પણ દરેક માટે સુલભ નથી.
ટેક્સ્ટ-ટુ-ઇમેજ મોડલ્સમાં પણ નોંધપાત્ર આર્થિક અસરો હોય છે. જો DALL-E જેવા મૉડલ મુખ્ય પ્રવાહમાં બને તો શું મૉડલ, ફોટોગ્રાફર અને કલાકારો જેવા વ્યવસાયોને અસર થશે?
આ ક્ષણે, આ મોડેલોમાં હજુ પણ મર્યાદાઓ છે. કોઈપણ AI-જનરેટેડ ઈમેજને તપાસમાં રાખવાથી તેની અપૂર્ણતા છતી થશે. ઓપનએઆઈ અને ગૂગલ બંને સૌથી અસરકારક મોડલ્સ માટે સ્પર્ધા કરે છે, તે ખરેખર સંપૂર્ણ આઉટપુટ જનરેટ થાય તે પહેલા સમયની બાબત હોઈ શકે છે: એક છબી જે વાસ્તવિક વસ્તુથી અસ્પષ્ટ છે.
જ્યારે ટેક્નોલોજી આટલી આગળ જશે ત્યારે તમને શું લાગે છે?
એક જવાબ છોડો