સામગ્રીનું કોષ્ટક[છુપાવો][બતાવો]
તમે મોટે ભાગે જાણતા હશો કે કમ્પ્યુટર ચિત્રનું વર્ણન કરી શકે છે.
ઉદાહરણ તરીકે, તમારા બાળકો સાથે રમતા કૂતરાનું ચિત્ર 'બાગમાં કૂતરો અને બાળકો' તરીકે ભાષાંતર કરી શકાય છે. પરંતુ શું તમે જાણો છો કે વિપરીત માર્ગ હવે શક્ય છે? તમે કેટલાક શબ્દો લખો છો, અને મશીન એક નવું ચિત્ર બનાવે છે.
Google શોધથી વિપરીત, જે હાલના ફોટોગ્રાફ્સ શોધે છે, આ બધું તાજા છે. તાજેતરના વર્ષોમાં, ઓપનએઆઈ અદભૂત પરિણામોની જાણ કરતી અગ્રણી સંસ્થાઓમાંની એક છે.
તેઓ તેમના એલ્ગોરિધમ્સને વિશાળ ટેક્સ્ટ અને ચિત્ર ડેટાબેસેસ પર તાલીમ આપે છે. તેઓએ તેમના ગ્લાઈડ ઈમેજ મોડલ પર એક પેપર પ્રકાશિત કર્યું, જે લાખો ફોટા પર પ્રશિક્ષિત હતું. ફોટોરિયલિઝમની દ્રષ્ટિએ, તે તેમના અગાઉના 'DALL-E' મોડલને પાછળ રાખી દે છે.
આ પોસ્ટમાં, અમે ઓપનએઆઈના ગ્લાઈડને જોઈશું, જે ટેક્સ્ટ-માર્ગદર્શિત પ્રસરણ મૉડલ્સ સાથે ફોટોરિયલિસ્ટિક ચિત્રો બનાવવા અને બદલવાના ઉદ્દેશ્યની કેટલીક રસપ્રદ પહેલોમાંની એક છે. ચાલો શરુ કરીએ.
શું છે AI ગ્લાઇડ ખોલો?
જ્યારે મોટાભાગની છબીઓ શબ્દોમાં વર્ણવી શકાય છે, ટેક્સ્ટ ઇનપુટ્સમાંથી છબીઓ બનાવવા માટે વિશિષ્ટ જ્ઞાન અને નોંધપાત્ર સમયની જરૂર પડે છે.
AI એજન્ટને પ્રાકૃતિક ભાષાના સંકેતોથી ફોટોરિયલિસ્ટિક ચિત્રો બનાવવાની મંજૂરી આપવાથી લોકો માત્ર અભૂતપૂર્વ સરળતા સાથે સમૃદ્ધ અને વૈવિધ્યસભર દ્રશ્ય સામગ્રી બનાવવાની મંજૂરી આપે છે પરંતુ બનાવેલી છબીઓને સરળ પુનરાવર્તિત શુદ્ધિકરણ અને ઝીણવટભર્યા નિયંત્રણ માટે પણ પરવાનગી આપે છે.
ગ્લાઈડનો ઉપયોગ નવા ઑબ્જેક્ટ દાખલ કરવા, પડછાયાઓ અને પ્રતિબિંબ બનાવવા, પ્રદર્શન કરવા માટે કુદરતી ભાષાના ટેક્સ્ટ પ્રોમ્પ્ટનો ઉપયોગ કરીને હાલના ફોટાને સંપાદિત કરવા માટે કરી શકાય છે. ઇમેજ પેઇન્ટિંગ, અને તેથી પર.
તે મૂળભૂત રેખા રેખાંકનોને ફોટોરિયલિસ્ટિક ફોટોગ્રાફ્સમાં પણ ફેરવી શકે છે, અને તે જટિલ પરિસ્થિતિઓ માટે અસાધારણ શૂન્ય-નમૂના ઉત્પાદન અને સમારકામ ક્ષમતાઓ ધરાવે છે.
તાજેતરના સંશોધનોએ દર્શાવ્યું છે કે સંભાવના-આધારિત પ્રસરણ મોડલ ઉચ્ચ-ગુણવત્તાવાળા કૃત્રિમ ચિત્રો પણ બનાવી શકે છે, ખાસ કરીને જ્યારે વિવિધતા અને વફાદારીને સંતુલિત કરતી માર્ગદર્શક અભિગમ સાથે જોડવામાં આવે છે.
OpenAI એ પ્રકાશિત કર્યું માર્ગદર્શિત પ્રસરણ મોડેલ મે મહિનામાં, જે વર્ગીકરણના લેબલ્સ પર પ્રસરણ મોડલ્સને શરતી બનાવવાની મંજૂરી આપે છે. ગ્લાઈડ ટેક્સ્ટ-શરતી ઈમેજ બનાવવાની સમસ્યામાં માર્ગદર્શિત પ્રસરણ લાવીને આ સફળતામાં સુધારો કરે છે.
3.5 બિલિયન પેરામીટર ગ્લાઈડ ડિફ્યુઝન મોડલને પ્રાકૃતિક ભાષાના વર્ણનો પર કન્ડિશન કરવા માટે ટેક્સ્ટ એન્કોડરનો ઉપયોગ કરીને તાલીમ આપ્યા પછી, સંશોધકોએ બે વૈકલ્પિક માર્ગદર્શક વ્યૂહરચનાઓનું પરીક્ષણ કર્યું: CLIP માર્ગદર્શન અને વર્ગીકૃત-મુક્ત માર્ગદર્શન.
CLIP એ ટેક્સ્ટ અને ચિત્રોની સંયુક્ત રજૂઆતો શીખવા માટેની એક સ્કેલેબલ તકનીક છે જે કૅપ્શનની કેટલી નજીક છે તેના આધારે સ્કોર પહોંચાડે છે.
ટીમે આ વ્યૂહરચનાનો ઉપયોગ તેમના પ્રસરણ મોડલમાં ક્લાસિફાયરને CLIP મોડલ સાથે બદલીને કર્યો જે મોડેલોને "માર્ગદર્શિત" કરે છે. દરમિયાન, વર્ગીકૃત-મુક્ત માર્ગદર્શન એ ડિફ્યુઝન મોડલ્સને નિર્દેશિત કરવાની વ્યૂહરચના છે જેમાં અલગ વર્ગીકૃતની તાલીમ સામેલ નથી.
ગ્લાઈડ આર્કિટેક્ચર
ગ્લાઈડ આર્કિટેક્ચરમાં ત્રણ ઘટકોનો સમાવેશ થાય છે: 64 × 64 ઈમેજ જનરેટ કરવા માટે પ્રશિક્ષિત એબ્લેટેડ ડિફ્યુઝન મોડલ (એડીએમ), ટેક્સ્ટ મોડલ (ટ્રાન્સફોર્મર) જે ટેક્સ્ટ પ્રોમ્પ્ટ દ્વારા ઈમેજ જનરેશનને પ્રભાવિત કરે છે, અને એક અપસેમ્પલિંગ મોડલ જે આપણા નાના 64 × 64ને રૂપાંતરિત કરે છે. વધુ અર્થઘટન કરી શકાય તેવી 256 x 256 પિક્સેલની છબીઓ.
પ્રથમ બે ઘટકો ચિત્ર પેદા કરવાની પ્રક્રિયાને નિયંત્રિત કરવા માટે એકસાથે કામ કરે છે જેથી તે ટેક્સ્ટ પ્રોમ્પ્ટને યોગ્ય રીતે પ્રતિબિંબિત કરે, જ્યારે બાદમાં અમે જે છબીઓ બનાવીએ છીએ તેને સમજવા માટે સરળ બનાવવા માટે જરૂરી છે. GLIDE પ્રોજેક્ટ એ દ્વારા પ્રેરિત હતો 2021 માં પ્રકાશિત અહેવાલ જે દર્શાવે છે કે એડીએમ તકનીકોએ ચિત્ર નમૂનાની ગુણવત્તાના સંદર્ભમાં હાલમાં લોકપ્રિય, અદ્યતન જનરેટિવ મોડલ્સને પાછળ રાખી દીધા છે.
ADM માટે, GLIDE લેખકોએ ધારીવાલ અને નિકોલ જેવા જ ઇમેજનેટ 64 x 64 મોડલનો ઉપયોગ કર્યો હતો, પરંતુ 512ને બદલે 64 ચેનલો સાથે. આના પરિણામે ઇમેજનેટ મોડેલમાં આશરે 2.3 બિલિયન પરિમાણો છે.
ગ્લાઈડ ટીમ, ધારીવાલ અને નિકોલથી વિપરીત, ચિત્ર પેદા કરવાની પ્રક્રિયા પર વધુ સીધું નિયંત્રણ મેળવવા માંગતી હતી, આમ તેઓએ ધ્યાન-સક્ષમ ટ્રાન્સફોર્મર સાથે વિઝ્યુઅલ મોડલને જોડ્યું. ગ્લાઈડ તમને ટેક્સ્ટ ઇનપુટ પ્રોમ્પ્ટ પર પ્રક્રિયા કરીને ચિત્ર પેદા કરતી પ્રક્રિયા આઉટપુટ પર થોડું નિયંત્રણ આપે છે.
આ ટ્રાન્સફોર્મર મોડલને ફોટા અને કૅપ્શન્સના યોગ્ય રીતે મોટા ડેટાસેટ પર તાલીમ આપીને પરિપૂર્ણ થાય છે (DALL-E પ્રોજેક્ટમાં કાર્યરત હોય તેવા જ).
ટેક્સ્ટને કન્ડીશન કરવા માટે શરૂઆતમાં K ટોકન્સની શ્રેણીમાં એન્કોડ કરવામાં આવે છે. તે પછી, ટોકન્સ ટ્રાન્સફોર્મર મોડેલમાં લોડ થાય છે. ટ્રાન્સફોર્મરનું આઉટપુટ પછી બે રીતે વાપરી શકાય છે. ADM મોડલ માટે, ક્લાસ એમ્બેડિંગને બદલે અંતિમ ટોકન એમ્બેડિંગનો ઉપયોગ કરવામાં આવે છે.
બીજું, ટોકન એમ્બેડિંગ્સનું અંતિમ સ્તર – ફીચર વેક્ટર્સની શ્રેણી – એડીએમ મોડેલમાં પ્રત્યેક ધ્યાન સ્તર માટેના પરિમાણો માટે સ્વતંત્ર રીતે પ્રક્ષેપિત કરવામાં આવે છે અને પ્રત્યેક ધ્યાન સંદર્ભ સાથે જોડાયેલું છે.
વાસ્તવમાં, આ એડીએમ મોડેલને ઇનપુટ્સ શબ્દો અને તેમની સંબંધિત છબીઓની તેની શીખી સમજના આધારે, અનન્ય અને ફોટોરિયલિસ્ટિક ફેશનમાં સમાન ટેક્સ્ટ ટોકન્સના નવા સંયોજનોમાંથી ચિત્ર બનાવવા માટે સક્ષમ કરે છે. આ ટેક્સ્ટ-એન્કોડિંગ ટ્રાન્સફોર્મરમાં 1.2 બિલિયન પેરામીટર્સ છે અને 24 ની પહોળાઈ સાથે 2048 બાકી રહેલા બ્લોક્સને રોજગારી આપે છે.
છેલ્લે, અપસેમ્પલર ડિફ્યુઝન મોડલમાં લગભગ 1.5 બિલિયન પેરામીટર્સનો સમાવેશ થાય છે અને તે મૂળભૂત મોડલથી બદલાય છે જેમાં તેનું ટેક્સ્ટ એન્કોડર નાનું છે, જેમાં બેઝ મોડલની સરખામણીમાં 1024 અને 384 બેઝ ચેનલોની પહોળાઈ છે. આ મોડેલ, નામ સૂચવે છે તેમ, મશીનો અને મનુષ્યો બંને માટે અર્થઘટનક્ષમતા સુધારવા માટે નમૂનાના અપગ્રેડમાં મદદ કરે છે.
પ્રસરણ મોડેલ
ગ્લાઈડ એડીએમ ("માર્ગદર્શિત" માટે ADM-G) ના પોતાના સંસ્કરણનો ઉપયોગ કરીને છબીઓ બનાવે છે. ADM-G મોડલ એ પ્રસરણ U-net મોડલનું ફેરફાર છે. VAE, GAN અને ટ્રાન્સફોર્મર્સ જેવી વધુ સામાન્ય ઇમેજ સિન્થેસિસ તકનીકોથી પ્રસરણ U-net મોડલ નાટ્યાત્મક રીતે અલગ પડે છે.
તેઓ ડેટામાં રેન્ડમ અવાજને ધીમે-ધીમે દાખલ કરવા માટે પ્રસરણ પગલાંની માર્કોવ સાંકળ બનાવે છે, અને પછી પ્રસરણ પ્રક્રિયાને રિવર્સ કરવાનું શીખે છે અને માત્ર અવાજમાંથી જ જરૂરી ડેટા નમૂનાઓનું પુનઃનિર્માણ કરે છે. તે બે તબક્કામાં કાર્ય કરે છે: ફોરવર્ડ અને રિવર્સ ડિફ્યુઝન.
ફોરવર્ડ પ્રસરણ પદ્ધતિ, જે નમૂનાના સાચા વિતરણમાંથી ડેટા બિંદુ આપે છે, પગલાંઓની પ્રીસેટ શ્રેણીમાં નમૂનામાં અવાજની થોડી માત્રા ઉમેરે છે. જેમ જેમ કદમાં કદમાં વધારો થાય છે અને અનંતતા સુધી પહોંચે છે તેમ, નમૂના તમામ ઓળખી શકાય તેવી લાક્ષણિકતાઓ ગુમાવે છે અને ક્રમ આઇસોટ્રોપિક ગૌસીયન વળાંક જેવો થવા લાગે છે.
પછાત પ્રસરણ દરમિયાન તબક્કો, પ્રસરણ મોડલ ચિત્રો પર ઉમેરાયેલા અવાજના પ્રભાવને ઉલટાવી અને મૂળ ઇનપુટ નમૂના વિતરણને મળતા આવે તેવા પ્રયાસ કરીને ઉત્પાદિત છબીને તેના મૂળ આકારમાં લઈ જવાનું શીખે છે.
પૂર્ણ થયેલ મોડેલ વાસ્તવિક ગૌસીયન અવાજ ઇનપુટ અને પ્રોમ્પ્ટ સાથે આમ કરી શકે છે. એડીએમ-જી પદ્ધતિ પહેલાની પદ્ધતિથી બદલાય છે જેમાં એક મોડેલ, કાં તો CLIP અથવા કસ્ટમાઇઝ્ડ ટ્રાન્સફોર્મર, ઇનપુટ કરાયેલ ટેક્સ્ટ પ્રોમ્પ્ટ ટોકન્સનો ઉપયોગ કરીને બેકવર્ડ ડિફ્યુઝન તબક્કાને અસર કરે છે.
ગ્લાઈડ ક્ષમતાઓ
1. ઇમેજનું જનરેશન
ગ્લાઈડનો સૌથી લોકપ્રિય અને વ્યાપક ઉપયોગ કદાચ ઈમેજ સિન્થેસિસ હશે. જો કે ચિત્રો સાધારણ છે અને ગ્લાઈડને પ્રાણી/માનવ સ્વરૂપો સાથે મુશ્કેલી છે, તેમ છતાં એક-શોટ ઈમેજ ઉત્પાદનની સંભાવના લગભગ અનંત છે.
તે પ્રાણીઓ, હસ્તીઓ, લેન્ડસ્કેપ્સ, ઇમારતો અને ઘણું બધું બનાવી શકે છે, અને તે વિવિધ કલા શૈલીઓ તેમજ ફોટો-વાસ્તવિક રીતે કરી શકે છે. સંશોધકોના લેખકો ભારપૂર્વક જણાવે છે કે GLIDE વિવિધ પ્રકારનાં ટેક્સ્ટ ઇનપુટ્સને વિઝ્યુઅલ ફોર્મેટમાં અર્થઘટન અને અનુકૂલન કરવા સક્ષમ છે, જેમ કે નીચેના નમૂનાઓમાં જોવામાં આવ્યું છે.
2. ગ્લાઇડ ઇનપેઇન્ટિંગ
ગ્લાઈડનું સ્વચાલિત ફોટો ઈનપેઈન્ટિંગ એ દલીલમાં સૌથી આકર્ષક ઉપયોગ છે. GLIDE હાલના ચિત્રને ઇનપુટ તરીકે લઈ શકે છે, જે સ્થાનોને બદલવાની જરૂર છે તેને ધ્યાનમાં રાખીને ટેક્સ્ટ પ્રોમ્પ્ટ સાથે પ્રક્રિયા કરી શકે છે અને પછી તે ભાગોમાં સરળતા સાથે સક્રિય ફેરફારો કરી શકે છે.
વધુ સારા પરિણામો લાવવા માટે તેનો ઉપયોગ સંપાદન મોડલ, જેમ કે SDEdit સાથે થવો જોઈએ. ભવિષ્યમાં, આના જેવી ક્ષમતાઓનો લાભ લેતી એપ્લિકેશનો કોડ-મુક્ત ચિત્ર-બદલવાના અભિગમો વિકસાવવામાં નિર્ણાયક બની શકે છે.
ઉપસંહાર
હવે જ્યારે અમે પ્રક્રિયામાંથી પસાર થઈ ગયા છીએ, તમારે ગ્લાઈડ કેવી રીતે કામ કરે છે તેના મૂળભૂત તથ્યો તેમજ ચિત્ર બનાવવાની અને ઈમેજમાં ફેરફાર કરવાની તેની ક્ષમતાઓની પહોળાઈને સમજવી જોઈએ.
એક જવાબ છોડો