ના પ્રકાશન સાથે પ્રસરણ મોડેલોએ તોફાન દ્વારા વિશ્વને અધીરા કરી દીધું છે ડાલ-ઇ 2, Google ની છબી, સ્થિર પ્રસરણ, અને મિડજર્ની, નવીનતા ફેલાવે છે અને મશીન લર્નિંગની સીમાઓને વિસ્તૃત કરે છે.
આ મોડેલો શબ્દ પ્રોમ્પ્ટ્સમાંથી લગભગ અમર્યાદિત સંખ્યામાં છબીઓ બનાવી શકે છે, જેમાં ફોટોરિયલિસ્ટિક, જાદુઈ, ભવિષ્યવાદી અને, અલબત્ત, સુંદર છબીઓનો સમાવેશ થાય છે.
આ ક્ષમતાઓ પુનઃકલ્પના કરે છે કે મનુષ્યો માટે સિલિકોન સાથે ઇન્ટરફેસ કરવાનો શું અર્થ થાય છે, જે આપણને વ્યવહારીક રીતે કોઈપણ ચિત્ર બનાવવાની ક્ષમતા આપે છે જેની આપણે કલ્પના કરી શકીએ છીએ.
જેમ જેમ આ મોડેલ્સ વિકસિત થાય છે અથવા આગળનું જનરેટિવ પેરાડાઈમ લે છે, તેમ માનવી માત્ર એક વિચાર સાથે છબીઓ, ફિલ્મો અને અન્ય નિમજ્જન અનુભવો ઉત્પન્ન કરી શકશે.
આ પોસ્ટમાં, અમે ચર્ચા કરીશું પ્રસરણ મોડેલ, સ્થિર પ્રસરણ, તે કેવી રીતે કાર્ય કરે છે, અને અન્ય વસ્તુઓની સાથે પ્રસરણ મોડેલ પેઇન્ટિંગ ટ્યુટોરીયલ.
ડિફ્યુઝન મોડલ શું છે?
મશીન લર્નિંગ મોડલ્સ કે જે તાલીમ ડેટામાંથી નવો ડેટા બનાવી શકે છે તેને જનરેટિવ મોડલ તરીકે ઓળખવામાં આવે છે. અન્ય જનરેટિવ મોડલ્સમાં ફ્લો-આધારિત મોડલ્સ, વેરિએશનલ ઓટોએનકોડર્સ અને જનરેટિવ એડવર્સરીયલ નેટવર્ક્સ (GAN)નો સમાવેશ થાય છે.
દરેક ઉત્તમ ગુણવત્તાના ચિત્રો જનરેટ કરી શકે છે. ડિફ્યુઝન મોડેલો અવાજ ઉમેરીને તાલીમ ડેટાને નુકસાન પહોંચાડ્યા પછી અવાજ ઉમેરવાની આ પ્રક્રિયાને ઉલટાવીને ડેટા પુનઃપ્રાપ્ત કરવાનું શીખે છે. તેને બીજી રીતે કહીએ તો, પ્રસરણ મોડલ અવાજમાંથી સુસંગત ચિત્રો બનાવવામાં સક્ષમ છે.
ડિફ્યુઝન મોડલ ચિત્રોમાં અવાજ રજૂ કરીને શીખે છે, જેને મોડલ પાછળથી દૂર કરવામાં માસ્ટર બને છે. વાસ્તવિક દ્રશ્યો ઉત્પન્ન કરવા માટે, મોડેલ પછી રેન્ડમ સીડ્સ પર આ ડિનોઈઝિંગ ટેકનિક લાગુ કરે છે.
ચિત્ર ઉત્પાદન પ્રક્રિયાને કન્ડીશનીંગ કરીને, આ મોડેલોનો ઉપયોગ ટેક્સ્ટ-ટુ-ઇમેજ માર્ગદર્શન સાથે એકલા ટેક્સ્ટમાંથી લગભગ અમર્યાદિત સંખ્યામાં છબીઓ બનાવવા માટે કરી શકાય છે. મજબૂત ટેક્સ્ટ-ટુ-ઇમેજ ક્ષમતાઓ આપવા માટે CLIP જેવા એમ્બેડિંગ્સના ઇનપુટ્સ દ્વારા બીજને નિર્દેશિત કરી શકાય છે.
ડિફ્યુઝન મોડલ્સ વિવિધ કાર્યો કરી શકે છે, જેમાં ઇમેજ બનાવટ, ઇમેજ ડિનોઇઝિંગ, ઇનપેઇન્ટિંગ, આઉટપેઇન્ટિંગ અને બીટ ડિફ્યુઝનનો સમાવેશ થાય છે.
હવે, સ્થિર પ્રસરણ શું છે?
સ્ટેબલ ડિફ્યુઝન એ ટેક્સ્ટ-આધારિત ચિત્ર બનાવવા માટેનું મશીન લર્નિંગ મોડલ છે જે પ્રદાન કરે છે સ્થિરતા.એ.આઈ. તે ટેક્સ્ટમાંથી ઇમેજ જનરેટ કરવામાં સક્ષમ છે.
સ્થિર પ્રસારના ઘટકો
સ્થિર પ્રસરણ ઘણા ઘટકો અને ખ્યાલોથી બનેલી સિસ્ટમ છે. તે એકલ મોડેલ નથી. જ્યારે આપણે હૂડની પાછળ તપાસ કરીએ છીએ, ત્યારે પ્રથમ વસ્તુ જે આપણે જોઈએ છીએ તે એ છે કે એક ટેક્સ્ટ-સમજણ ઘટક છે જે ટેક્સ્ટની માહિતીને આંકડાકીય રજૂઆતમાં રૂપાંતરિત કરે છે જે ટેક્સ્ટના ખ્યાલોને કેપ્ચર કરે છે.
આ ટેક્સ્ટ એન્કોડરને આપણે ટ્રાન્સફોર્મર કહી શકીએ છીએ ભાષા મોડેલ (તકનીકી રીતે: CLIP મોડેલનું ટેક્સ્ટ એન્કોડર). તે ઇનપુટ ટેક્સ્ટ લે છે અને ટેક્સ્ટમાં દરેક શબ્દ/ટોકન માટે પૂર્ણાંકોની સૂચિ (એક વેક્ટર) બનાવે છે. તે ડેટા પછી ઇમેજ જનરેટરને પૂરો પાડવામાં આવે છે, જે ઘણા ઘટકોથી બનેલો છે.
ઇમેજ જનરેટરમાં બે પગલાં છે:
1. છબી માહિતી સર્જક
સ્થિર પ્રસારમાં મુખ્ય ઘટક આ તત્વ છે. તે તે છે જ્યાં પહેલાનાં સંસ્કરણો કરતાં પ્રદર્શનમાં મોટાભાગનો સુધારો કરવામાં આવે છે.
આ ઘટક ચિત્ર ડેટા પ્રદાન કરવા માટે ઘણા તબક્કાઓમાંથી પસાર થાય છે. ચિત્ર માહિતીના નિર્માતા ફક્ત છબી માહિતી જગ્યા (અથવા ગુપ્ત જગ્યા) ની અંદર કાર્ય કરે છે.
તે આ લાક્ષણિકતાને કારણે પિક્સેલ સ્પેસમાં કાર્યરત અગાઉના પ્રસરણ મૉડલ્સ કરતાં ઝડપી છે. તકનીકી રીતે કહીએ તો, આ ઘટક શેડ્યુલિંગ અલ્ગોરિધમ અને યુએનેટથી બનેલું છે મજ્જાતંતુકીય નેટવર્ક.
આ ઘટકમાં થતી પ્રક્રિયાને "પ્રસરણ" તરીકે ઓળખવામાં આવે છે. એક ઉચ્ચ-ગુણવત્તાવાળી ઇમેજ આખરે માહિતીને પગલાઓમાં પ્રક્રિયા કરવામાં આવે છે તેના પરિણામે ઉત્પન્ન થાય છે (આગામી ઘટક, ઇમેજ ડીકોડર દ્વારા).
2. છબી ડીકોડર
માહિતી નિર્માતા પાસેથી પ્રાપ્ત ડેટાનો ઉપયોગ કરીને, ઇમેજ ડીકોડર એક ચિત્ર બનાવે છે. તે ઓપરેશનના નિષ્કર્ષ પર ફિનિશ્ડ પિક્સેલ ચિત્ર બનાવવા માટે માત્ર એક જ વાર ચલાવે છે.
સ્ટેબલ ડિફ્યુઝન ઈમ્પેઈન્ટીંગ ટ્યુટોરીયલ
સ્ટેબલ ડિફ્યુઝન પિક્ચર ઇનપેઇન્ટિંગ એ ઇમેજના ગુમ થયેલા અથવા ક્ષતિગ્રસ્ત વિસ્તારોને ભરવાની તકનીક છે. ચિત્રમાં પેઇન્ટિંગનો હેતુ એ હકીકતને છુપાવવાનો છે કે છબી પુનઃસ્થાપિત કરવામાં આવી છે.
આ ટેકનિકનો વારંવાર ઉપયોગ ઈમેજમાંથી અનિચ્છનીય વસ્તુઓને દૂર કરવા અથવા ઐતિહાસિક ફોટોગ્રાફ્સના ક્ષતિગ્રસ્ત વિસ્તારોને પુનઃસ્થાપિત કરવા માટે કરવામાં આવે છે. સ્ટેબલ ડિફ્યુઝન ઈન્પેઈન્ટીંગ એ ઈન્પેઈન્ટીંગની પ્રમાણમાં તાજેતરની રીત છે જે આશાસ્પદ અસરો આપે છે.
નીચે આપેલી સૂચનાઓને અનુસરવાથી તમે જો તમે સ્થિર પ્રસરણ સાથે ઇનપેઇન્ટિંગ કરવાનો પ્રયાસ કરવા માંગતા હોવ તો તમે હાલના ફોટામાં પેઇન્ટિંગ અને ફેરફાર કરવાનું શરૂ કરી શકશો:
- હગિંગફેસ પર જાઓ સ્ટેબલ ડિફ્યુઝન ઈમ્પેઈન્ટિંગ
- તમારી પોતાની છબી અપલોડ કરો
- તમારી છબીનો તે ભાગ ભૂંસી નાખો જેને બદલવાની જરૂર છે.
- તમારો પ્રોમ્પ્ટ અહીં દાખલ કરો (તમે જે દૂર કરી રહ્યા છો તેના સ્થાને તમે શું ઉમેરવા માંગો છો)
- "રન" પસંદ કરો
ઉપરના વિડિયોમાં, અમે ત્રણ લીંબુ સાથેનું એક ચિત્ર અપલોડ કરીએ છીએ અને તેને સફરજન માટે અદલાબદલી કરીએ છીએ. હું વ્યક્તિગત રૂપે તમારા પોતાના ફોટોગ્રાફ્સ અને સંકેતો સાથે તેને અજમાવવાની ભલામણ કરું છું.
ઉપસંહાર
સામાન્ય રીતે, અત્યંત વાસ્તવિક લાગતી નકલી છબીઓ અથવા વિડિયો બનાવવા માટે સ્ટેડી ડિફ્યુઝન ઇનપેઇન્ટિંગ એ એક ઉત્તમ પદ્ધતિ છે. જેમ જેમ આપણે નવી ટેકનીક પ્રગતિ તરફ આગળ વધીએ છીએ તેમ તેમ ટેક્નોલોજીની પ્રગતિ સાથે અધિકૃત અને છેતરપિંડી વચ્ચેનો ભેદ પારખવો વધુને વધુ કઠિન થતો જશે.
સ્વાહિર
પ્રથમ હાફ બીજા હાફ સાથે સંપૂર્ણપણે અસંબંધિત છે. તે ખરેખર સરસ હતું જો લેખકે સમજાવ્યું હોત કે ઇનપેઇન્ટ મોડેલના ફ્રેમવર્કમાં કેવી રીતે કામ કરે છે જે તેણે અગાઉ સમજાવ્યું હતું, તે સમજ આપી શક્યા હોત. પણ ના! રેન્ડમ ટેક્સ્ટને એકત્રિત કરવા અને પ્રક્રિયા કરવાને બદલે તેને વાસ્તવિક સમજણની જરૂર પડશે.