ડિફ્યુઝન મોડલનો પરિચય

સામગ્રીનું કોષ્ટક[છુપાવો][બતાવો]

ડિફ્યુઝન મોડલ શું છે?
ડિફ્યુઝન મોડેલમાં ઊંડા ડાઇવ કરો+-
અંતિમ ઉદ્દેશ
ડિફ્યુઝન મોડલના ફાયદા
ઉપસંહાર

તાજેતરના વર્ષોમાં, "ડિફ્યુઝન મોડલ્સ" તરીકે ઓળખાતા જનરેટિવ મોડલ્સ વધુને વધુ લોકપ્રિય થયા છે, અને સારા કારણ સાથે.

2020 અને 2021 ના દાયકામાં પ્રકાશિત થયેલા કેટલાક પસંદગીના સીમાચિહ્ન પ્રકાશનોને આભારી, ચિત્ર સંશ્લેષણ પર GAN ને આઉટપરફોર્મ કરવા જેવા પ્રસરણ મોડેલો શું સક્ષમ છે તે વિશ્વએ જોયું છે.

પ્રેક્ટિશનરોએ તાજેતરમાં જ પ્રસરણ મોડલનો ઉપયોગ જોયો DALL-E2, OpenAI નું ઇમેજ નિર્માણ મોડલ જે ગયા મહિને પ્રકાશિત થયું હતું.

ઘણા મશીન લર્નિંગ પ્રેક્ટિશનરો નિઃશંકપણે ડિફ્યુઝન મોડલ્સની આંતરિક કામગીરી વિશે તેમની તાજેતરની સફળતાને જોતા ઉત્સુક છે.

આ પોસ્ટમાં, અમે ડિફ્યુઝન મોડલ્સના સૈદ્ધાંતિક આધાર, તેમની ડિઝાઇન, તેમના ફાયદા અને ઘણું બધું જોઈશું. ચાલો જઈએ.

ડિફ્યુઝન મોડલ શું છે?

ચાલો આ મોડેલને પ્રસરણ મોડેલ તરીકે શા માટે ઓળખવામાં આવે છે તે શોધવાનું શરૂ કરીએ.

ભૌતિકશાસ્ત્રના વર્ગોમાં થર્મોડાયનેમિક્સ સાથે સંબંધિત શબ્દને પ્રસરણ કહેવામાં આવે છે. જો એક જગ્યાએ સુગંધ જેવી સામગ્રીની મોટી સાંદ્રતા હોય તો સિસ્ટમ સંતુલિત નથી.

સિસ્ટમમાં સંતુલન દાખલ કરવા માટે પ્રસાર થવો આવશ્યક છે. ગંધના પરમાણુઓ ઉચ્ચ સાંદ્રતાવાળા પ્રદેશમાંથી સમગ્ર સિસ્ટમમાં ફેલાય છે, જે સમગ્ર સિસ્ટમને એકસમાન બનાવે છે.

પ્રસરણને કારણે છેવટે બધું એકરૂપ બની જાય છે.

ડિફ્યુઝન મોડલ્સ આ થર્મોડાયનેમિક બિન-સંતુલન સ્થિતિ દ્વારા પ્રેરિત છે. ડિફ્યુઝન મોડલ્સ માર્કોવ સાંકળનો ઉપયોગ કરે છે, જે ચલોની શ્રેણી છે જ્યાં દરેક ચલનું મૂલ્ય અગાઉની ઘટનાની સ્થિતિ પર આધાર રાખે છે.

ચિત્ર લેવાથી, અમે આગળના પ્રસારના તબક્કા દરમિયાન તેમાં ચોક્કસ માત્રામાં અવાજ ઉમેરીએ છીએ.

ઘોંઘાટીયા ઇમેજને સ્ટોર કર્યા પછી, અમે વધારાના ઘોંઘાટની રજૂઆત કરીને શ્રેણીમાં અનુગામી છબી બનાવવા માટે આગળ વધીએ છીએ.

ઘણી વખત, આ પ્રક્રિયા કરવામાં આવે છે. આ પદ્ધતિને થોડીવાર પુનરાવર્તિત કરવાથી શુદ્ધ અવાજનું ચિત્ર પરિણમે છે.

તો પછી આપણે આ અવ્યવસ્થિત છબીમાંથી ચિત્ર કેવી રીતે બનાવી શકીએ?

પ્રસરણ પ્રક્રિયા a નો ઉપયોગ કરીને ઉલટી કરવામાં આવે છે મજ્જાતંતુકીય નેટવર્ક. સમાન નેટવર્ક્સ અને સમાન વજનનો ઉપયોગ પાછળની પ્રસરણ પ્રક્રિયામાં t થી t-1 સુધીનું ચિત્ર બનાવવા માટે થાય છે.

નેટવર્કને ચિત્રની ધારણા કરવા દેવાને બદલે, દરેક પગલા પર અવાજની આગાહી કરવાનો પ્રયાસ કરી શકે છે, જે કાર્યને વધુ સરળ બનાવવા માટે, છબીમાંથી દૂર કરવું પડશે.

કોઈપણ પરિસ્થિતિમાં, ધ ન્યુરલ નેટવર્ક ડિઝાઇન ડેટાના પરિમાણને જાળવી રાખે તે રીતે પસંદ કરવું આવશ્યક છે.

ડિફ્યુઝન મોડેલમાં ઊંડા ડાઇવ કરો

પ્રસરણ મૉડલના ઘટકો એ ફોરવર્ડ પ્રક્રિયા છે (જેને પ્રસરણ પ્રક્રિયા તરીકે પણ ઓળખવામાં આવે છે), જેમાં ડેટમ (ઘણી વખત એક ઇમેજ) ધીમે ધીમે ઘોંઘાટ થાય છે, અને રિવર્સ પ્રક્રિયા (જેને રિવર્સ ડિફ્યુઝન પ્રક્રિયા તરીકે પણ ઓળખવામાં આવે છે), જેમાં અવાજ આવે છે. લક્ષ્ય વિતરણમાંથી પાછા નમૂનામાં રૂપાંતરિત.

જ્યારે ઘોંઘાટનું સ્તર પૂરતું ઓછું હોય છે, ત્યારે આગળની પ્રક્રિયામાં સેમ્પલિંગ ચેઈન સંક્રમણો સ્થાપિત કરવા માટે શરતી ગૌસિયનનો ઉપયોગ કરી શકાય છે. આ જ્ઞાનને માર્કોવ ધારણા સાથે જોડીને આગળની પ્રક્રિયાનું સરળ પરિમાણીકરણ થાય છે:

q(x1:T |x0) := YT t=1 q(xt|xt−1), q(xt|xt−1) := N (xt; p 1 − βtxt−1, βtI)

અહીં એક….T એ એક વિચલન શેડ્યૂલ છે (ક્યાં તો શીખેલું અથવા નિશ્ચિત) જે પૂરતા પ્રમાણમાં ઉચ્ચ T માટે ખાતરી આપે છે કે xT વર્ચ્યુઅલ રીતે આઇસોટ્રોપિક ગૌસીયન છે.

મોટી ટી

વિપરીત પ્રક્રિયા એ છે જ્યાં પ્રસરણ મોડેલ જાદુ થાય છે. મોડલ તાજા ડેટા બનાવવા માટે તાલીમ દરમિયાન આ પ્રસરણ પ્રક્રિયાને રિવર્સ કરવાનું શીખે છે. મોડેલ સંયુક્ત વિતરણ તરીકે શીખે છે (x0:T) શુદ્ધ ગૌસિયન અવાજ સમીકરણથી શરૂ થવાનું પરિણામ

(xT):=N(xT,0,I).

pθ(x0:T ) := p(xT ) YT t=1 pθ(xt−1|xt), pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ( xt, t))

જ્યાં ગૌસીયન સંક્રમણોના સમય-આધારિત પરિમાણો શોધવામાં આવે છે. ખાસ કરીને, નોંધ લો કે માર્કોવ ફોર્મ્યુલેશન કેવી રીતે જણાવે છે કે આપેલ રિવર્સ ડિફ્યુઝન ટ્રાન્ઝિશન ડિસ્ટ્રિબ્યુશન ફક્ત અગાઉના ટાઈમસ્ટેપ (અથવા પછીના ટાઈમસ્ટેપ, તમે તેને કેવી રીતે જુઓ છો તેના આધારે) પર આધાર રાખે છે:

pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t))

મોડલ તાલીમ

એક રિવર્સ માર્કોવ મોડેલ કે જે પ્રશિક્ષણ ડેટાની સંભાવનાને મહત્તમ કરે છે તેનો ઉપયોગ પ્રસરણ મોડેલને તાલીમ આપવા માટે થાય છે. વ્યવહારિક રીતે કહીએ તો, તાલીમ નકારાત્મક લોગ સંભાવના પર વિવિધતાના ઉપલા બાઉન્ડને ઘટાડવા માટે સમાન છે.

E [− log pθ(x0)] ≤ Eq − log pθ(x0:T ) q(x1:T |x0) = Eq − લોગ p(xT ) − X t≥1 લોગ pθ(xt−1|xt) q (xt|xt−1) =: L

મોડલ્સ

હવે આપણે નક્કી કરવાની જરૂર છે કે આપણા ધ્યેય કાર્યના ગાણિતિક આધારને સ્થાપિત કર્યા પછી આપણા ડિફ્યુઝન મોડલને કેવી રીતે એક્ઝિક્યુટ કરવું. ફોરવર્ડ પ્રક્રિયા માટે જરૂરી એકમાત્ર નિર્ણય વેરિઅન્સ શેડ્યૂલ નક્કી કરવાનો છે, જેની કિંમતો પ્રક્રિયા દરમિયાન સામાન્ય રીતે વધે છે.

અમે રિવર્સ પ્રક્રિયા માટે ગૌસિયન ડિસ્ટ્રિબ્યુશન પેરામીટરાઇઝેશન અને મોડલ આર્કિટેક્ચરનો ઉપયોગ કરવાનું ભારપૂર્વક ધ્યાનમાં લઈએ છીએ.

અમારી ડિઝાઇનની એકમાત્ર શરત એ છે કે ઇનપુટ અને આઉટપુટ બંનેના પરિમાણો સમાન છે. આ ડિફ્યુઝન મોડલ્સ પ્રદાન કરે છે તે સ્વતંત્રતાની પ્રચંડ ડિગ્રીને રેખાંકિત કરે છે.

નીચે, અમે આ વિકલ્પો વિશે વધુ ઊંડાણમાં જઈશું.

આગળ પ્રક્રિયા

અમે ફોરવર્ડ પ્રક્રિયાના સંબંધમાં વેરિઅન્સ શેડ્યૂલ પ્રદાન કરવું આવશ્યક છે. અમે તેમને ખાસ કરીને સમય-આશ્રિત સ્થિરાંકો તરીકે સેટ કર્યા છે અને તેઓ શીખી શકાય તેવી શક્યતાને અવગણી છે. થી કાલક્રમિક શેડ્યૂલ

β1 = 10−4 થી βT = 0.02.

Lt નિશ્ચિત વેરિઅન્સ શેડ્યૂલને કારણે શીખવા યોગ્ય પરિમાણોના અમારા સેટના સંદર્ભમાં એક સ્થિર બની જાય છે, જે અમને પસંદ કરેલ ચોક્કસ મૂલ્યોને ધ્યાનમાં લીધા વિના તાલીમ દરમિયાન તેની અવગણના કરવાની મંજૂરી આપે છે.

રિવર્સ પ્રક્રિયા

અમે હવે વિપરીત પ્રક્રિયાને વ્યાખ્યાયિત કરવા માટે જરૂરી નિર્ણયો પર જઈએ છીએ. યાદ રાખો કે અમે કેવી રીતે વિપરીત માર્કોવ સંક્રમણોને ગૌસીયન તરીકે વર્ણવ્યા છે:

pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t))

હવે આપણે કાર્યાત્મક પ્રકારો ઓળખી કાઢ્યા છે. પેરામીટરાઇઝ કરવા માટે વધુ જટિલ તકનીકો હોવા છતાં, અમે હમણાં જ સેટ કર્યું છે

Σθ(xt, t) = σ 2 t I

σ 2 t = βt

તેને બીજી રીતે કહીએ તો, અમે મલ્ટિવેરિયેટ ગૌસિયનને સમાન ભિન્નતા સાથે અલગ ગૌસિયનનું પરિણામ માનીએ છીએ, એક વિભિન્ન મૂલ્ય જે સમય જતાં વધઘટ થઈ શકે છે. આ વિચલનો ફોરવર્ડિંગ પ્રક્રિયાના વિચલનોના સમયપત્રક સાથે મેળ કરવા માટે સેટ છે.

આ નવી રચનાના પરિણામે, અમારી પાસે:

pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t)):=N (xt−1; µθ (xt, t), σ2 t I)

આના પરિણામે નીચે દર્શાવેલ વૈકલ્પિક નુકશાન કાર્યમાં પરિણમે છે, જે લેખકોએ વધુ સુસંગત તાલીમ અને શ્રેષ્ઠ પરિણામોનું ઉત્પાદન કર્યું હોવાનું જણાયું છે:

Lsimple(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2

લેખકો ડિફ્યુઝન મોડલ્સના આ ફોર્મ્યુલેશન અને લેંગેવિન-આધારિત સ્કોર-મેચિંગ જનરેટિવ મોડલ્સ વચ્ચે જોડાણ પણ દોરે છે. તરંગ-આધારિત ક્વોન્ટમ ફિઝિક્સ અને મેટ્રિક્સ-આધારિત ક્વોન્ટમ મિકેનિક્સના સ્વતંત્ર અને સમાંતર વિકાસની જેમ, જે સમાન ઘટનાના બે તુલનાત્મક ફોર્મ્યુલેશન્સ જાહેર કરે છે, એવું લાગે છે કે પ્રસરણ મોડલ્સ અને સ્કોર-આધારિત મોડેલો એક જ સિક્કાની બે બાજુઓ હોઈ શકે છે.

નેટવર્ક આર્કિટેક્ચર

એ હકીકત હોવા છતાં કે અમારા કન્ડેન્સ્ડ લોસ ફંક્શનનો હેતુ મોડેલને તાલીમ આપવાનો છે એસ.એસ, અમે હજુ પણ આ મોડેલના આર્કિટેક્ચર પર નિર્ણય લીધો નથી. ધ્યાનમાં રાખો કે મોડેલમાં ફક્ત સમાન ઇનપુટ અને આઉટપુટ પરિમાણો હોવા જોઈએ.

આ અવરોધને જોતાં, તે કદાચ અણધારી નથી કે યુ-નેટ જેવા આર્કિટેક્ચરનો વારંવાર ચિત્ર પ્રસરણ મોડલ બનાવવા માટે ઉપયોગ કરવામાં આવે છે.

નેટવર્ક આર્કિટેક્ચર

સતત શરતી ગૌસિયન વિતરણનો ઉપયોગ કરતી વખતે વિપરીત પ્રક્રિયાના માર્ગમાં અસંખ્ય ફેરફારો કરવામાં આવે છે. યાદ રાખો કે વિપરીત પ્રક્રિયાનું લક્ષ્ય પૂર્ણાંક પિક્સેલ મૂલ્યોથી બનેલું ચિત્ર બનાવવાનું છે. દરેક સંભવિત પિક્સેલ મૂલ્ય માટે તમામ પિક્સેલ કરતાં અલગ (લોગ) સંભાવનાઓ નક્કી કરવી જરૂરી છે.

રિવર્સ ડિફ્યુઝન ચેઈનના છેલ્લા સંક્રમણને અલગ અલગ ડીકોડર સોંપીને આ પરિપૂર્ણ થાય છે. ચોક્કસ છબીની સંભાવનાનો અંદાજ કાઢવો x0 આપવામાં x1.

pθ(x0|x1) = YD i=1 Z δ+(xi 0 ) δ−(xi 0 ) N (x; µ i θ (x1, 1), σ2 1 ) dx

δ+(x) = ∞ જો x = 1 x + 1 255 જો x < 1 δ−(x) = −∞ જો x = −1 x − 1 255 જો x > −1

જ્યાં સુપરસ્ક્રિપ્ટ I એક કોઓર્ડિનેટના નિષ્કર્ષણને સૂચવે છે અને D ડેટામાં પરિમાણોની સંખ્યા સૂચવે છે.

આ બિંદુએ ઉદ્દેશ્ય ચોક્કસ પિક્સેલ માટે દરેક પૂર્ણાંક મૂલ્યની સંભાવનાને સ્થાપિત કરવાનો છે જે તે પિક્સેલ માટે સંભવિત મૂલ્યોના સમય-વિવિધતામાં વિતરણને જોતાં t=1.

અંતિમ ઉદ્દેશ

વૈજ્ઞાનિકોના મતે સૌથી મહાન પરિણામો ચોક્કસ સમયે ચિત્રના અવાજ ઘટકની આગાહી કરવાથી આવ્યા હતા. અંતે, તેઓ નીચેના ધ્યેયનો ઉપયોગ કરે છે:

Lsimple(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2

નીચેની છબીમાં, અમારા પ્રસરણ મોડેલ માટેની તાલીમ અને નમૂના પ્રક્રિયાઓ સંક્ષિપ્તમાં દર્શાવવામાં આવી છે:

અંતિમ ઉદ્દેશ

ડિફ્યુઝન મોડલના ફાયદા

પહેલેથી જ સૂચવવામાં આવ્યું છે તેમ, પ્રસરણ મોડેલો પર સંશોધનની માત્રા તાજેતરમાં ગુણાકાર થઈ છે. ડિફ્યુઝન મોડલ્સ હવે અદ્યતન ઇમેજ ગુણવત્તા પ્રદાન કરે છે અને બિન-સંતુલન થર્મોડાયનેમિક્સ દ્વારા પ્રેરિત છે.

ડિફ્યુઝન મોડલ્સ અદ્યતન ચિત્ર ગુણવત્તા ઉપરાંત અન્ય વિવિધ લાભો પૂરા પાડે છે, જેમ કે વિરોધી તાલીમની જરૂર નથી.

પ્રતિકૂળ તાલીમની ખામીઓ વ્યાપકપણે જાણીતી છે, તેથી સમાન કામગીરી અને તાલીમની અસરકારકતા સાથે બિન-વિરોધી વિકલ્પો પસંદ કરવાનું વધુ સારું છે.

પ્રસાર મોડેલો તાલીમ અસરકારકતાના સંદર્ભમાં માપનીયતા અને સમાંતરતાના ફાયદા પણ પ્રદાન કરે છે.

જો કે ડિફ્યુઝન મોડલ્સ પાતળી હવામાંથી દેખીતી રીતે પરિણામો ઉત્પન્ન કરતા દેખાય છે, આ પરિણામોનો આધાર સંખ્યાબંધ વિચારશીલ અને રસપ્રદ ગાણિતિક નિર્ણયો અને સૂક્ષ્મતાઓ દ્વારા નાખવામાં આવે છે, અને ઉદ્યોગની શ્રેષ્ઠ પદ્ધતિઓ હજુ પણ વિકસાવવામાં આવી રહી છે.

ઉપસંહાર

નિષ્કર્ષમાં, સંશોધકો ડિફ્યુઝન પ્રોબેબિલિસ્ટિક મોડલ્સનો ઉપયોગ કરીને ઉચ્ચ-ગુણવત્તાવાળા ચિત્ર સંશ્લેષણ તારણો દર્શાવે છે, જે અસંતુલન થર્મોડાયનેમિક્સના વિચારો દ્વારા પ્રેરિત સુપ્ત ચલ મોડલનો વર્ગ છે.

તેઓએ તેમના અદ્યતન પરિણામો અને બિન-વિરોધી તાલીમને કારણે જબરદસ્ત વસ્તુઓ હાંસલ કરી છે અને તેમની બાળપણને જોતાં, આવનારા વર્ષોમાં વધુ પ્રગતિની અપેક્ષા રાખવામાં આવી શકે છે.

ખાસ કરીને, એવું જાણવા મળ્યું છે કે DALL-E 2 જેવા અદ્યતન મોડલ્સની કાર્યક્ષમતા માટે ડિફ્યુઝન મોડલ્સ નિર્ણાયક છે.

અહીં તમે સંપૂર્ણ સંશોધનને ઍક્સેસ કરી શકો છો.

ડિફ્યુઝન મોડલનો પરિચય

ડિફ્યુઝન મોડલ શું છે?