මෑත වසරවලදී, "විසරණ ආකෘති" ලෙස හැඳින්වෙන ජනක ආකෘති වැඩි වැඩියෙන් ජනප්රිය වී ඇති අතර හොඳ හේතුවක් ඇත.
2020 සහ 2021 දශකවල පමණක් ප්රකාශයට පත් කරන ලද තෝරාගත් බිම් සලකුණු ප්රකාශන කිහිපයකට ස්තූතිවන්ත වන පරිදි, පින්තූර සංස්ලේෂණයේදී GAN අභිබවා යාම වැනි විසරණ මාදිලියේ හැකියාව කුමක්දැයි ලෝකය දැක ඇත.
ව්යායාම කරන්නන් ඉතා මෑතක දී විසරණ ආකෘති භාවිතය දුටුවේය DALL-E2, පසුගිය මාසයේ ප්රකාශයට පත් කරන ලද OpenAI හි රූප නිර්මාණ ආකෘතිය.
බොහෝ යන්ත්ර ඉගෙනීමේ වෘත්තිකයින් ඔවුන්ගේ මෑත කාලීන සාර්ථකත්වයට අනුව ඩිෆියුෂන් මාදිලිවල අභ්යන්තර ක්රියාකාරිත්වය ගැන කුතුහලයෙන් සිටිති.
මෙම ලිපියෙන්, අපි විසරණ ආකෘතිවල න්යායික යටිතලයන්, ඒවායේ සැලසුම, ඒවායේ වාසි සහ තවත් බොහෝ දේ දෙස බලමු. අපි යමු.
විසරණ ආකෘතිය යනු කුමක්ද?
මෙම ආකෘතිය විසරණ ආකෘතියක් ලෙස හඳුන්වන්නේ මන්දැයි සොයා බැලීමෙන් අපි ආරම්භ කරමු.
භෞතික විද්යා පන්තිවල තාප ගති විද්යාවට සම්බන්ධ වචනයක් විසරණය ලෙස හැඳින්වේ. එක් ස්ථානයක සුවඳක් වැනි ද්රව්යයක විශාල සාන්ද්රණයක් තිබේ නම් පද්ධතියක් සමතුලිත නොවේ.
පද්ධතිය සමතුලිතතාවයට ඇතුල් වීම සඳහා විසරණය සිදු විය යුතුය. සුවඳෙහි අණු වැඩි සාන්ද්රණයකින් යුත් කලාපයකින් පද්ධතිය පුරා විහිදෙන අතර එමඟින් පද්ධතිය පුරා ඒකාකාර වේ.
විසරණය හේතුවෙන් සෑම දෙයක්ම අවසානයේ සමජාතීය වේ.
මෙම තාප ගතික සමතුලිත නොවන තත්ත්වයෙන් විසරණ ආකෘති පෙළඹේ. විසරණ ආකෘති මාර්කොව් දාමයක් භාවිතා කරයි, එය එක් එක් විචල්යයේ අගය පෙර සිදුවීමේ තත්වය මත රඳා පවතින විචල්ය මාලාවකි.
පින්තූරයක් ගනිමින්, ඉදිරි විසරණ අවධිය පුරාවට අපි එයට නිශ්චිත ශබ්ද ප්රමාණයක් අනුපිළිවෙලින් එකතු කරමු.
ඝෝෂාකාරී රූපය ගබඩා කිරීමෙන් පසුව, අපි අතිරේක ශබ්දයක් හඳුන්වා දීමෙන් මාලාවේ ඊළඟ රූපය නිර්මාණය කිරීමට ඉදිරියට යමු.
කිහිප වතාවක්, මෙම ක්රියා පටිපාටිය සිදු කරනු ලැබේ. මෙම ක්රමය කිහිප වතාවක් පුනරුච්චාරණය කිරීමෙන් පිරිසිදු ඝෝෂා පින්තූරයක් ඇතිවේ.
එතකොට අපි කොහොමද මේ අවුල් සහගත රූපයෙන් පින්තූරයක් නිර්මාණය කරන්නේ?
විසරණ ක්රියාවලිය ප්රතිවර්තනය කරනු ලබන්නේ a භාවිතා කරමිනි ස්නායු ජාලය. t සිට t-1 දක්වා පින්තූරය නිර්මාණය කිරීම සඳහා පසුගාමී විසරණ ක්රියාවලියේදී එකම ජාල සහ එකම බර භාවිතා වේ.
ජාලයට පින්තූරය අපේක්ෂා කිරීමට ඉඩ දෙනවා වෙනුවට, කාර්යය තවදුරටත් සරල කිරීම සඳහා රූපයෙන් ඉවත් කළ යුතු එක් එක් පියවරේදී ශබ්දය පුරෝකථනය කිරීමට උත්සාහ කළ හැකිය.
ඕනෑම අවස්ථාවක, ද ස්නායු ජාල නිර්මාණය දත්ත මානය පවත්වා ගෙන යන ආකාරයෙන් තෝරා ගත යුතුය.
විසරණ ආකෘතියට ගැඹුරට කිමිදෙන්න
විසරණ ආකෘතියක සංරචක යනු දත්තයක් (බොහෝ විට රූපයක්) ක්රමයෙන් ඝෝෂා වන ඉදිරි ක්රියාවලියක් (විසරණ ක්රියාවලියක් ලෙසද හැඳින්වේ), සහ ප්රතිලෝම ක්රියාවලියක් (ප්රතිලෝම විසරණ ක්රියාවලියක් ලෙසද හැඳින්වේ), ශබ්දය ඉලක්ක බෙදා හැරීමෙන් නැවත නියැදියක් බවට පරිවර්තනය කරන ලදී.
ශබ්ද මට්ටම ප්රමාණවත් තරම් අඩු වන විට, ඉදිරි ක්රියාවලියේදී නියැදි දාම සංක්රාන්ති ස්ථාපිත කිරීමට කොන්දේසි සහිත Gaussians භාවිතා කළ හැක. මෙම දැනුම මාර්කොව් උපකල්පනය සමඟ සම්බන්ධ කිරීමෙන් ඉදිරි ක්රියාවලියේ පහසු පරාමිතිකරණයක් සිදු වේ:
q(x1:T |x0) := YT t=1 q(xt|xt−1), q(xt|xt−1) := N (xt; p 1 - βtxt−1, βtI)
මෙහි එක….T යනු ප්රමාණවත් තරම් ඉහළ T සඳහා, xT ප්රායෝගිකව සමස්ථානික Gaussian බව සහතික කරන විචල්ය කාලසටහනකි (උගත් හෝ ස්ථාවර).
ප්රතිවිරුද්ධ ක්රියාවලිය වන්නේ විසරණ ආකෘති මැජික් සිදු වන ස්ථානයයි. නැවුම් දත්ත නිෂ්පාදනය කිරීම සඳහා පුහුණුව අතරතුර මෙම විසරණ ක්රියාවලිය ආපසු හැරවීමට ආකෘතිය ඉගෙන ගනී. ආකෘතිය ඒකාබද්ධ ව්යාප්තිය ලෙස ඉගෙන ගනී (x0:T) පිරිසිදු Gaussian ශබ්ද සමීකරණයෙන් ආරම්භ වීමේ ප්රතිඵලය
(xT):=N(xT,0,I).
pθ(x0:T ) := p(xT ) YT t=1 pθ(xt−1|xt), pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ( xt, t))
එහිදී Gaussian සංක්රාන්ති කාලය මත රඳා පවතින පරාමිතීන් සොයාගනු ලැබේ. විශේෂයෙන්ම, ලබා දී ඇති ප්රතිලෝම විසරණ සංක්රාන්ති ව්යාප්තිය පෙර කාල පියවර (හෝ ඔබ එය දෙස බලන ආකාරය අනුව පසු කාලපරිච්ඡේදය) මත පමණක් රඳා පවතින බව මාර්කොව් සූත්රගත කිරීම ප්රකාශ කරන ආකාරය සැලකිල්ලට ගන්න:
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t))
ආදර්ශ පුහුණුව
පුහුණු දත්තවල සම්භාවිතාව උපරිම කරන ප්රතිලෝම මාර්කොව් ආකෘතියක් විසරණ ආකෘතියක් පුහුණු කිරීමට භාවිතා කරයි. ප්රායෝගිකව කථා කිරීම, පුහුණුව සෘණ ලඝු සම්භාවිතාව මත විචල්ය ඉහළ සීමාව අඩු කිරීමට සමාන වේ.
E [− log pθ(x0)] ≤ Eq − log pθ(x0:T ) q(x1:T |x0) = Eq - log p(xT ) - X t≥1 log pθ(xt−1|xt) q (xt|xt−1) =: එල්
ආකෘති
අපගේ ඉලක්ක ශ්රිතයේ ගණිතමය යටි පිහිටුම් ස්ථාපිත කිරීමෙන් පසුව අපගේ විසරණ ආකෘතිය ක්රියාත්මක කරන්නේ කෙසේදැයි අප දැන් තීරණය කළ යුතුය. ඉදිරි ක්රියාවලිය සඳහා අවශ්ය එකම තීරණය වන්නේ ක්රියා පටිපාටිය අතරතුර සාමාන්යයෙන් ඉහළ යන අගයන් විචල්ය කාලසටහන තීරණය කිරීමයි.
ප්රතිලෝම ක්රියා පටිපාටිය සඳහා Gaussian බෙදාහැරීමේ පරාමිතිකරණය සහ ආකෘති ගෘහ නිර්මාණ ශිල්පය භාවිතා කිරීම අපි දැඩි ලෙස සලකා බලමු.
අපගේ නිර්මාණයේ එකම කොන්දේසිය වන්නේ ආදානය සහ ප්රතිදානය යන දෙකම එකම මානයන් තිබීමයි. මෙය විසරණ ආකෘති සපයන අතිවිශාල නිදහසේ මට්ටම අවධාරණය කරයි.
පහත, අපි මෙම විකල්පයන් ගැන වඩාත් ගැඹුරට යන්නෙමු.
ඉදිරි ක්රියාවලිය
ඉදිරි ක්රියාවලියට අදාළව අපි විචල්ය කාලසටහන සැපයිය යුතුය. අපි ඒවා විශේෂයෙන් කාලය මත රඳා පවතින නියතයන් ලෙස සකසා ඒවා ඉගෙන ගත හැකි බව නොසලකා හැරියෙමු. සිට කාලානුක්රමික කාලසටහනක්
β1 = 10−4 සිට βT = 0.02.
Lt ස්ථාවර විචල්යතා කාලසටහන හේතුවෙන් අපගේ ඉගෙන ගත හැකි පරාමිති සමූහය සම්බන්ධයෙන් නියතයක් බවට පත් වේ, තෝරාගත් නිශ්චිත අගයන් නොසලකා පුහුණුව අතරතුර එය නොසලකා හැරීමට අපට ඉඩ සලසයි.
ප්රතිලෝම ක්රියාවලිය
අපි දැන් ප්රතිලෝම ක්රියාවලිය නිර්වචනය කිරීමට අවශ්ය තීරණ වෙත යන්නෙමු. අපි ප්රතිලෝම මාර්කොව් සංක්රාන්තිය ගවුසියන් ලෙස විස්තර කළ ආකාරය මතක තබා ගන්න:
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t))
දැන් අපි ක්රියාකාරී වර්ග හඳුනාගෙන ඇත. පරාමිතිකරණය සඳහා වඩාත් සංකීර්ණ තාක්ෂණික ක්රම තිබියදීත්, අපි සකස් කරමු
Σθ(xt, t) = σ 2 t I
σ 2 t = βt
එය වෙනත් ආකාරයකින් පැවසුවහොත්, බහුවිචල්ය Gaussian යනු එකම විචලනය සහිත වෙනම Gaussian වල ප්රතිඵලයක් ලෙස සලකමු, කාලයත් සමඟ උච්චාවචනය විය හැකි විචල්ය අගයකි. මෙම අපගමන ක්රියාවලි අපගමනය ඉදිරියට යැවීමේ කාලසටහනට ගැළපෙන ලෙස සකසා ඇත.
මෙම නව සූත්රගත කිරීමේ ප්රතිඵලයක් ලෙස, අපිට තියනවා:
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t)) :=N (xt−1; µθ (xt, t), σ2 t I)
මෙහි ප්රතිඵලයක් ලෙස පහත දැක්වෙන විකල්ප අලාභ ශ්රිතය, වඩා ස්ථාවර පුහුණුවක් සහ උසස් ප්රතිඵල නිපදවීමට කතුවරුන් සොයා ගත්හ:
සරල(θ) := Et,x0, h - θ(√ α¯tx0 + √ 1 - α¯t, t) 2
කතුවරුන් මෙම විසරණ ආකෘති සැකසීම සහ Langevin මත පදනම් වූ ලකුණු-ගැලපෙන උත්පාදක ආකෘති අතර සම්බන්ධතා ද අඳිති. තරංග මත පදනම් වූ ක්වොන්ටම් භෞතික විද්යාවේ සහ අනුකෘතිය මත පදනම් වූ ක්වොන්ටම් යාන්ත්ර විද්යාවේ ස්වාධීන හා සමාන්තර වර්ධනයත් සමඟම, එකම සංසිද්ධීන්හි සංසන්දනාත්මක සූත්රගත කිරීම් දෙකක් හෙළිදරව් කරන ලද අතර, විසරණ ආකෘති සහ ලකුණු පාදක ආකෘති එකම කාසියක දෙපැත්තක් විය හැකි බව පෙනේ.
ජාල ගෘහ නිර්මාණ ශිල්පය
අපගේ ඝනීභවනය වූ පාඩු ශ්රිතය ආකෘතියක් පුහුණු කිරීම අරමුණු කර ගෙන ඇතත් Σθ, අපි තවමත් මෙම ආකෘතියේ ගෘහ නිර්මාණ ශිල්පය පිළිබඳව තීරණය කර නැත. ආකෘතිය සරලවම එකම ආදාන සහ ප්රතිදාන මානයන් තිබිය යුතු බව මතක තබා ගන්න.
මෙම බාධාව සැලකිල්ලට ගෙන, U-Net වැනි ගෘහ නිර්මාණ ශිල්පය පින්තූර විසරණ ආකෘති නිර්මාණය කිරීම සඳහා නිතර භාවිතා කිරීම අනපේක්ෂිත නොවේ.
අඛණ්ඩ කොන්දේසි සහිත Gaussian බෙදාහැරීම් භාවිතා කරන අතරතුර ප්රතිලෝම ක්රියාවලියේ මාර්ගය ඔස්සේ බොහෝ වෙනස්කම් සිදු කෙරේ. ප්රතිලෝම ක්රියා පටිපාටියේ පරමාර්ථය වන්නේ නිඛිල පික්සල් අගයන්ගෙන් සැදුම්ලත් පින්තූරයක් නිර්මාණය කිරීම බව මතක තබා ගන්න. එබැවින් සියලුම පික්සලවලට වඩා එක් එක් විභව පික්සල අගය සඳහා විවික්ත (ලොග්) සම්භාවිතාව තීරණය කිරීම අවශ්ය වේ.
ප්රතිලෝම විසරණ දාමයේ අවසාන සංක්රාන්තියට වෙනම විවික්ත විකේතකයක් පැවරීම මගින් මෙය සිදු වේ. නිශ්චිත රූපයක අවස්ථාවක් ඇස්තමේන්තු කිරීම x0 ලබා දී ඇත x1.
pθ(x0|x1) = YD i=1 Z δ+(xi 0 ) δ−(xi 0 ) N (x; µ i θ (x1, 1), σ2 1 ) dx
δ+(x) = ∞ නම් x = 1 x + 1 255 නම් x < 1 δ−(x) = -∞ නම් x = -1 x - 1 255 නම් x > −1
මෙහි I අධිස්ක්රිප්ට් එක ඛණ්ඩාංකයක නිස්සාරණය සහ D මගින් දත්තවල මාන ගණන දක්වයි.
මෙම ලක්ෂ්යයේ පරමාර්ථය වන්නේ කාලය වෙනස් වන විට එම පික්සලය සඳහා විභව අගයන් බෙදා හැරීම ලබා දී නිශ්චිත පික්සලයක් සඳහා එක් එක් නිඛිල අගයේ සම්භාවිතාව තහවුරු කිරීමයි. t=1.
අවසාන අරමුණ
විද්යාඥයන් පවසන පරිදි, විශිෂ්ටතම ප්රතිඵලය වූයේ, යම්කිසි කාල වකවානුවක පින්තූරයක ශබ්ද සංරචකය පුරෝකථනය කිරීමෙනි. අවසානයේදී, ඔවුන් පහත ඉලක්කය භාවිතා කරයි:
සරල(θ) := Et,x0, h - θ(√ α¯tx0 + √ 1 - α¯t, t) 2
පහත රූපයේ, අපගේ විසරණ ආකෘතිය සඳහා පුහුණු සහ නියැදි ක්රියා පටිපාටි සංක්ෂිප්තව නිරූපණය කර ඇත:
විසරණ ආකෘතියේ ප්රතිලාභ
දැනටමත් පෙන්වා දී ඇති පරිදි, විසරණ ආකෘති පිළිබඳ පර්යේෂණ ප්රමාණය මෑතකදී වැඩි වී ඇත. විසරණ මාදිලි දැන් අති නවීන රූපවල ගුණාත්මක භාවය ලබා දෙන අතර සමතුලිත නොවන තාප ගති විද්යාවෙන් ආභාසය ලබයි.
විසරණ ආකෘතීන්, විරුද්ධවාදී පුහුණුවක් අවශ්ය නොවීම වැනි, අති නවීන පින්තූර ගුණාත්මක භාවයට අමතරව වෙනත් විවිධ වාසි සපයයි.
එදිරිවාදී පුහුණුවේ අවාසි පුළුල් ලෙස දන්නා බැවින් සමාන කාර්ය සාධනයක් සහ පුහුණු කාර්යක්ෂමතාවයක් සහිත විරුද්ධවාදී නොවන විකල්ප තෝරා ගැනීම බොහෝ විට වඩාත් සුදුසුය.
පුහුණු ඵලදායිතාවය අනුව විසරණ ආකෘති පරිමාණයේ සහ සමාන්තරකරණයේ වාසි ද සපයයි.
විසරණ ආකෘතීන් සිහින් වාතයෙන් පිටත ප්රතිඵල ජනනය කරන බව පෙනුනද, මෙම ප්රතිඵල සඳහා පදනම කල්පනාකාරී හා සිත්ගන්නා ගණිතමය තීරණ සහ සියුම් කරුණු ගණනාවක් මගින් සකස් කර ඇති අතර කර්මාන්තයේ හොඳම භාවිතයන් තවමත් සංවර්ධනය වෙමින් පවතී.
නිගමනය
අවසාන වශයෙන්, පර්යේෂකයන් විසින් විසරණ සම්භාවිතා ආකෘති භාවිතා කරමින් උසස් තත්ත්වයේ පින්තූර සංස්ලේෂණ සොයාගැනීම් ප්රදර්ශනය කරයි, සමතුලිත නොවන තාප ගති විද්යාවේ අදහස් මගින් අභිප්රේරණය කරන ලද ගුප්ත විචල්ය ආකෘති පන්තියකි.
ඔවුන්ගේ අති නවීන ප්රතිඵල සහ එදිරිවාදී නොවන පුහුණුවට ස්තූතිවන්ත වෙමින් ඔවුන් අතිවිශාල දේවල් අත්කර ගෙන ඇති අතර ඔවුන්ගේ ළදරු අවධිය ලබා දී ඇත, ඉදිරි වසරවලදී තවත් දියුණුවක් අපේක්ෂා කළ හැකිය.
විශේෂයෙන්ම, DALL-E 2 වැනි උසස් මාදිලිවල ක්රියාකාරීත්වය සඳහා විසරණ ආකෘති ඉතා වැදගත් බව සොයාගෙන ඇත.
මෙහි ඔබට සම්පූර්ණ පර්යේෂණයට ප්රවේශ විය හැක.
ඔබමයි