சமீபத்திய ஆண்டுகளில், "டிஃப்யூஷன் மாடல்கள்" என்று அழைக்கப்படும் ஜெனரேட்டிவ் மாதிரிகள் பெருகிய முறையில் பிரபலமாகி நல்ல காரணத்துடன் உள்ளன.
2020 & 2021 களில் வெளியிடப்பட்ட சில முக்கிய பிரசுரங்களுக்கு நன்றி, படத்தொகுப்பில் GAN களை விட சிறப்பாக செயல்படுவது போன்ற பரவல் மாதிரிகள் என்ன திறன் கொண்டவை என்பதை உலகம் கண்டுள்ளது.
பயிற்சியாளர்கள் மிக சமீபத்தில் பரவல் மாதிரிகளின் பயன்பாட்டைக் கண்டனர் DALL-E2, கடந்த மாதம் வெளியிடப்பட்ட OpenAI இன் படத்தை உருவாக்கும் மாதிரி.
பல இயந்திர கற்றல் பயிற்சியாளர்கள் சந்தேகத்திற்கு இடமின்றி டிஃப்யூஷன் மாடல்களின் உள் செயல்பாடுகள் குறித்து ஆர்வமாக உள்ளனர்.
இந்த இடுகையில், டிஃப்யூஷன் மாடல்களின் கோட்பாட்டு அடிப்படைகள், அவற்றின் வடிவமைப்பு, அவற்றின் நன்மைகள் மற்றும் பலவற்றைப் பார்ப்போம். போகலாம்.
பரவல் மாதிரி என்றால் என்ன?
இந்த மாதிரி ஏன் பரவல் மாதிரி என்று குறிப்பிடப்படுகிறது என்பதைக் கண்டுபிடிப்பதன் மூலம் ஆரம்பிக்கலாம்.
இயற்பியல் வகுப்புகளில் வெப்ப இயக்கவியல் தொடர்பான சொல் பரவல் எனப்படும். ஒரு இடத்தில் வாசனை போன்ற ஒரு பொருளின் அதிக செறிவு இருந்தால் ஒரு அமைப்பு சமநிலையில் இருக்காது.
அமைப்பு சமநிலையில் நுழைவதற்கு பரவல் ஏற்பட வேண்டும். வாசனையின் மூலக்கூறுகள் அதிக செறிவு உள்ள பகுதியிலிருந்து அமைப்பு முழுவதும் பரவி, அமைப்பு முழுவதும் ஒரே மாதிரியாக இருக்கும்.
பரவல் காரணமாக அனைத்தும் இறுதியில் ஒரே மாதிரியாக மாறும்.
இந்த தெர்மோடைனமிக் அல்லாத சமநிலை நிலையால் பரவல் மாதிரிகள் தூண்டப்படுகின்றன. பரவல் மாதிரிகள் ஒரு மார்கோவ் சங்கிலியைப் பயன்படுத்துகின்றன, இது மாறிகளின் தொடர் ஆகும், அங்கு ஒவ்வொரு மாறியின் மதிப்பும் முந்தைய நிகழ்வின் நிலையைப் பொறுத்தது.
ஒரு படத்தை எடுக்கும்போது, முன்னோக்கி பரவல் கட்டம் முழுவதும் ஒரு குறிப்பிட்ட அளவு சத்தத்தை அடுத்தடுத்து சேர்க்கிறோம்.
சத்தமில்லாத படத்தைச் சேமித்த பிறகு, கூடுதல் இரைச்சலை அறிமுகப்படுத்துவதன் மூலம் தொடரில் அடுத்தடுத்த படத்தை உருவாக்கத் தொடர்கிறோம்.
பல முறை, இந்த செயல்முறை செய்யப்படுகிறது. இந்த முறையை சில முறை மீண்டும் செய்வதன் மூலம் ஒரு தூய இரைச்சல் படம் விளைகிறது.
இந்த இரைச்சலான படத்தில் இருந்து எப்படி ஒரு படத்தை உருவாக்குவது?
A ஐப் பயன்படுத்தி பரவல் செயல்முறை தலைகீழாக மாற்றப்படுகிறது நரம்பு நெட்வொர்க். t இலிருந்து t-1 வரை படத்தை உருவாக்க, அதே நெட்வொர்க்குகள் மற்றும் அதே எடைகள் பின்தங்கிய பரவல் செயல்பாட்டில் பயன்படுத்தப்படுகின்றன.
படத்தை எதிர்நோக்க நெட்வொர்க்கை அனுமதிப்பதற்குப் பதிலாக, பணியை மேலும் எளிதாக்குவதற்காக, படத்திலிருந்து அகற்றப்பட வேண்டிய ஒவ்வொரு அடியிலும் சத்தத்தைக் கணிக்க ஒருவர் முயற்சி செய்யலாம்.
எந்த சூழ்நிலையிலும், தி நரம்பியல் நெட்வொர்க் வடிவமைப்பு தரவு பரிமாணத்தை பராமரிக்கும் வகையில் தேர்ந்தெடுக்கப்பட வேண்டும்.
டிஃப்யூஷன் மாடலில் ஆழமாக மூழ்குங்கள்
ஒரு பரவல் மாதிரியின் கூறுகள் ஒரு முன்னோக்கி செயல்முறை (பரவல் செயல்முறை என்றும் அழைக்கப்படுகிறது), இதில் ஒரு டேட்டம் (பெரும்பாலும் ஒரு படம்) படிப்படியாக சத்தமடைகிறது, மற்றும் ஒரு தலைகீழ் செயல்முறை (தலைகீழ் பரவல் செயல்முறை என்றும் அழைக்கப்படுகிறது), இதில் சத்தம் இலக்கு விநியோகத்திலிருந்து மீண்டும் மாதிரியாக மாற்றப்பட்டது.
இரைச்சல் அளவு போதுமான அளவு குறைவாக இருக்கும்போது, முன்னோக்கிச் செயல்பாட்டில் மாதிரி சங்கிலி மாற்றங்களை நிறுவ நிபந்தனை காசியன்களைப் பயன்படுத்தலாம். இந்த அறிவை மார்கோவ் அனுமானத்துடன் இணைப்பதன் மூலம் முன்னோக்கி செயல்முறையின் எளிதான அளவுருவாக்கம் ஏற்படுகிறது:
q(x1:T |x0) := YT t=1 q(xt|xt−1), q(xt|xt−1) := N (xt; p 1 - βtxt−1, βtI)
இங்கே ஒன்று….T என்பது ஒரு மாறுபாடு அட்டவணை (கற்றது அல்லது நிலையானது), இது போதுமான உயர் Tக்கு, xT கிட்டத்தட்ட ஒரு ஐசோட்ரோபிக் காஸியன் என்று உறுதியளிக்கிறது.
பரவல் மாதிரி மந்திரம் நடக்கும் இடத்தில் எதிர் செயல்முறை. புதிய தரவை உருவாக்க பயிற்சியின் போது இந்த பரவல் செயல்முறையை மாற்றியமைக்க மாதிரி கற்றுக்கொள்கிறது. மாதிரி கூட்டுப் பரவலைக் கற்றுக்கொள்கிறது (x0:T) தூய காசியன் இரைச்சல் சமன்பாட்டுடன் தொடங்குவதன் விளைவு
(xT):=N(xT,0,I).
pθ(x0:T ) := p(xT ) YT t=1 pθ(xt−1|xt), pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ( xt, t))
காஸியன் மாற்றங்களின் நேரத்தைச் சார்ந்த அளவுருக்கள் கண்டறியப்படுகின்றன. குறிப்பாக, கொடுக்கப்பட்ட தலைகீழ் பரவல் மாற்றம் விநியோகமானது முந்தைய நேரப்படியை (அல்லது அடுத்த காலகட்டம், நீங்கள் எப்படிப் பார்க்கிறீர்கள் என்பதைப் பொறுத்து) பிரத்தியேகமாக சார்ந்துள்ளது என்பதை மார்கோவ் உருவாக்கம் எவ்வாறு கூறுகிறது என்பதைக் கவனியுங்கள்:
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t))
மாதிரி பயிற்சி
பயிற்சி தரவின் நிகழ்தகவை அதிகப்படுத்தும் தலைகீழ் மார்கோவ் மாதிரியானது பரவல் மாதிரியைப் பயிற்றுவிக்கப் பயன்படுகிறது. நடைமுறையில் பேசினால், எதிர்மறை பதிவு நிகழ்தகவின் மாறுபாட்டின் மேல் வரம்பைக் குறைப்பதைப் போன்றது பயிற்சி.
E [− log pθ(x0)] ≤ Eq - பதிவு pθ(x0:T ) q(x1:T |x0) = Eq - பதிவு p(xT ) - X t≥1 பதிவு pθ(xt−1|xt) q (xt|xt−1) =: எல்
மாதிரிகள்
நமது இலக்கு செயல்பாட்டின் கணித அடிப்படைகளை நிறுவிய பிறகு, நமது பரவல் மாதிரியை எவ்வாறு இயக்குவது என்பதை இப்போது நாம் தீர்மானிக்க வேண்டும். முன்னோக்கிச் செயல்முறைக்குத் தேவையான ஒரே முடிவு மாறுபாடு அட்டவணையைத் தீர்மானிப்பதாகும், அதன் மதிப்புகள் பொதுவாக நடைமுறையின் போது உயரும்.
தலைகீழ் செயல்முறைக்கு காஸியன் விநியோக அளவுரு மற்றும் மாதிரி கட்டமைப்பைப் பயன்படுத்துவதை நாங்கள் கடுமையாகக் கருதுகிறோம்.
உள்ளீடு மற்றும் வெளியீடு இரண்டும் ஒரே பரிமாணங்களைக் கொண்டிருப்பதே எங்கள் வடிவமைப்பின் ஒரே நிபந்தனை. இது பரவல் மாதிரிகள் வழங்கும் அபரிமிதமான சுதந்திரத்தை அடிக்கோடிட்டுக் காட்டுகிறது.
கீழே, இந்த விருப்பங்களைப் பற்றி இன்னும் ஆழமாகப் பார்ப்போம்.
முன்னோக்கி செயல்முறை
முன்னோக்கிச் செயல்முறையுடன் தொடர்புடைய மாறுபாடு அட்டவணையை நாம் வழங்க வேண்டும். நாங்கள் குறிப்பாக அவற்றை நேரத்தைச் சார்ந்த மாறிலிகளாக அமைத்து, அவற்றைக் கற்றுக்கொள்ளக்கூடிய சாத்தியக்கூறுகளைப் புறக்கணித்தோம். ஒரு காலவரிசை அட்டவணை
β1 = 10−4 முதல் βT = 0.02.
Lt நிலையான மாறுபாடு அட்டவணையின் காரணமாக எங்களின் கற்கக்கூடிய அளவுருக்கள் தொடர்பாக மாறி மாறி மாறி, தேர்ந்தெடுக்கப்பட்ட குறிப்பிட்ட மதிப்புகளைப் பொருட்படுத்தாமல் பயிற்சியின் போது அதைப் புறக்கணிக்க அனுமதிக்கிறது.
தலைகீழ் செயல்முறை
தலைகீழ் செயல்முறையை வரையறுக்க தேவையான முடிவுகளை நாங்கள் இப்போது பார்க்கிறோம். தலைகீழ் மார்கோவ் மாற்றங்களை காஸியன் என்று நாங்கள் விவரித்ததை நினைவில் கொள்க:
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t))
இப்போது நாம் செயல்பாட்டு வகைகளை அடையாளம் கண்டுள்ளோம். அளவுருக்களுக்கு மிகவும் சிக்கலான நுட்பங்கள் உள்ளன என்ற போதிலும், நாங்கள் அமைத்துள்ளோம்
Σθ(xt, t) = σ 2 t I
σ 2 t = βt
இதை வேறு விதமாகச் சொல்வதானால், பன்முகத்தன்மை கொண்ட காசியன், அதே மாறுபாட்டுடன், காலப்போக்கில் ஏற்ற இறக்கமான ஒரு மாறுபாடு மதிப்பு கொண்ட தனி காசியன்களின் விளைவாகக் கருதுகிறோம். இந்த விலகல்கள் முன்னனுப்புதல் செயல்முறை விலகல்களின் கால அட்டவணையுடன் பொருந்துமாறு அமைக்கப்பட்டுள்ளன.
இந்த புதிய உருவாக்கத்தின் விளைவாக, எங்களிடம் உள்ளது:
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t)) :=N (xt−1; µθ (xt, t), σ2 t I)
இது கீழே காட்டப்பட்டுள்ள மாற்று இழப்பு செயல்பாட்டில் விளைகிறது, இது மிகவும் நிலையான பயிற்சி மற்றும் சிறந்த விளைவுகளை உருவாக்க ஆசிரியர்கள் கண்டறிந்தனர்:
எளிமையான(θ) := Et,x0, h - θ(√ α¯tx0 + √ 1 - α¯t, t) 2
இந்த விரிவு மாதிரிகள் மற்றும் லாங்கெவின் அடிப்படையிலான மதிப்பெண்-பொருந்தும் ஜெனரேட்டிவ் மாடல்களின் இந்த உருவாக்கம் ஆகியவற்றுக்கு இடையேயான தொடர்புகளையும் ஆசிரியர்கள் வரைந்துள்ளனர். அலை அடிப்படையிலான குவாண்டம் இயற்பியல் மற்றும் மேட்ரிக்ஸ் அடிப்படையிலான குவாண்டம் இயக்கவியல் ஆகியவற்றின் சுயாதீனமான மற்றும் இணையான வளர்ச்சியைப் போலவே, ஒரே நிகழ்வுகளின் இரண்டு ஒப்பிடக்கூடிய சூத்திரங்களை வெளிப்படுத்தியது, பரவல் மாதிரிகள் மற்றும் மதிப்பெண் அடிப்படையிலான மாதிரிகள் ஒரே நாணயத்தின் இரு பக்கங்களாக இருக்கலாம்.
பிணைய கட்டமைப்பு
எங்கள் அமுக்கப்பட்ட இழப்பு செயல்பாடு ஒரு மாதிரியைப் பயிற்றுவிப்பதை நோக்கமாகக் கொண்டிருந்தாலும் Σθ, இந்த மாதிரியின் கட்டமைப்பை நாங்கள் இன்னும் முடிவு செய்யவில்லை. மாதிரியானது ஒரே மாதிரியான உள்ளீடு மற்றும் வெளியீட்டு பரிமாணங்களைக் கொண்டிருக்க வேண்டும் என்பதை நினைவில் கொள்ளுங்கள்.
இந்த தடையின் காரணமாக, U-Net போன்ற கட்டமைப்புகள் படப் பரவல் மாதிரிகளை உருவாக்க அடிக்கடி பயன்படுத்தப்படுவது எதிர்பாராதது அல்ல.
தொடர்ச்சியான நிபந்தனை காஸியன் விநியோகங்களைப் பயன்படுத்தும் போது, தலைகீழ் செயல்முறையின் பாதையில் பல மாற்றங்கள் செய்யப்படுகின்றன. முழு எண் பிக்சல் மதிப்புகள் கொண்ட படத்தை உருவாக்குவதே தலைகீழ் செயல்முறையின் குறிக்கோள் என்பதை நினைவில் கொள்ளுங்கள். எனவே அனைத்து பிக்சல்களிலும் ஒவ்வொரு சாத்தியமான பிக்சல் மதிப்புக்கும் தனித்தனி (பதிவு) சாத்தியக்கூறுகளைத் தீர்மானிப்பது அவசியம்.
தலைகீழ் பரவல் சங்கிலியின் கடைசி மாற்றத்திற்கு தனித்தனியான டிகோடரை ஒதுக்குவதன் மூலம் இது நிறைவேற்றப்படுகிறது. ஒரு குறிப்பிட்ட படத்தின் வாய்ப்பை மதிப்பிடுகிறது x0 கொடுக்கப்பட்ட x1 ஆனது.
pθ(x0|x1) = YD i=1 Z δ+(xi 0) δ−(xi 0) N (x; µ i θ (x1, 1), σ2 1 ) dx
δ+(x) = ∞ என்றால் x = 1 x + 1 255 என்றால் x <1 δ−(x) = -∞ என்றால் x = -1 x - 1 255 என்றால் x > −1
இதில் சூப்பர்ஸ்கிரிப்ட் I என்பது ஒரு ஒருங்கிணைப்பின் பிரித்தெடுத்தலைக் குறிக்கிறது மற்றும் D என்பது தரவில் உள்ள பரிமாணங்களின் எண்ணிக்கையைக் குறிக்கிறது.
ஒரு குறிப்பிட்ட பிக்சலுக்கான ஒவ்வொரு முழு எண் மதிப்பின் சாத்தியக்கூறுகளை அந்த பிக்சலுக்கான சாத்தியமான மதிப்புகளின் விநியோகம் நேரம்-மாறுபடுவதை நிறுவுவதே இந்த கட்டத்தில் நோக்கமாகும். t=1.
இறுதி நோக்கம்
விஞ்ஞானிகளின் கூற்றுப்படி, ஒரு குறிப்பிட்ட கால கட்டத்தில் படத்தின் இரைச்சல் கூறுகளை முன்னறிவிப்பதன் மூலம் மிகப்பெரிய முடிவுகள் வந்தன. இறுதியில், அவர்கள் பின்வரும் இலக்கைப் பயன்படுத்துகிறார்கள்:
எளிமையான(θ) := Et,x0, h - θ(√ α¯tx0 + √ 1 - α¯t, t) 2
பின்வரும் படத்தில், எங்கள் பரவல் மாதிரிக்கான பயிற்சி மற்றும் மாதிரி செயல்முறைகள் சுருக்கமாக சித்தரிக்கப்பட்டுள்ளன:
பரவல் மாதிரியின் நன்மைகள்
ஏற்கனவே குறிப்பிட்டுள்ளபடி, பரவல் மாதிரிகள் பற்றிய ஆராய்ச்சியின் அளவு சமீபத்தில் பல மடங்கு அதிகரித்துள்ளது. டிஃப்யூஷன் மாடல்கள் இப்போது ஸ்டேட்-ஆஃப்-தி-ஆர்ட் படத்தின் தரத்தை வழங்குகின்றன மற்றும் சமநிலையற்ற வெப்ப இயக்கவியலால் ஈர்க்கப்படுகின்றன.
டிஃப்யூஷன் மாடல்கள், எதிர்முனைப் பயிற்சி தேவைப்படாதது போன்ற, அதிநவீன படத் தரத்தைக் கொண்டிருப்பதுடன், பல்வேறு நன்மைகளையும் வழங்குகின்றன.
விரோதப் பயிற்சியின் குறைபாடுகள் பரவலாக அறியப்படுகின்றன, எனவே சமமான செயல்திறன் மற்றும் பயிற்சி செயல்திறன் கொண்ட எதிரி அல்லாத மாற்றுகளைத் தேர்ந்தெடுப்பது பெரும்பாலும் விரும்பத்தக்கது.
டிஃப்யூஷன் மாதிரிகள் பயிற்சியின் செயல்திறனின் அடிப்படையில் அளவிடுதல் மற்றும் இணையானதன்மை ஆகியவற்றின் நன்மைகளையும் வழங்குகின்றன.
பரவலான மாதிரிகள் வெளித்தோற்றத்தில் வெளித்தோற்றத்தில் வெளித்தோற்றத்தில் விளைவுகளை உருவாக்குவதாகத் தோன்றினாலும், இந்த முடிவுகளுக்கான அடிப்படையானது பல சிந்தனைமிக்க மற்றும் சுவாரஸ்யமான கணித முடிவுகள் மற்றும் நுணுக்கங்களால் அமைக்கப்பட்டது, மேலும் தொழில்துறையின் சிறந்த நடைமுறைகள் இன்னும் உருவாக்கப்படுகின்றன.
தீர்மானம்
முடிவில், பரவல் நிகழ்தகவு மாதிரிகளைப் பயன்படுத்தி உயர்தர படத்தொகுப்பு கண்டுபிடிப்புகளை ஆராய்ச்சியாளர்கள் நிரூபித்துள்ளனர், இது சமநிலையற்ற வெப்ப இயக்கவியலின் கருத்துக்களால் தூண்டப்பட்ட மறைந்த மாறி மாதிரிகளின் ஒரு வகை.
அவர்களின் அதிநவீன விளைவுகளாலும், எதிரிகள் அல்லாத பயிற்சியாலும் அவர்கள் மகத்தான விஷயங்களைச் சாதித்துள்ளனர் மற்றும் அவர்களின் குழந்தைப் பருவத்தைக் கொடுத்துள்ளனர், மேலும் பல முன்னேற்றங்கள் வரும் ஆண்டுகளில் எதிர்பார்க்கப்படலாம்.
குறிப்பாக, DALL-E 2 போன்ற மேம்பட்ட மாடல்களின் செயல்பாட்டிற்கு பரவல் மாதிரிகள் முக்கியமானவை என்று கண்டறியப்பட்டுள்ளது.
இங்கே நீங்கள் முழுமையான ஆராய்ச்சியை அணுகலாம்.
ஒரு பதில் விடவும்