පරිගණකයකට පින්තූරයක් විස්තර කළ හැකි බව ඔබ බොහෝ විට දන්නවා ඇති.
නිදසුනක් වශයෙන්, ඔබේ දරුවන් සමඟ සෙල්ලම් කරන බල්ලෙකුගේ පින්තූරයක් 'උයනේ බල්ලා සහ දරුවන්' ලෙස පරිවර්තනය කළ හැකිය. නමුත් දැන් එහි ප්රතිවිරුද්ධ ක්රමයද කළ හැකි බව ඔබ දන්නවාද? ඔබ වචන කිහිපයක් ටයිප් කරන්න, එවිට යන්ත්රය නව පින්තූරයක් ජනනය කරයි.
පවතින ඡායාරූප සොයන ගූගල් සෙවුමක් මෙන් නොව, මේ සියල්ල නැවුම් ය. මෑත වසරවලදී, OpenAI විශ්මය ජනක ප්රතිඵල වාර්තා කරන ප්රමුඛතම සංවිධානයකි.
ඔවුන් දැවැන්ත පෙළ සහ පින්තූර දත්ත සමුදායන් මත ඔවුන්ගේ ඇල්ගොරිතම පුහුණු කරයි. ඔවුන් මිලියන සිය ගණනක් ඡායාරූප මත පුහුණු කරන ලද ඔවුන්ගේ GLIDE රූප ආකෘතිය පිළිබඳ පත්රිකාවක් ප්රකාශයට පත් කළහ. ප්රකාශ යථාර්ථවාදය අනුව, එය ඔවුන්ගේ පෙර 'DALL-E' ආකෘතිය අභිබවා යයි.
මෙම ලිපියෙන්, අපි OpenAI හි GLIDE දෙස බලමු, පෙළ-මාර්ගෝපදේශිත විසරණ මාදිලි සමඟ ඡායාරූප යථාර්ථවාදී පින්තූර නිෂ්පාදනය කිරීම සහ වෙනස් කිරීම අරමුණු කරගත් සිත් ඇදගන්නා සුළු මුලපිරීම් කිහිපයකින් එකක්. අපි පටන් ගනිමු.
මොකක්ද AI Glide විවෘත කරන්න?
බොහෝ පින්තූර වචන වලින් විස්තර කළ හැකි අතර, පෙළ ආදාන වලින් රූප නිර්මාණය කිරීම සඳහා විශේෂිත දැනුමක් සහ සැලකිය යුතු කාලයක් අවශ්ය වේ.
AI නියෝජිතයෙකුට ස්වභාවික භාෂා ප්රේරක වලින් ඡායාරූප යථාර්ථවාදී පින්තූර නිපදවීමට ඉඩ දීමෙන් මිනිසුන්ට පෙර නොවූ විරූ පහසුවකින් පොහොසත් සහ විවිධ දෘශ්ය ද්රව්ය නිර්මාණය කිරීමට පමණක් නොව, සරල පුනරාවර්තන ශෝධනයට සහ නිර්මාණය කරන ලද පින්තූර සියුම් ලෙස පාලනය කිරීමට ඉඩ සලසයි.
නව වස්තු ඇතුළු කිරීමට, සෙවනැලි සහ පරාවර්තන නිර්මාණය කිරීමට, ක්රියා කිරීමට ස්වභාවික භාෂා පෙළ විමසුම් භාවිතා කිරීමෙන් පවතින ඡායාරූප සංස්කරණය කිරීමට GLIDE භාවිතා කළ හැක. රූප පින්තාරු කිරීම, සහ යනාදි.
එය මූලික රේඛා ඇඳීම් ඡායාරූප යථාර්ථවාදී ඡායාරූප බවට පත් කළ හැකි අතර, සංකීර්ණ අවස්ථාවන් සඳහා සුවිශේෂී ශුන්ය නියැදි නිෂ්පාදන සහ අලුත්වැඩියා කිරීමේ හැකියාවන් ඇත.
විශේෂයෙන් විවිධත්වය සහ විශ්වාසවන්තභාවය සමතුලිත කරන මාර්ගෝපදේශක ප්රවේශයක් සමඟ ඒකාබද්ධ වූ විට, සම්භාවිතාව මත පදනම් වූ විසරණ ආකෘති උසස් තත්ත්වයේ කෘතිම පින්තූර ද නිපදවිය හැකි බව මෑත කාලීන පර්යේෂණ මගින් පෙන්නුම් කර ඇත.
OpenAI ප්රකාශයට පත් කර ඇත මඟ පෙන්වන විසරණ ආකෘතිය මැයි මාසයේදී, විසරණ ආකෘති වර්ගීකරණයක ලේබල මත කොන්දේසි සහිත වීමට ඉඩ සලසයි. පෙළ-කොන්දේසි සහිත රූප නිර්මාණය කිරීමේ ගැටලුවට මඟ පෙන්වන විසරණය ගෙන ඒමෙන් GLIDE මෙම සාර්ථකත්වය වැඩි දියුණු කරයි.
ස්වභාවික භාෂා විස්තර මත කොන්දේසිගත කිරීම සඳහා පෙළ කේතකයක් භාවිතයෙන් පරාමිති GLIDE විසරණ ආකෘතියක් බිලියන 3.5ක් පුහුණු කිරීමෙන් පසුව, පර්යේෂකයන් විකල්ප මාර්ගෝපදේශක උපාය මාර්ග දෙකක් පරීක්ෂා කළහ: CLIP මාර්ගෝපදේශය සහ වර්ගීකාරක-නිදහස් මග පෙන්වීම.
CLIP යනු ශීර්ෂ පාඨයකට රූපයක් කෙතරම් ආසන්නද යන්න මත පදනම්ව ලකුණු ලබා දෙන පෙළ සහ පින්තූරවල ඒකාබද්ධ නිරූපණයන් ඉගෙනීම සඳහා පරිමාණය කළ හැකි තාක්ෂණයකි.
කන්ඩායම මෙම උපාය මාර්ගය ඔවුන්ගේ විසරණ මාදිලිවල භාවිතා කළේ වර්ගීකාරකය ආදේශ කිරීම මගින් ආකෘති "මාර්ගෝපදේශ" කරන CLIP ආකෘතියක් සමඟිනි. මේ අතර, වර්ගීකාරක-නිදහස් මාර්ගෝපදේශය යනු වෙනම වර්ගීකරණයක පුහුණුවට සම්බන්ධ නොවන විසරණ ආකෘති මෙහෙයවීමේ උපාය මාර්ගයකි.
GLIDE ගෘහ නිර්මාණ ශිල්පය
GLIDE ගෘහ නිර්මාණ ශිල්පය සංරචක තුනකින් සමන්විත වේ: 64 × 64 රූපයක් ජනනය කිරීමට පුහුණු කරන ලද Ablated Diffusion Model (ADM), පෙළ ප්රේරකයක් හරහා රූප උත්පාදනයට බලපෑම් කරන පෙළ ආකෘතිය (ට්රාන්ස්ෆෝමරය), සහ අපගේ කුඩා 64 × 64 බවට පරිවර්තනය කරන ඉහළ නියැදීමේ ආකෘතියකි. පික්සල 256 x 256 පික්සල වඩාත් අර්ථකථනය කළ හැකි රූප.
පින්තූර උත්පාදන ක්රියාවලිය පාලනය කිරීම සඳහා පළමු සංරචක දෙක එකට ක්රියා කරන අතර එමඟින් එය පෙළ ප්රේරකය යෝග්ය ලෙස පිළිබිඹු වන අතර දෙවැන්න අවශ්ය වන්නේ අප විසින් සාදන ලද පින්තූර පහසුවෙන් අවබෝධ කර ගැනීමටය. GLIDE ව්යාපෘතිය ආභාසය ලැබුවේ a 2021 දී ප්රකාශයට පත් කරන ලද වාර්තාව පින්තූර නියැදි ගුණාත්මක භාවය අනුව ADM ශිල්පීය ක්රම දැනට ජනප්රිය, අති නවීන උත්පාදන මාදිලි අභිබවා ගොස් ඇති බව පෙන්නුම් කළේය.
ADM සඳහා, GLIDE කතුවරුන් Dhariwal සහ Nichol ලෙස එකම ImageNet 64 x 64 මාදිලිය භාවිතා කර ඇත, නමුත් 512 වෙනුවට නාලිකා 64 ක් ඇත.
GLIDE කණ්ඩායමට, Dhariwal සහ Nichol මෙන් නොව, පින්තූර උත්පාදන ක්රියාවලිය කෙරෙහි වැඩි සෘජු පාලනයක් ඇති කර ගැනීමට අවශ්ය විය, එබැවින් ඔවුන් දෘශ්ය ආකෘතිය අවධානය යොමු කළ හැකි ට්රාන්ස්ෆෝමරයක් සමඟ ඒකාබද්ධ කළහ. GLIDE ඔබට පෙළ ආදාන විමසුම් සැකසීමෙන් පින්තූර උත්පාදන ක්රියාවලි ප්රතිදානය මත යම් පාලනයක් ලබා දෙයි.
මෙය සිදු කරනු ලබන්නේ ට්රාන්ස්ෆෝමර් ආකෘතිය සුදුසු පරිදි විශාල ඡායාරූප සහ සිරස්තල (DALL-E ව්යාපෘතියේ භාවිතා කර ඇති ආකාරයට) විශාල දත්ත කට්ටලයක් මත පුහුණු කිරීමෙනි.
පෙළ මුලින් කේ ටෝකන මාලාවකට කේතනය කර ඇත. ඊට පසු, ටෝකන ට්රාන්ස්ෆෝමර් ආකෘතියකට පටවනු ලැබේ. එවිට ට්රාන්ස්ෆෝමරයේ ප්රතිදානය ක්රම දෙකකින් භාවිතා කළ හැක. ADM ආකෘතිය සඳහා, පන්ති කාවැද්දීම වෙනුවට අවසාන ටෝකන් කාවැද්දීම භාවිතා වේ.
දෙවනුව, ටෝකන් කාවැද්දීමේ අවසාන ස්තරය - විශේෂාංග දෛශික මාලාවක් - ADM ආකෘතියේ එක් එක් අවධානයට ලක්වන ස්ථරය සඳහා මානයන් වෙත ස්වාධීනව ප්රක්ෂේපණය කර එක් එක් අවධානය සන්දර්භය වෙත සංකලනය වේ.
යථාර්ථයේ දී, ආදාන වචන සහ ඒවාට අදාළ රූප පිළිබඳ උගත් අවබෝධය මත පදනම්ව, අද්විතීය සහ ප්රභා යථාර්ථවාදී ආකාරයකින් සමාන පෙළ ටෝකනවල නව සංයෝජනවලින් පින්තූරයක් නිෂ්පාදනය කිරීමට මෙය ADM ආකෘතියට හැකියාව ලබා දෙයි. මෙම පෙළ-කේතීකරණ ට්රාන්ස්ෆෝමරයේ පරාමිති බිලියන 1.2ක් අඩංගු වන අතර 24 පළල සහිත ඉතිරි කුට්ටි 2048ක් භාවිතා කරයි.
අවසාන වශයෙන්, upsampler diffusion ආකෘතියේ පරාමිති බිලියන 1.5 ක් පමණ ඇතුළත් වන අතර මූලික ආකෘතියට සාපේක්ෂව එහි පෙළ කේතකය කුඩා වන අතර පාදක නාලිකා 1024 සහ 384 ක පළලකින් යුක්ත වේ. මෙම ආකෘතිය, නමින් පෙන්නුම් කරන පරිදි, යන්ත්ර සහ මිනිසුන් යන දෙඅංශයේම අර්ථ නිරූපණය වැඩිදියුණු කිරීම සඳහා නියැදිය වැඩිදියුණු කිරීමට උපකාරී වේ.
විසරණ ආකෘතිය
GLIDE විසින් ADM ("මාර්ගෝපදේශ" සඳහා ADM-G) හි ස්වකීය අනුවාදය භාවිතයෙන් රූප ජනනය කරයි. ADM-G ආකෘතිය යනු විසරණ U-net ආකෘතියේ වෙනස් කිරීමකි. විසරණ U-net ආකෘතියක් VAE, GAN, සහ ට්රාන්ස්ෆෝමර් වැනි වඩාත් පොදු රූප සංස්ලේෂණ ශිල්පීය ක්රමවලින් නාටකාකාර ලෙස වෙනස් වේ.
ඔවුන් දත්ත වලට අහඹු ශබ්දය ක්රමයෙන් එන්නත් කිරීම සඳහා මාර්කොව් විසරණ පියවර දාමයක් ගොඩනඟා, පසුව විසරණ ක්රියාවලිය ආපසු හැරවීමට සහ ශබ්දයෙන් පමණක් අවශ්ය දත්ත සාම්පල නැවත ගොඩනැගීමට ඉගෙන ගනී. එය අදියර දෙකකින් ක්රියාත්මක වේ: ඉදිරි සහ ආපසු විසරණය.
නියැදියේ සත්ය ව්යාප්තියෙන් දත්ත ලක්ෂ්යයක් ලබා දී ඇති ඉදිරි විසරණ ක්රමය, පෙර සැකසූ පියවර මාලාවක් හරහා නියැදියට කුඩා ශබ්ද ප්රමාණයක් එක් කරයි. පියවර ප්රමාණයෙන් වැඩි වී අනන්තයට ළඟා වන විට, නියැදිය හඳුනාගත හැකි සියලුම ලක්ෂණ නැති වී යන අතර අනුපිළිවෙල සමස්ථානික ගවුසියන් වක්රයක් සමාන වීමට පටන් ගනී.
පසුගාමී විසරණය අතරතුර අදියර, විසරණ ආකෘතිය මුල් ආදාන නියැදි ව්යාප්තියට සමාන කිරීමට උත්සාහ කිරීමෙන් පින්තූර මත එකතු කරන ලද ශබ්දයේ බලපෑම ආපසු හරවා නිෂ්පාදනය කරන ලද රූපය එහි මුල් හැඩයට ගෙන යාමට ඉගෙන ගනී.
සම්පුර්ණ කරන ලද ආකෘතියකට සැබෑ Gaussian ශබ්ද ආදානයක් සහ ප්රේරකයක් සමඟ එය කළ හැකිය. ADM-G ක්රමය, CLIP හෝ අභිරුචිකරණය කරන ලද ට්රාන්ස්ෆෝමරයක්, ආදානය කරන ලද පෙළ විමසුම් ටෝකන භාවිතා කිරීමෙන් පසුගාමී විසරණ අවධියට බලපාන පරිදි පෙර ක්රමයට වඩා වෙනස් වේ.
ලිස්සා යාමේ හැකියාව
1. රූප උත්පාදනය
GLIDE හි වඩාත් ජනප්රිය සහ බහුලව භාවිතා වන භාවිතය රූප සංස්ලේෂණය විය හැකිය. පින්තූර නිහතමානී වන අතර GLIDE සත්ව/මිනිස් ආකාර සමඟ දුෂ්කරතා ඇති වුවද, එක්-ෂොට් රූපයක් නිෂ්පාදනය කිරීමේ විභවය නිමක් නැති තරම්ය.
එයට සතුන්, ප්රසිද්ධ පුද්ගලයින්, භූ දර්ශන, ගොඩනැගිලි සහ තවත් බොහෝ දේවල ඡායාරූප නිර්මාණය කළ හැකි අතර, එය විවිධ කලා මෝස්තරවලින් මෙන්ම ඡායාරූප-යථාර්ථවාදී ලෙසද කළ හැකිය. පර්යේෂකයන්ගේ කතුවරුන් ප්රකාශ කරන්නේ පහත නියැදිවල පෙනෙන පරිදි, GLIDE හට පුළුල් පරාසයක පෙළ යෙදවුම් දෘශ්ය ආකෘතියකට පරිවර්ථනය කිරීමට සහ අනුවර්තනය කිරීමට හැකියාව ඇති බවයි.
2. Glide inpainting
GLIDE හි ස්වයංක්රීය ඡායාරූප පින්තාරු කිරීම වඩාත්ම සිත් ඇදගන්නාසුළු භාවිතය ලෙස සැලකිය හැකිය. GLIDE හට දැනට පවතින පින්තූරයක් ආදානය ලෙස ගෙන, වෙනස් කළ යුතු ස්ථාන සඳහා පෙළ විමසුම මනසේ තබාගෙන එය ක්රියාවට නංවා, එම කොටස් වලට පහසුවෙන් සක්රිය වෙනස් කිරීම් සිදු කළ හැක.
එය ඊටත් වඩා හොඳ ප්රතිඵල ලබා ගැනීමට SDEdit වැනි සංස්කරණ ආකෘතියක් සමඟ ඒකාබද්ධව භාවිතා කළ යුතුය. අනාගතයේදී, කේත-රහිත පින්තූර-වෙනස් කිරීමේ ප්රවේශයන් සංවර්ධනය කිරීමේදී මෙවැනි හැකියාවන්ගෙන් ප්රයෝජන ගන්නා යෙදුම් තීරණාත්මක විය හැකිය.
නිගමනය
දැන් අපි ක්රියාවලිය හරහා ගොස් ඇති බැවින්, GLIDE ක්රියා කරන ආකාරය පිළිබඳ මූලික කරුණු මෙන්ම පින්තූර සෑදීමේ සහ රූපය තුළ වෙනස් කිරීමේ හැකියාවේ පළල ඔබ ග්රහණය කර ගත යුතුය.
ඔබමයි