සාමාන්යයෙන්, GANs, VAEs, සහ autoregressive models වැනි ගැඹුරු ජනක මාදිලි රූප සංශ්ලේෂණ ගැටළු හසුරුවයි.
ඔවුන් විසින් නිර්මාණය කරන ලද දත්තවල ඉහළ ගුණාත්මක භාවය සැලකිල්ලට ගෙන, generative adversarial networks (GANs) මෑත වසරවලදී වැඩි අවධානයක් යොමු කර ඇත.
විසරණ ආකෘති යනු තමන් විසින්ම ස්ථාපිත කර ඇති තවත් ආකර්ෂණීය අධ්යයන ක්ෂේත්රයකි. රූප, වීඩියෝ සහ හඬ උත්පාදනය යන ක්ෂේත්ර දෙකම ඒ දෙක සඳහාම පුළුල් භාවිතයක් සොයාගෙන ඇත.
විසරණ ආකෘති එදිරිව GANs: වඩා හොඳ ප්රතිඵල ලබා දෙන්නේ කුමක්ද? ස්වාභාවිකවම, මෙය අඛණ්ඩ සංවාදයකට තුඩු දී ඇත.
GAN ලෙස හඳුන්වන පරිගණක ගෘහ නිර්මාණ ශිල්පය තුළ, දෙකක් ස්නායු ජාල සත්ය දත්ත සඳහා ලබා දිය හැකි දත්ත අලුතින් සංස්ලේෂණය කරන ලද අවස්ථා නිපදවීමට එකිනෙකාට එරෙහිව සටන් කරනු ලැබේ.
සංගීතය සහ ග්රැෆික්ස් නිෂ්පාදනය සඳහා පුහුණු ස්ථාවරත්වය සහ ඉහළ ප්රතිඵල ලබා දෙන බැවින් විසරණ ආකෘති වඩ වඩාත් ජනප්රිය වෙමින් පවතී.
මෙම ලිපිය විසරණ ආකෘතිය සහ GAN විස්තරාත්මකව, ඒවා එකිනෙකට වෙනස් වන ආකාරය සහ තවත් කරුණු කිහිපයක් හරහා ගමන් කරනු ඇත.
ඉතින්, උත්පාදක විරුද්ධවාදී ජාල යනු කුමක්ද?
අව්යාජ දත්ත ලෙස වරදවා වටහා ගත හැකි නව, කෘතිම දත්ත නිර්මාණය කිරීම සඳහා, උත්පාදක එදිරිවාදි ජාල (GANs) ස්නායු ජාල දෙකක් යොදවා ඒවා එකිනෙක ගැටේ (එමගින් නමේ "විරුද්ධ").
ඒවා කථනය, වීඩියෝ සහ පින්තූර නිර්මාණය සඳහා බහුලව භාවිතා වේ.
GAN හි පරමාර්ථය වන්නේ නිශ්චිත දත්ත කට්ටලයකින් කලින් සොයා නොගත් දත්ත නිර්මාණය කිරීමයි. නියැදි වලින් සත්ය, හඳුනා නොගත් යටින් පවතින දත්ත බෙදා හැරීමේ ආකෘතියක් අනුමාන කිරීමට උත්සාහ කිරීම, මෙය සිදු කරයි.
විකල්පයක් ලෙස, මෙම ජාල නිශ්චිත සංඛ්යානමය ව්යාප්තියක් ඉගෙන ගැනීමට උත්සාහ කරන ව්යංග ආකෘති වේ.
මෙම අරමුණ ඉටු කර ගන්නේ කෙසේදැයි සොයා ගැනීමට GAN භාවිතා කළ ක්රමය නව්යතාවයකි. ඇත්ත වශයෙන්ම, ඔවුන් ව්යංග ආකෘතියක් සංවර්ධනය කිරීම සඳහා ක්රීඩකයන් දෙදෙනෙකුගේ ක්රීඩාවක් ක්රීඩා කිරීමෙන් දත්ත නිෂ්පාදනය කරයි.
පහත දැක්වෙන ව්යුහය විස්තර කරයි:
- සත්ය සහ ව්යාජ දත්ත අතර වෙනස හඳුනා ගැනීමේ හැකියාව ලබා ගන්නා වෙනස්කම් කරන්නා
- දත්ත සෑදීමට නව ක්රම තෝරා ගන්නා උත්පාදක යන්ත්රයකට වෙනස්කම් කරන්නා රැවටිය හැක.
වෙනස්කම් කරන්නා ස්නායු ජාලයක් ලෙස පෙනී සිටියි. එමනිසා, උත්පාදක යන්ත්රය එය රැවටීමට උසස් තත්ත්වයේ පින්තූරයක් නිර්මාණය කළ යුතුය.
මෙම උත්පාදක යන්ත්ර කිසිඳු ප්රතිදාන ව්යාප්තියක් භාවිතයෙන් පුහුණු කර නොමැති වීම ස්වයංක්රීය කේතක ආකෘති සහ අනෙකුත් මාදිලි අතර සැලකිය යුතු වෙනසක් වේ.
ආකෘතියේ පාඩු ශ්රිතය දිරාපත් කිරීමට ක්රම දෙකක් තිබේ:
- වෙනස්කම් කරන්නා සැබෑ දත්ත නිවැරදිව පුරෝකථනය කරන්නේ නම් ප්රමාණ කිරීමට ඇති හැකියාව
- ජනනය කරන ලද දත්ත කොටසකින් නිවැරදිව පුරෝකථනය කර ඇත.
හොඳම ශක්ය වෙනස්කම් කරන්නා මත, මෙම අලාභ ශ්රිතය පසුව අවම කරනු ලැබේ:
එබැවින් සාමාන්ය ආකෘති දුර අවම කිරීමේ ආකෘති ලෙසත්, වෙනස් කොට සැලකීම පරමාදර්ශී නම්, සත්ය සහ නිෂ්පාදිත ව්යාප්තිය අතර අපසරනය අවම කිරීම ලෙසත් සැලකිය හැකිය.
යථාර්ථයේ දී, විවිධ අපසරනයන් භාවිතා කළ හැකි අතර විවිධ GAN පුහුණු ක්රම ඇති විය හැක.
Generator සහ discriminator අතර වෙළඳාමක් ඇතුළත් ඉගෙනුම් ගතිකත්වය, GAN වල අලාභ ක්රියාකාරිත්වය සකස් කිරීම සරල වුවද, අනුගමනය කිරීම අභියෝගාත්මක ය.
ඉගෙනීම අභිසාරී වන බවට සහතිකයක් ද නැත. ප්රතිඵලයක් වශයෙන්, GAN ආකෘතියක් පුහුණු කිරීම අපහසු වේ, මන්දයත් ප්රපාතය අතුරුදහන් වීම සහ මාදිලිය කඩා වැටීම වැනි ගැටළු හරහා ධාවනය වීම සාමාන්ය දෙයක් වන බැවින් (උත්පාදනය කරන ලද සාම්පලවල විවිධත්වයක් නොමැති විට).
දැන්, විසරණ ආකෘති සඳහා කාලයයි
GANs පුහුණු අභිසාරීතාවයේ ගැටලුව විසරණ ආකෘති සංවර්ධනය හරහා විසඳා ඇත.
මෙම ආකෘති උපකල්පනය කරන්නේ විසරණ ක්රියාවලියක් ඝෝෂාවේ ප්රගතිශීලී මැදිහත්වීම් මගින් ඇති වන තොරතුරු අලාභයට සමාන වන බවයි (විසරණ ක්රියාවලියේ සෑම පියවරකදීම ගවුසියානු ශබ්දයක් එකතු වේ).
එවැනි ආකෘතියක පරමාර්ථය වන්නේ නියැදියේ පවතින තොරතුරුවලට ශබ්දය බලපාන්නේ කෙසේද යන්න තීරණය කිරීම හෝ එය වෙනත් ආකාරයකින් කිවහොත්, විසරණය හේතුවෙන් කොපමණ තොරතුරු නැති වී ඇත්ද යන්න තීරණය කිරීමයි.
ආකෘතියකට මෙය හඳුනාගත හැකි නම්, එය මුල් නියැදිය ලබා ගැනීමට සහ සිදු වූ තොරතුරු අලාභය ඉවත් කිරීමට හැකි විය යුතුය.
මෙය සිදු කරනු ලබන්නේ denoising diffusion ආකෘතියක් මගිනි. ඉදිරි විසරණ ක්රියාවලියක් සහ ප්රතිලෝම විසරණ ක්රියාවලියක් පියවර දෙකකින් සමන්විත වේ.
ඉදිරි විසරණ ක්රියාවලියට ක්රමයෙන් ගවුසියානු ශබ්දය (එනම්, විසරණ ක්රියාවලිය) එකතු කිරීම ඇතුළත් වේ, දත්ත සම්පූර්ණයෙන්ම ශබ්දයෙන් දූෂිත වේ.
ඝෝෂාව ආපසු හැරවීම සඳහා කොන්දේසි සහිත බෙදා හැරීමේ සම්භාවිතාවන් ඉගෙන ගැනීම සඳහා ස්නායුක ජාලය පසුව ප්රතිලෝම විසරණ ක්රමය භාවිතයෙන් පුහුණු කරනු ලැබේ.
මෙහිදී ඔබට වඩාත් විස්තරාත්මකව තේරුම් ගත හැකිය විසරණ ආකෘතිය.
විසරණ ආකෘතිය Vs GANs
විසරණ ආකෘතියක් මෙන්, GANs ශබ්දයෙන් පින්තූර නිපදවයි.
මාදිලිය සෑදී ඇත්තේ උත්පාදක ස්නායු ජාලයකින් වන අතර, එය පන්ති ලේබලයක් හෝ පෙළ කේතනයක් වැනි තොරතුරු සහිත සමීකරණ විචල්යයක ශබ්දයෙන් ආරම්භ වේ.
එවිට ප්රතිඵලය යථාර්ථවාදී රූපයකට සමාන දෙයක් විය යුතුය.
ඡායාරූප යථාර්ථවාදී සහ ඉහළ විශ්වාසනීය පින්තූර පරම්පරාවන් නිර්මාණය කිරීම සඳහා, අපි GAN භාවිතා කරමු. GAN වලට වඩා යථාර්ථවාදී දෘෂ්ය නිපදවනු ලබන්නේ විසරණ ආකෘති භාවිතා කරමිනි.
යම් ආකාරයකින්, කරුණු විස්තර කිරීමේදී විසරණ ආකෘති වඩාත් නිවැරදි වේ.
GAN එකක් ආදාන අහඹු ශබ්දයක් හෝ පන්ති සමීකරණ විචල්යයක් ලෙස ගෙන යථාර්ථවාදී නියැදියක් ප්රතිදානය කරන අතර, විසරණ ආකෘති බොහෝ විට මන්දගාමී, පුනරාවර්තන වන අතර තවත් බොහෝ මාර්ගෝපදේශ අවශ්ය වේ.
ඝෝෂාවෙන් මුල් රූපය වෙත ආපසු යාමේ අරමුණ ඇතිව denoising නැවත නැවත යෙදෙන විට දෝෂයක් ඇති වීමට වැඩි ඉඩක් නැත.
සෑම මුරපොලක්ම නිර්මාණය කිරීමේ අදියර පුරාවට ගමන් කරන අතර, සෑම පියවරක් සමඟම, පින්තූරයට වැඩි වැඩියෙන් තොරතුරු ලබා ගත හැකිය.
නිගමනය
අවසාන වශයෙන්, 2020 සහ 2021 දී පමණක් ප්රකාශයට පත් කරන ලද සැලකිය යුතු පර්යේෂණ කිහිපයක් හේතුවෙන්, විසරණ ආකෘති දැන් පින්තූර සංස්ලේෂණය අනුව GAN අභිබවා යා හැකිය.
මෙම වසරේ OpenAI දියත් කරන ලදී DALL-E2, ප්රවීනයින්ට විසරණ ආකෘති භාවිතා කිරීමට ඉඩ සලසන රූප නිෂ්පාදන ආකෘතියකි.
GANs අති නවීන වුවද, ඒවායේ සීමාවන් පරිමාණය කිරීම සහ ඒවා නව සන්දර්භයන් තුළ භාවිතා කිරීම අභියෝග කරයි.
සම්භාවිතාව මත පදනම් වූ ආකෘති භාවිතයෙන් GAN වැනි නියැදි ගුණාත්මක භාවය ලබා ගැනීම සඳහා, බොහෝ වැඩකටයුතු කර ඇත.
ඔබමයි