නව සහ වැඩිදියුණු කරන ලද AI මගින් හැකියාවන්, අවබෝධය සහ ඉහළ විභේදන රූප නිපදවීමේ හැකියාව වැඩිදියුණු කර ඇත. අන්තර්ජාලය පුරා සැරිසරන අමුතුම හාස්යජනක පින්තූර ඔබට මෑතක සිට දැක ගන්නට ඇත.
ෂිබා ඉනු බල්ලෙක් බෙරෙට් එකකින් සහ කළු කැස්බෑවකින් සැරසී සිටී. ලන්දේසි චිත්ර ශිල්පී වර්මීර්ගේ "මුතු කරාබු සහිත ගැහැණු ළමයා" ආකාරයෙන් මුහුදු ඔටර් කෙනෙක්. ඒ වගේම ලොම් සහිත රකුසෙක් වගේ සුප් කෝප්පයක් තියෙනවා.
මෙම රූප මානව කලාකරුවෙකු විසින් නිර්මාණය කරන ලද ඒවා නොවේ.
ඒ වෙනුවට, පාඨමය විස්තර රූප බවට පරිවර්තනය කළ හැකි නව AI පද්ධතියක් වන DALL-E 2 ඒවා නිර්මාණය කළේය.
ඔබට දැකීමට අවශ්ය දේ සරලව ලියා තබන්න, එවිට AI එය ඔබ වෙනුවෙන් නිර්මාණය කරනු ඇත - විචිත්රවත් විස්තරාත්මකව, විශිෂ්ට තත්ත්වයෙන්, සහ, සමහර අවස්ථාවලදී, අව්යාජ නව නිපැයුම්. මෙම සටහනේදී, අපි OpenAI හි නවතම අධ්යයනය, DALL.E 2, මෙන්ම එය ක්රියා කරන ආකාරය සහ තවත් බොහෝ දේ ගැඹුරින් බලන්නෙමු. අපි පටන් ගනිමු.
ඉතින්, හරියටම කුමක්ද DALL.E 2?
DALL-E 2 යනු "උත්පාදක ආකෘතියක්", ආදාන දත්ත මත අනාවැකි හෝ වර්ගීකරණ කාර්යයන් ඉටු කිරීමට වඩා සංකීර්ණ ප්රතිදානය උත්පාදනය කරන යන්ත්ර ඉගෙනුම් ඇල්ගොරිතම වර්ගයකි.
ඔබ DALL-E 2 ලිඛිත විස්තරයක් සමඟ සපයන අතර, එය එයට අනුරූප වන පින්තූරයක් නිර්මාණය කරයි. සංකල්ප, ගුණාංග සහ මෝස්තර ඒකාබද්ධ කිරීමෙන්, OpenAI හි DALLE 2 මූලික භාෂාමය විස්තරයකින් නව්ය, යථාර්ථවාදී ග්රැෆික්ස් සහ චිත්ර නිෂ්පාදනය කළ හැකිය.
නවතම අනුවාදය, DALLE 2, වඩාත් බහුකාර්ය බව කියනු ලැබේ, ඉහළ විභේදනයකින් සහ පුළුල් නිර්මාණාත්මක ශෛලීන්හි සිරස්තලවලින් පින්තූර සෑදීමේ හැකියාව ඇත. උදාහරණයක් ලෙස, පහත පින්තූර (DALL-E 2 බ්ලොග් සටහනෙන්) නිර්මාණය කර ඇත්තේ "අශ්වයෙකු පිට නැගී යන ගගනගාමියෙක්" යන විස්තරය මගිනි.
එක් විස්තරයක් "පැන්සල් කටු සටහනක් මෙන්" අවසන් වන අතර අනෙක් විස්තරය "ඡායාරූප යථාර්ථවාදී ආකාරයකින්" අවසන් කරයි.
එය විශ්මය ජනක නිරවද්යතාවයකින් පවතින ඡායාරූප වෙනස් කළ හැකිය. එබැවින්, ඔබට මුල් රූපයේ පෙනුම පවත්වා ගනිමින් වර්ණ, පරාවර්තන සහ සෙවනැලි තබා ගනිමින් මූලද්රව්ය එක් කිරීමට හෝ මැකීමට හැකිය.
එය ක්රියාත්මක වන්නේ කෙසේද?
DALL-E 2 නවීන CLIP සහ විසරණ ආකෘති භාවිතා කරයි ගැඹුරු ඉගෙනුම ප්රවේශයන් මෑත වසරවල වර්ධනය විය. කෙසේ වෙතත්, එය අනෙකුත් සියලුම ගැඹුරු ලෙස එකම සංකල්පය මත පදනම් වේ ස්නායු ජාල: නිරූපණය ඉගෙනීම. CLIP එකවර දෙදෙනෙකු පුහුණු කරයි ස්නායු ජාල පින්තූර සහ සිරස්තල මත.
එක් ජාලයක් පින්තූරයේ දෘශ්ය නිරූපණයන් ඉගෙන ගන්නා අතර අනෙක් ජාලය පෙළ නිරූපණයන් ඉගෙන ගනී. පුහුණුව අතරතුර, ජාල දෙක ඔවුන්ගේ පරාමිතීන් වෙනස් කිරීමට උත්සාහ කරයි, එවිට සංසන්දනාත්මක පින්තූර සහ විස්තර සමාන කාවැද්දීම ඇති කරයි.
DALL-E 2 හි භාවිතා වන අනෙකුත් යන්ත්ර ඉගෙනුම් ප්රවේශය වන්නේ ක්රමයෙන් ශබ්ද නඟා සහ එහි පුහුණු සාම්පල ප්රතික්ෂේප කිරීමෙන් පින්තූර සෑදීමට ඉගෙන ගන්නා උත්පාදක ආකෘතියක් වන "විසරණය" වේ. විසරණ ආකෘති ස්වයංක්රීය කේතක වලට සමාන වන අතර ඒවා ආදාන දත්ත බවට පරිවර්තනය කරයි. නිරූපණය කාවැද්දීම සහ මුල් දත්ත ප්රතිනිර්මාණය කිරීම සඳහා කාවැද්දීමේ තොරතුරු භාවිතා කරන්න.
OpenAI භාවිතා කිරීම භාෂා ආකෘතිය පාඨමය විස්තර ඡායාරූප සමඟ සම්බන්ධ කළ හැකි CLIP, එය මුලින්ම ලිඛිත විමසුම අතරමැදි ආකෘතියකට පරිවර්තනය කරයි, එය පින්තූරයකට එම විමසුමට ගැළපිය යුතු තීරණාත්මක ගුණාංග ඇතුළත් කරයි (CLIP අනුව).
දෙවනුව, DALL-E 2 CLIP-අනුකූලත්වයක් නිර්මාණය කරයි විසරණ ආකෘතියක් භාවිතා කරන රූපය, ස්නායුක ජාලයක් වන.
අහඹු පික්සල සහිත විකෘති ඡායාරූප මත, විසරණ ආකෘති ඉගෙන ගනු ලැබේ. ඔවුන් ඡායාරූපවල මුල් ස්වරූපය ප්රතිෂ්ඨාපනය කරන්නේ කෙසේදැයි ඉගෙන ගනී. විසරණ ආකෘතිවලට උසස් තත්ත්වයේ කෘතිම රූප නිපදවිය හැක, විශේෂයෙන්ම විවිධත්වයට වඩා නිරවද්යතාවයට ප්රමුඛත්වය දෙන මාර්ගෝපදේශක ප්රවේශයක් සමඟ භාවිතා කරන විට.
එහි ප්රතිඵලයක් ලෙස, ද විසරණ ආකෘතිය සසම්භාවී පික්සල ලබාගෙන CLIP භාවිතා කර ඒවා වචන ප්රේරකයට ගැලපෙන නව රූපයක් බවට පරිවර්තනය කරයි. විසරණ සංකල්පය නිසා, DALL-E 2 හට DALL-E ට වඩා වේගයෙන් ඉහළ විභේදන රූප නිපදවිය හැක.
DALL.E 2 භාවිත නඩුව
පසුගිය වසර විස්සක කාලය තුළ, පරිගණක දැක්ම තාක්ෂණය සරල සංකල්පයක සිට විශාල දියුණුවක් දක්වා දියුණු වී ඇත. මෙම දියුණුව තිබියදීත්, පින්තූර සහ වස්තු හඳුනාගැනීමේ ආකෘති තවමත් එදිනෙදා ජීවිතයේදී සැලකිය යුතු බාධාවලට මුහුණ දෙයි. දත්ත කට්ටල නොමැති වීම රූප හඳුනාගැනීමේ සහ පරිගණක දර්ශනයේ ඇති වැදගත්ම අඩුපාඩුවකි. දෙපැත්තේම දත්ත හිඟයක් පවතින නිසා සියයට සියයක්ම නිවැරදි ප්රතිඵල ලබා දීම සඳහා රූප හඳුනාගැනීමේ ආකෘති පුහුණු කිරීම අපහසුය.
වාසනාවකට මෙන්, OpenAI හි නව යන්ත්ර ඉගෙනුම් ආකෘතියට තාක්ෂණයේ පරතරය පියවා ගත හැකිය. DALLE 2 පෙළ විස්තර මත පදනම්ව විශ්මයජනක පින්තූර ජනනය කිරීමේ හැකියාව ඇත. මෙම ව්යාජ පින්තූර නිෂ්පාදනය ඔවුන්ගේ අවශ්යතා මත රූප හඳුනාගැනීමේ ආකෘතිවලට දත්ත සැපයිය හැක. දත්ත නොමැතිකම වස්තුව සහ පින්තූර හඳුනාගැනීම සඳහා සැලකිය යුතු බාධාවකි.
ඩිජිටල් යුගයේ, දත්ත කට්ටල සෑම තැනකම පවතී, නමුත් අපි තවමත් AI ආකෘතිය පෝෂණය කිරීම සඳහා කෙටිමං සොයමින් සිටිමු, එබැවින් එය හොඳ ප්රතිඵල ලබා දිය හැකිය. කෙසේ වෙතත්, රූප හඳුනාගැනීමේ ආකෘතියක් පුහුණු කිරීම සරල නොවේ. එයට කුඩා වෙනස්කම් සහිත දත්ත කට්ටල විශාල සංඛ්යාවක් අවශ්ය වේ, එය අපට සරලව ලබා ගැනීමට නොහැකි වන්නට ඇත.
ඉතින්, පිළිතුර කුමක්ද: පිළිතුර DALLE 2 වේ. OpenAI පින්තූර උත්පාදක යන්ත්රය, පාඨ වලින් රූප නිපදවීමට සහ පවතින ඒවා වෙනස් කිරීමට ඇති හැකියාව, පරතරය පියවීමට උපකාරී වේ. මෙය අතිරේක පුහුණු දත්ත උත්පාදනය කිරීමට උපකාරී වන අතරම අවශ්ය මානව ලේබල් කිරීමේ ප්රමාණයද අඩු කරයි. සැලකිය යුතු ප්රතිලාභයක් තිබියදීත්, ඇතුළත් කිරීම බැහැර කරන වංචනික රූප නිෂ්පාදන සහ රූප පිළිබඳව ඔබ දැනුවත් විය යුතුය. මෙය පක්ෂග්රාහී ප්රතිඵල නිපදවන රූප හඳුනාගැනීමේ ක්රමවලට හේතු විය හැක.
සීමාවන්
OpenAI ට අනුව, DALL.E 2 වැරදි අතට පත් වුවහොත් එය හානිකර බලපෑමක් ඇති කළ හැකිය. අද ගැඹුරු ව්යාජ ලෝකයේ, සාවද්ය තොරතුරු හෝ ජාතිවාදී නිරූපණ පතුරුවා හැරීමට ආකෘතිය පහසුවෙන් භාවිතා කළ හැකිය, එබැවින් OpenAI සංවර්ධකයින්ට ආරාධනාවකින් පමණක් DALL.2 භාවිතා කිරීමට ඉඩ දෙයි. නිරූපිකාව ඇයට ලැබෙන සියලුම යෝජනා සඳහා දැඩි අන්තර්ගත සීමාවකට අනුකූල විය යුතුය.
DALL.E 2 හි ඕනෑම සතුරු හෝ ප්රචණ්ඩ පින්තූර නිර්මාණය කිරීමේ විභවය බැහැර කිරීම සඳහා, දත්ත කට්ටලය කිසිදු මාරාන්තික ආයුධයකින් තොරව නිර්මාණය කරන ලදී. අනාගතයේදී එය API එකක් බවට පරිවර්තනය කිරීමට සැලසුම් කරන බව OpenAI ප්රකාශ කර ඇති අතර, DALL.E 2 සම්බන්ධයෙන්, එය ප්රවේශමෙන් ඉදිරියට යාමට කැමැත්තෙන් සිටී.
නිගමනය
DALL-E 2 යනු නව යෙදුම් සඳහා දොර විවර කරන තවත් රසවත් OpenAI පර්යේෂණ සොයා ගැනීමකි.
එක් උදාහරණයක් නම් පරිගණක දර්ශනයේ ප්රධාන බාධකයක් වන දත්ත සපුරාලීම සඳහා දැවැන්ත දත්ත කට්ටල නිර්මාණය කිරීමයි. බොහෝ DALL-E-පාදක යෙදුම් සඳහා ආර්ථික තත්ත්වය තීරණය වන්නේ OpenAI විසින් එහි API භාවිතා කරන්නන් සඳහා ස්ථාපිත කරන මිල සහ ප්රතිපත්ති මත වන අතර, ඒවා සියල්ල නිසැකවම පින්තූර නිෂ්පාදනය ඉදිරියට ගෙන යනු ඇත.
ඔබමයි