පසුගිය වසර කිහිපය තුළ Text-to-image AI මාදිලි කෙතරම් බලවත් වී ඇත්ද යන්න ගැන ඔබ අසා ඇති. නමුත් 2D සිට 3D දක්වා පිම්මක් පැනීමට එම තාක්ෂණයම උපකාරී වන බව ඔබ දන්නවාද?
AI-ජනනය කරන ලද ත්රිමාණ මාදිලි අද ඩිජිටල් භූ දර්ශනය තුළ පුළුල් භාවිත අවස්ථාවක් ඇත. වීඩියෝ ක්රීඩා සහ චිත්රපටිය දක්ෂ ත්රිමාණ කලාකරුවන් සහ පරිගණකයෙන් ජනනය කරන ලද දර්ශන ජනනය කිරීම සඳහා ත්රිමාණ වත්කම් නිර්මාණය කිරීම සඳහා බ්ලෙන්ඩර් වැනි ආකෘති නිර්මාණ මෘදුකාංග මත රඳා පවතී.
කෙසේ වෙතත්, අද 3D කලාකරුවන් DALL-E වැනි තාක්ෂණය භාවිතා කිරීමට පටන් ගෙන ඇති ආකාරයටම, අඩු උත්සාහයකින් ත්රිමාණ වත්කම් නිර්මාණය කිරීමට කර්මාන්තයට යන්ත්ර ඉගෙනීම භාවිතා කළ හැකිද? මැද ගමන?
මෙම ලිපිය දැනට පවතින භාවිතයෙන් ඵලදායි පෙළ සිට 3D ආකෘතියක් නිර්මාණය කිරීමට උත්සාහ කරන නව ඇල්ගොරිතමයක් ගවේෂණය කරනු ඇත. විසරණ ආකෘති.
මොකක්ද Dreamfusion?
ත්රිමාණ වත්කම් සෘජුවම උත්පාදනය කරන විසරණ ආකෘතියක් නිර්මාණය කිරීමේදී ඇති එක් ප්රධාන ගැටලුවක් වන්නේ ත්රිමාණ දත්ත විශාල ප්රමාණයක් නොමැති වීමයි. 3D විසරණ ආකෘතීන් එතරම් බලවත් වී ඇත්තේ අන්තර්ජාලයේ ඇති රූප විශාල දත්ත කට්ටලයක් නිසාය. ත්රිමාණ වත්කම් සම්බන්ධයෙන් ද එයම කිව නොහැක.
සමහර ත්රිමාණ උත්පාදන ශිල්පීය ක්රම මෙම 3D දත්ත බහුලතාවයෙන් ප්රයෝජන ගනිමින් මෙම දත්ත හිඟය වටා ක්රියා කරයි.
DreamFusion සපයන ලද පෙළ විස්තරයක් මත පදනම්ව 3D ආකෘති නිර්මාණය කළ හැකි උත්පාදක ආකෘතියකි. DreamFusion ආකෘතිය පෙළ විමසුම් වලින් යථාර්ථවාදී ත්රිමාන ආකෘති උත්පාදනය කිරීමට පෙර-පුහුණු කළ පෙළ-පින්තූර විසරණ ආකෘතියක් භාවිතා කරයි.
ත්රිමාණ පුහුණු දත්ත නොමැති වුවද, මෙම ප්රවේශය ඉහළ විශ්වාසනීය පෙනුමක් සහ ගැඹුරක් සහිත සුසංයෝගී ත්රිමාණ වත්කම් ජනනය කර ඇත.
ඒක කොහොමද වැඩ කරන්නේ?
DreamFusion ඇල්ගොරිතම ප්රධාන මාදිලි දෙකකින් සමන්විත වේ: 2D විසරණ ආකෘතියක් සහ a ස්නායු ජාලය එමගින් 2D රූප සංයුක්ත 3D දර්ශනයක් බවට පරිවර්තනය කළ හැක.
Google's Imagen Text-to-image ආකෘතිය
ඇල්ගොරිතමයේ පළමු කොටස වන්නේ විසරණ ආකෘතියයි. පෙළ රූප බවට පරිවර්තනය කිරීම සඳහා මෙම ආකෘතිය වගකිව යුතුය.
Imagen යම් වස්තුවක රූප විචලනයන් විශාල සාම්පලයක් ජනනය කළ හැකි විසරණ ආකෘතියකි. මෙම අවස්ථාවෙහිදී, අපගේ රූප විචලනයන් සපයන ලද වස්තුවේ හැකි සියලු කෝණ ආවරණය කළ යුතුය. උදාහරණයක් ලෙස, අපට අශ්වයෙකුගේ ත්රිමාණ ආකෘතියක් ජනනය කිරීමට අවශ්ය නම්, අපට හැකි සෑම කෝණයකින්ම අශ්වයාගේ 3D රූප අවශ්ය වේ. අපගේ ඇල්ගොරිතමයේ ඊළඟ ආකෘතිය සඳහා හැකිතාක් තොරතුරු (වර්ණ, පරාවර්තන, ඝනත්වය) සැපයීමට Imagen භාවිතා කිරීම ඉලක්කයයි.
NeRF සමඟ 3D ආකෘති නිර්මාණය කිරීම
ඊළඟට, Dreamfusion a ලෙස හඳුන්වන ආකෘතියක් භාවිතා කරයි ස්නායු විකිරණ ක්ෂේත්රය හෝ NeRF ඇත්ත වශයෙන්ම ජනනය කරන ලද රූප කට්ටලයෙන් 3D ආකෘතිය නිර්මාණය කිරීමට. NeRF වලට ද්විමාන රූප දත්ත කට්ටලයක් ලබා දී සංකීර්ණ 3D දර්ශන නිර්මාණය කිරීමට හැකි වේ.
NeRF ක්රියා කරන ආකාරය තේරුම් ගැනීමට උත්සාහ කරමු.
2D රූපවල සපයා ඇති දත්ත කට්ටලයෙන් ප්රශස්ත ලෙස අඛණ්ඩ පරිමාමිතික දර්ශන ශ්රිතයක් නිර්මාණය කිරීම ආකෘතියේ අරමුණයි.
ආකෘතිය ශ්රිතයක් නිර්මාණය කරන්නේ නම්, ආදානය සහ ප්රතිදානය යනු කුමක්ද?
දර්ශන ශ්රිතය ත්රිමාණ ස්ථානයක් සහ ආදානය ලෙස 3D බැලීමේ දිශාවක් ගනී. ශ්රිතය පසුව වර්ණයක් (RGB ආකාරයෙන්) සහ නිශ්චිත පරිමා ඝනත්වයක් ප්රතිදානය කරයි.
නිශ්චිත දෘෂ්ටි කෝණයකින් 2D රූපයක් ජනනය කිරීම සඳහා, ආකෘතිය ත්රිමාණ ලක්ෂ්ය කට්ටලයක් ජනනය කර වර්ණ සහ පරිමා ඝනත්ව අගයන් කට්ටලයක් ලබා දීම සඳහා එම ලක්ෂ්ය දර්ශන ශ්රිතය හරහා ධාවනය කරනු ඇත. වෙළුම් විදැහුම්කරණ ශිල්පීය ක්රම මඟින් එම අගයන් 3D රූප ප්රතිදානයක් බවට පරිවර්තනය කරනු ඇත.
NeRF සහ 2D Diffusion Models එකට භාවිතා කිරීම
දැන් අපි NeRF ක්රියා කරන ආකාරය දන්නා නිසා, මෙම ආකෘතියට අපගේ උත්පාදනය කරන ලද පින්තූර වලින් නිවැරදි ත්රිමාණ ආකෘති ජනනය කරන්නේ කෙසේදැයි බලමු.
සපයා ඇති සෑම පෙළ ප්රේරකයක් සඳහාම, DreamFusion මුල සිටම අහඹු ලෙස ආරම්භ කරන ලද NeRF පුහුණු කරයි. සෑම පුනරාවර්තනයක්ම ගෝලාකාර ඛණ්ඩාංක කට්ටලයක අහඹු කැමරා පිහිටීමක් තෝරා ගනී. වීදුරු ගෝලයක ආවරණය කර ඇති ආකෘතිය ගැන සිතන්න. අපි අපගේ ත්රිමාණ ආකෘතියේ නව රූපයක් ජනනය කරන සෑම අවස්ථාවකම, අපගේ ප්රතිදානයේ වාසි ලක්ෂ්යය ලෙස අපි අපගේ ගෝලයේ අහඹු ලක්ෂ්යයක් තෝරා ගනිමු. DreamFusion අහඹු ආලෝක ස්ථානයක් ද තෝරා ගනු ඇත l විදැහුම්කරණය සඳහා භාවිතා කිරීමට.
අපට කැමරාවක් සහ සැහැල්ලු ස්ථානයක් ලැබුණු පසු, NeRF ආකෘතියක් ලබා දෙනු ඇත. DreamFusion වර්ණවත් විදැහුම්කරණයක්, වයනය රහිත විදැහුම්කරණයක් සහ කිසිදු සෙවනකින් තොරව ඇල්බිඩෝ විදැහුම්කරණයක් අතර අහඹු ලෙස තෝරා ගනු ඇත.
අපගේ පෙළ-පින්තූර ආකෘතිය (Imagen) නියෝජිත නියැදියක් නිර්මාණය කිරීමට ප්රමාණවත් රූප නිපදවීමට අවශ්ය බව අපි කලින් සඳහන් කළෙමු.
Dreamfusion මෙය ඉටු කරන්නේ කෙසේද?
Dreamfusion සරලව අපේක්ෂිත කෝණ ලබා ගැනීම සඳහා ආදාන විමසුම තරමක් වෙනස් කරයි. උදාහරණයක් ලෙස, අපගේ විමසුමට “උඩිස් දසුන” එකතු කිරීමෙන් අපට ඉහළ උන්නතාංශ කෝණ ලබා ගත හැක. "ඉදිරිපස දසුන", "පැති දසුන", "පසුපස දසුන" වැනි වාක්ය ඛණ්ඩ එකතු කිරීමෙන් අපට වෙනත් කෝණ ජනනය කළ හැක.
අහඹු කැමරා ස්ථානවලින් දර්ශන නැවත නැවතත් නිරූපණය කෙරේ. මෙම විදැහුම්කරණයන් පසුව ලකුණු ආසවනය පාඩු ශ්රිතයක් හරහා ගමන් කරයි. සරල අනුක්රමණ බැසීමේ ප්රවේශයක් සෙමින් වැඩිදියුණු කරනු ඇත 3D ආකෘතිය එය පෙළ මගින් විස්තර කර ඇති දර්ශනයට ගැලපෙන තෙක්.
අපි NeRF භාවිතයෙන් 3D ආකෘතිය විදැහුම් කළ පසු, අපට භාවිතා කළ හැක මාර්චිං කියුබ් ඇල්ගොරිතම අපගේ ආකෘතියේ ත්රිමාණ දැලක් ප්රතිදානය කිරීමට. මෙම දැල පසුව ජනප්රිය ත්රිමාණ විදැහුම්කරුවන්ට හෝ ආකෘති නිර්මාණ මෘදුකාංගවලට ආයාත කළ හැක.
සීමාවන්
DreamFusion හි ප්රතිදානය ප්රමාණවත් තරම් සිත් ඇදගන්නා සුළු වන අතර එය දැනට පවතින පෙළ සිට රූපය දක්වා විසරණ ආකෘති නව ආකාරයකින් භාවිතා කරයි, පර්යේෂකයන් සීමාවන් කිහිපයක් සටහන් කර ඇත.
SDS අලාභ ශ්රිතය අධි සංතෘප්ත සහ සුමට ප්රතිඵල නිපදවීමට නිරීක්ෂණය කර ඇත. නිමැවුම් වල ඇති අස්වාභාවික වර්ණ ගැන්වීම සහ නිවැරදි විස්තර නොමැති වීම ඔබට මෙය නිරීක්ෂණය කළ හැක.
DreamFusion ඇල්ගොරිතම ද Imagen මාදිලියේ ප්රතිදානයේ විභේදනය මගින් සීමා වේ, එය පික්සල 64 x 64 වේ. මෙය සංස්ලේෂණය කරන ලද ආකෘතිවල සියුම් විස්තර නොමැති වීමට හේතු වේ.
අවසාන වශයෙන්, පර්යේෂකයන් සඳහන් කර ඇත්තේ 3D දත්ත වලින් ත්රිමාණ ආකෘති සංස්ලේෂණය කිරීමේ සහජ අභියෝගයක් පවතින බවයි. අපට 2D රූප සමූහයකින් උත්පාදනය කළ හැකි ත්රිමාණ ආකෘති බොහොමයක් ඇත, එමඟින් ප්රශස්තකරණය තරමක් අපහසු සහ අපැහැදිලි වේ.
නිගමනය
DreamFusion හි ත්රිමාණ විදැහුම්කරණයන් ඉතා හොඳින් ක්රියා කරන්නේ ඕනෑම වස්තුවක් හෝ දර්ශනයක් නිර්මාණය කිරීමට පෙළ-පින්තූර විසරණ ආකෘතිවලට ඇති හැකියාව නිසාය. කිසිදු ත්රිමාණ පුහුණු දත්තයකින් තොරව ස්නායු ජාලයකට ත්රිමාණ අවකාශයේ දර්ශනයක් තේරුම් ගත හැකි ආකාරය සිත් ඇදගන්නා සුළුය. කියවීමට මම නිර්දේශ කරමි සම්පූර්ණ කඩදාසි DreamFusion ඇල්ගොරිතමයේ තාක්ෂණික විස්තර ගැන වැඩිදුර දැන ගැනීමට.
අවසානයේදී ඡායාරූප-යථාර්ථවාදී ත්රිමාණ ආකෘති නිර්මාණය කිරීමට මෙම තාක්ෂණය වැඩිදියුණු වනු ඇතැයි බලාපොරොත්තු වෙමු. AI-ජනනය කරන ලද පරිසරයන් භාවිතා කරන සම්පූර්ණ වීඩියෝ ක්රීඩා හෝ සමාකරණ ගැන සිතන්න. එය වීඩියෝ ක්රීඩා සංවර්ධකයින්ට ගිලී යන ත්රිමාණ ලෝකයන් නිර්මාණය කිරීමට ඇතුළුවීමේ බාධකය අඩු කළ හැකිය!
Text-to-3D ආකෘති අනාගතයේදී කුමන කාර්යභාරයක් ඉටු කරනු ඇතැයි ඔබ සිතනවාද?
ඔබමයි