கடந்த இரண்டு ஆண்டுகளில் டெக்ஸ்ட்-டு-இமேஜ் AI மாதிரிகள் எவ்வளவு சக்திவாய்ந்ததாக மாறியுள்ளன என்பதைப் பற்றி நீங்கள் கேள்விப்பட்டிருக்கலாம். ஆனால் அதே தொழில்நுட்பம் 2டியில் இருந்து 3டிக்கு முன்னேற உதவும் என்பது உங்களுக்குத் தெரியுமா?
AI-உருவாக்கப்பட்ட 3D மாடல்கள் இன்றைய டிஜிட்டல் நிலப்பரப்பில் பரந்த பயன்பாட்டு வழக்கைக் கொண்டுள்ளன. வீடியோ விளையாட்டுகள் மற்றும் திரைப்படமானது திறமையான 3D கலைஞர்கள் மற்றும் கணினியில் உருவாக்கப்பட்ட காட்சிகளை உருவாக்க 3D சொத்துக்களை உருவாக்க பிளெண்டர் போன்ற மாடலிங் மென்பொருளை நம்பியுள்ளது.
இருப்பினும், இன்று 3D கலைஞர்கள் DALL-E போன்ற தொழில்நுட்பத்தை எவ்வாறு பின்பற்றத் தொடங்குகிறார்கள் என்பதைப் போலவே, குறைந்த முயற்சியில் 2D சொத்துக்களை உருவாக்க இயந்திரக் கற்றலைத் தொழில்துறை பயன்படுத்த முடியுமா? நடுப்பயணம்?
இந்தக் கட்டுரை ஏற்கனவே உள்ளதைப் பயன்படுத்தி பயனுள்ள உரை முதல் 3D மாதிரியை உருவாக்க முயற்சிக்கும் புதிய வழிமுறையை ஆராயும். பரவல் மாதிரிகள்.
என்ன ட்ரீம்ஃபியூஷன்?
3D சொத்துக்களை நேரடியாக உருவாக்கும் ஒரு பரவல் மாதிரியை உருவாக்குவதில் ஒரு முக்கிய சிக்கல் என்னவென்றால், நிறைய 3D தரவு கிடைக்கவில்லை. இணையத்தில் காணப்படும் படங்களின் பரந்த தரவுத்தொகுப்பு காரணமாக 2D பரவல் மாதிரிகள் மிகவும் சக்திவாய்ந்ததாக மாறியுள்ளன. 3D சொத்துக்களிலும் இதையே கூற முடியாது.
சில 3D உருவாக்கும் நுட்பங்கள், 2D தரவின் இந்த மிகுதியைப் பயன்படுத்தி, இந்த தரவு பற்றாக்குறையைச் சுற்றி வேலை செய்கின்றன.
ட்ரீம்ஃப்யூஷன் வழங்கப்பட்ட உரை விளக்கத்தின் அடிப்படையில் 3D மாதிரிகளை உருவாக்கக்கூடிய ஒரு உருவாக்க மாதிரி ஆகும். ட்ரீம்ஃப்யூஷன் மாதிரியானது, டெக்ஸ்ட் ப்ராம்ட்களில் இருந்து யதார்த்தமான முப்பரிமாண மாதிரிகளை உருவாக்க, முன் பயிற்சி பெற்ற டெக்ஸ்ட்-டு-இமேஜ் டிஃப்யூஷன் மாதிரியைப் பயன்படுத்துகிறது.
3D பயிற்சி தரவு இல்லாத போதிலும், இந்த அணுகுமுறை உயர் நம்பகத் தோற்றம் மற்றும் ஆழத்துடன் ஒத்திசைவான 3D சொத்துக்களை உருவாக்கியுள்ளது.
இது எப்படி வேலை செய்கிறது?
ட்ரீம்ஃப்யூஷன் அல்காரிதம் இரண்டு முக்கிய மாதிரிகளைக் கொண்டுள்ளது: 2டி பரவல் மாதிரி மற்றும் ஒரு நரம்பு நெட்வொர்க் இது 2டி படங்களை ஒரு ஒருங்கிணைந்த 3டி காட்சியாக மாற்றும்.
கூகுளின் இமேஜன் டெக்ஸ்ட்-டு-இமேஜ் மாடல்
அல்காரிதத்தின் முதல் பகுதியானது பரவல் மாதிரி ஆகும். இந்த மாதிரியானது உரையை படங்களாக மாற்றுவதற்கு பொறுப்பாகும்.
படம் ஒரு குறிப்பிட்ட பொருளின் உருவ மாறுபாடுகளின் பெரிய மாதிரியை உருவாக்கக்கூடிய ஒரு பரவல் மாதிரி. இந்த வழக்கில், எங்கள் பட மாறுபாடுகள் வழங்கப்பட்ட பொருளின் அனைத்து சாத்தியமான கோணங்களையும் உள்ளடக்கும். உதாரணமாக, ஒரு குதிரையின் 3D மாதிரியை உருவாக்க விரும்பினால், குதிரையின் 2D படங்களை சாத்தியமான எல்லா கோணங்களிலிருந்தும் எடுக்க வேண்டும். எங்கள் அல்காரிதத்தில் அடுத்த மாதிரிக்கு இமேஜனைப் பயன்படுத்தி முடிந்தவரை தகவல்களை (வண்ணங்கள், பிரதிபலிப்புகள், அடர்த்தி) வழங்குவதே குறிக்கோள்.
NeRF உடன் 3D மாடல்களை உருவாக்குதல்
அடுத்து, டிரீம்ஃபியூஷன் ஒரு மாதிரியைப் பயன்படுத்துகிறது நரம்பியல் கதிர்வீச்சு புலம் அல்லது உருவாக்கப்பட்ட படத்தொகுப்பில் இருந்து 3D மாதிரியை உருவாக்க NeRF. 3D படங்களின் தரவுத்தொகுப்பில் கொடுக்கப்பட்ட சிக்கலான 2D காட்சிகளை NeRFகள் உருவாக்க முடியும்.
ஒரு NeRF எவ்வாறு செயல்படுகிறது என்பதைப் புரிந்துகொள்ள முயற்சிப்போம்.
வழங்கப்பட்ட 2D படங்களின் தரவுத்தொகுப்பிலிருந்து மேம்படுத்தப்பட்ட தொடர்ச்சியான அளவீட்டு காட்சி செயல்பாட்டை உருவாக்குவதை இந்த மாதிரி நோக்கமாகக் கொண்டுள்ளது.
மாதிரி ஒரு செயல்பாட்டை உருவாக்கினால், உள்ளீடு மற்றும் வெளியீடு என்ன?
காட்சி செயல்பாடு ஒரு 3D இடம் மற்றும் 2D பார்க்கும் திசையை உள்ளீடாக எடுக்கும். செயல்பாடு பின்னர் ஒரு வண்ணம் (RGB வடிவத்தில்) மற்றும் ஒரு குறிப்பிட்ட தொகுதி அடர்த்தியை வெளியிடுகிறது.
ஒரு குறிப்பிட்ட பார்வையில் இருந்து 2D படத்தை உருவாக்க, மாதிரியானது 3D புள்ளிகளின் தொகுப்பை உருவாக்கி, அந்த புள்ளிகளை காட்சி செயல்பாட்டின் மூலம் இயக்கி வண்ணம் மற்றும் தொகுதி அடர்த்தி மதிப்புகளின் தொகுப்பை வழங்கும். வால்யூம் ரெண்டரிங் நுட்பங்கள் அந்த மதிப்புகளை 2டி பட வெளியீட்டாக மாற்றும்.
NeRF மற்றும் 2D டிஃப்யூஷன் மாடல்களை ஒன்றாகப் பயன்படுத்துதல்
ஒரு NeRF எவ்வாறு செயல்படுகிறது என்பதை இப்போது நாம் அறிந்திருக்கிறோம், இந்த மாதிரியானது நாம் உருவாக்கிய படங்களிலிருந்து துல்லியமான 3D மாதிரிகளை எவ்வாறு உருவாக்க முடியும் என்பதைப் பார்ப்போம்.
வழங்கப்பட்ட ஒவ்வொரு உரைத் தூண்டுதலுக்கும், ட்ரீம்ஃப்யூஷன் புதிதாக தொடங்கப்பட்ட NeRFக்கு பயிற்சி அளிக்கிறது. ஒவ்வொரு மறு செய்கையும் கோள ஆயங்களின் தொகுப்பில் சீரற்ற கேமரா நிலையைத் தேர்ந்தெடுக்கிறது. கண்ணாடிக் கோளத்தில் அடைக்கப்பட்ட மாதிரியை நினைத்துப் பாருங்கள். ஒவ்வொரு முறையும் எங்கள் 3D மாதிரியின் புதிய படத்தை உருவாக்கும் போது, எங்கள் கோளத்தில் ஒரு சீரற்ற புள்ளியை எங்கள் வெளியீட்டின் முக்கிய புள்ளியாக தேர்வு செய்வோம். DreamFusion ஒரு சீரற்ற ஒளி நிலையையும் தேர்ந்தெடுக்கும் l வழங்குவதற்கு பயன்படுத்த.
கேமரா மற்றும் லைட் பொசிஷன் கிடைத்தவுடன், ஒரு NeRF மாடல் ரெண்டர் செய்யப்படும். ட்ரீம்ஃப்யூஷன் நிற ரெண்டர், டெக்ஸ்ச்சர்லெஸ் ரெண்டர் மற்றும் அல்பிடோவின் ரெண்டரிங் ஆகியவற்றிற்கு இடையே எந்த ஷேடிங்கும் இல்லாமல் சீரற்ற முறையில் தேர்வு செய்யும்.
எங்கள் உரை-க்கு-பட மாதிரி (Imagen) ஒரு பிரதிநிதி மாதிரியை உருவாக்க போதுமான படங்களை உருவாக்க வேண்டும் என்று நாங்கள் முன்பே குறிப்பிட்டுள்ளோம்.
ட்ரீம்ஃபியூஷன் இதை எப்படிச் சாதிக்கிறது?
ட்ரீம்ஃபியூஷன், உத்தேசிக்கப்பட்ட கோணங்களை அடைய உள்ளீடு வரியில் சிறிது மாற்றியமைக்கிறது. எடுத்துக்காட்டாக, "மேல்நிலைக் காட்சியை" எங்கள் வரியில் சேர்ப்பதன் மூலம் அதிக உயரக் கோணங்களை அடையலாம். "முன் பார்வை", "பக்கக் காட்சி" மற்றும் "பின் பார்வை" போன்ற சொற்றொடர்களைச் சேர்ப்பதன் மூலம் பிற கோணங்களை உருவாக்கலாம்.
சீரற்ற கேமரா நிலைகளில் இருந்து காட்சிகள் மீண்டும் மீண்டும் வழங்கப்படுகின்றன. இந்த ரெண்டரிங்ஸ் பின்னர் ஒரு மதிப்பெண் வடித்தல் இழப்பு செயல்பாடு வழியாக செல்கிறது. ஒரு எளிய சாய்வு வம்சாவளி அணுகுமுறை மெதுவாக மேம்படுத்தும் 3D மாதிரி உரையில் விவரிக்கப்பட்டுள்ள காட்சியுடன் அது பொருந்தும் வரை.
NeRF ஐப் பயன்படுத்தி 3D மாதிரியை ரெண்டர் செய்தவுடன், இதைப் பயன்படுத்தலாம் மார்ச்சிங் க்யூப்ஸ் அல்காரிதம் எங்கள் மாதிரியின் 3D கண்ணியை வெளியிடுவதற்கு. இந்த மெஷ் பின்னர் பிரபலமான 3D ரெண்டரர்கள் அல்லது மாடலிங் மென்பொருளில் இறக்குமதி செய்யப்படலாம்.
வரம்புகள்
ட்ரீம்ஃப்யூஷனின் வெளியீடு மிகவும் ஈர்க்கக்கூடியதாக உள்ளது, ஏனெனில் இது ஏற்கனவே உள்ள உரை-க்கு-பட பரவல் மாதிரிகளை ஒரு புதுமையான வழியில் பயன்படுத்துகிறது, ஆராய்ச்சியாளர்கள் சில வரம்புகளைக் குறிப்பிட்டுள்ளனர்.
SDS இழப்பு செயல்பாடு மிகைப்படுத்தப்பட்ட மற்றும் அதிக மென்மையான முடிவுகளைத் தருகிறது. வெளியீடுகளில் காணப்படும் இயற்கைக்கு மாறான வண்ணம் மற்றும் துல்லியமான விவரங்கள் இல்லாமை ஆகியவற்றில் இதை நீங்கள் அவதானிக்கலாம்.
ட்ரீம்ஃப்யூஷன் அல்காரிதம் இமேஜன் மாடல் வெளியீட்டின் தெளிவுத்திறனால் வரையறுக்கப்பட்டுள்ளது, இது 64 x 64 பிக்சல்கள். இது ஒருங்கிணைக்கப்பட்ட மாதிரிகள் நுண்ணிய விவரங்கள் இல்லாததற்கு வழிவகுக்கிறது.
கடைசியாக, 3D தரவுகளிலிருந்து 2D மாதிரிகளை ஒருங்கிணைப்பதில் உள்ளார்ந்த சவால் இருப்பதாக ஆராய்ச்சியாளர்கள் குறிப்பிட்டுள்ளனர். 3D படங்களின் தொகுப்பிலிருந்து நாம் உருவாக்கக்கூடிய பல சாத்தியமான 2D மாதிரிகள் உள்ளன, இது தேர்வுமுறையை மிகவும் கடினமாகவும் தெளிவற்றதாகவும் ஆக்குகிறது.
தீர்மானம்
ட்ரீம்ஃப்யூஷனின் 3டி ரெண்டரிங்ஸ் மிகவும் நன்றாக வேலை செய்கிறது, ஏனெனில் எந்தப் பொருளையும் காட்சியையும் உருவாக்க உரையிலிருந்து பட பரவல் மாதிரிகளின் திறன் உள்ளது. 3D ஸ்பேஸில் எந்த 3D பயிற்சித் தரவும் இல்லாமல் ஒரு நரம்பியல் நெட்வொர்க் எப்படி ஒரு காட்சியைப் புரிந்துகொள்ள முடியும் என்பது சுவாரஸ்யமாக இருக்கிறது. நான் படிக்க பரிந்துரைக்கிறேன் முழு காகிதம் DreamFusion அல்காரிதத்தின் தொழில்நுட்ப விவரங்களைப் பற்றி மேலும் அறிய.
இந்த தொழில்நுட்பம் இறுதியில் புகைப்பட-யதார்த்தமான 3D மாதிரிகளை உருவாக்க மேம்படுத்தும் என்று நம்புகிறோம். AI-உருவாக்கிய சூழல்களைப் பயன்படுத்தும் முழு வீடியோ கேம்கள் அல்லது உருவகப்படுத்துதல்களை கற்பனை செய்து பாருங்கள். அதிவேக 3D உலகங்களை உருவாக்க வீடியோ கேம் டெவலப்பர்களுக்கு நுழைவதற்கான தடையை இது குறைக்கலாம்!
எதிர்காலத்தில் டெக்ஸ்ட்-டு-3டி மாடல்கள் என்ன பங்கு வகிக்கும் என்று நினைக்கிறீர்கள்?
ஒரு பதில் விடவும்