കഴിഞ്ഞ രണ്ട് വർഷങ്ങളായി ടെക്സ്റ്റ്-ടു-ഇമേജ് AI മോഡലുകൾ എത്രത്തോളം ശക്തമായി മാറിയെന്ന് നിങ്ങൾ കേട്ടിട്ടുണ്ടാകും. എന്നാൽ അതേ സാങ്കേതികവിദ്യ 2D-യിൽ നിന്ന് 3D-യിലേക്ക് കുതിക്കാൻ സഹായിക്കുമെന്ന് നിങ്ങൾക്കറിയാമോ?
ഇന്നത്തെ ഡിജിറ്റൽ ലാൻഡ്സ്കേപ്പിൽ AI- ജനറേറ്റഡ് 3D മോഡലുകൾക്ക് വിശാലമായ ഉപയോഗമുണ്ട്. വീഡിയോ ഗെയിമുകൾ കമ്പ്യൂട്ടർ-നിർമ്മിത ദൃശ്യങ്ങൾ പോപ്പുലേറ്റ് ചെയ്യുന്നതിനായി 3D അസറ്റുകൾ സൃഷ്ടിക്കുന്നതിന്, സിനിമ വൈദഗ്ധ്യമുള്ള 3D ആർട്ടിസ്റ്റുകളെയും ബ്ലെൻഡർ പോലുള്ള മോഡലിംഗ് സോഫ്റ്റ്വെയറുകളെയും ആശ്രയിക്കുന്നു.
എന്നിരുന്നാലും, ഇന്ന് 3D ആർട്ടിസ്റ്റുകൾ DALL-E പോലുള്ള സാങ്കേതികവിദ്യകൾ സ്വീകരിക്കാൻ തുടങ്ങിയതിന് സമാനമായി, കുറഞ്ഞ പ്രയത്നത്തിൽ 2D അസറ്റുകൾ സൃഷ്ടിക്കാൻ വ്യവസായത്തിന് മെഷീൻ ലേണിംഗ് ഉപയോഗിക്കാൻ കഴിയുമോ? മധ്യയാത്ര?
ഈ ലേഖനം നിലവിലുള്ളത് ഉപയോഗിച്ച് ഫലപ്രദമായ ടെക്സ്റ്റ്-ടു-3D മോഡൽ സൃഷ്ടിക്കാൻ ശ്രമിക്കുന്ന ഒരു നോവൽ അൽഗോരിതം പര്യവേക്ഷണം ചെയ്യും ഡിഫ്യൂഷൻ മോഡലുകൾ.
എന്താണ് ഡ്രീംഫ്യൂഷൻ?
3D അസറ്റുകൾ നേരിട്ട് സൃഷ്ടിക്കുന്ന ഒരു ഡിഫ്യൂഷൻ മോഡൽ സൃഷ്ടിക്കുന്നതിലെ ഒരു പ്രധാന പ്രശ്നം, ധാരാളം 3D ഡാറ്റ ലഭ്യമല്ല എന്നതാണ്. 2D ഡിഫ്യൂഷൻ മോഡലുകൾ ഇൻറർനെറ്റിൽ കണ്ടെത്തിയ ചിത്രങ്ങളുടെ വിപുലമായ ഡാറ്റാസെറ്റ് കാരണം വളരെ ശക്തമാണ്. 3D അസറ്റുകളുടെ കാര്യത്തിലും ഇതുതന്നെ പറയാനാവില്ല.
3D ഡാറ്റയുടെ ഈ സമൃദ്ധി പ്രയോജനപ്പെടുത്തി, ചില 2D ജനറേറ്റീവ് ടെക്നിക്കുകൾ ഈ ഡാറ്റയുടെ അഭാവത്തിൽ പ്രവർത്തിക്കുന്നു.
ഡ്രീംഫ്യൂഷൻ നൽകിയിരിക്കുന്ന വാചക വിവരണത്തെ അടിസ്ഥാനമാക്കി 3D മോഡലുകൾ സൃഷ്ടിക്കാൻ കഴിയുന്ന ഒരു ജനറേറ്റീവ് മോഡലാണ്. ടെക്സ്റ്റ് പ്രോംപ്റ്റുകളിൽ നിന്ന് റിയലിസ്റ്റിക് ത്രിമാന മോഡലുകൾ സൃഷ്ടിക്കാൻ ഡ്രീംഫ്യൂഷൻ മോഡൽ മുൻകൂട്ടി പരിശീലിപ്പിച്ച ടെക്സ്റ്റ്-ടു-ഇമേജ് ഡിഫ്യൂഷൻ മോഡൽ ഉപയോഗിക്കുന്നു.
3D പരിശീലന ഡാറ്റ ഇല്ലെങ്കിലും, ഈ സമീപനം ഉയർന്ന വിശ്വാസ്യതയുള്ള രൂപവും ആഴവുമുള്ള യോജിച്ച 3D അസറ്റുകൾ സൃഷ്ടിച്ചു.
അതെങ്ങനെയാണ് പ്രവര്ത്തിക്കുന്നത്?
DreamFusion അൽഗോരിതം രണ്ട് പ്രധാന മോഡലുകൾ ഉൾക്കൊള്ളുന്നു: ഒരു 2D ഡിഫ്യൂഷൻ മോഡലും ഒരു ന്യൂറൽ നെറ്റ്വർക്ക് അതിന് 2D ചിത്രങ്ങളെ യോജിച്ച 3D സീനാക്കി മാറ്റാൻ കഴിയും.
Google-ന്റെ ഇമേജൻ ടെക്സ്റ്റ്-ടു-ഇമേജ് മോഡൽ
അൽഗോരിതത്തിന്റെ ആദ്യഭാഗം ഡിഫ്യൂഷൻ മോഡൽ ആണ്. വാചകം ചിത്രങ്ങളാക്കി മാറ്റുന്നതിന് ഈ മോഡൽ ഉത്തരവാദിയാണ്.
ഇമേജ് ഒരു പ്രത്യേക വസ്തുവിന്റെ ഇമേജ് വ്യതിയാനങ്ങളുടെ ഒരു വലിയ മാതൃക സൃഷ്ടിക്കാൻ കഴിയുന്ന ഒരു ഡിഫ്യൂഷൻ മോഡൽ ആണ്. ഈ സാഹചര്യത്തിൽ, ഞങ്ങളുടെ ഇമേജ് വ്യതിയാനങ്ങൾ നൽകിയിരിക്കുന്ന ഒബ്ജക്റ്റിന്റെ സാധ്യമായ എല്ലാ കോണുകളും ഉൾക്കൊള്ളണം. ഉദാഹരണത്തിന്, ഒരു കുതിരയുടെ 3D മോഡൽ സൃഷ്ടിക്കാൻ ഞങ്ങൾ ആഗ്രഹിക്കുന്നുവെങ്കിൽ, സാധ്യമായ എല്ലാ കോണുകളിൽ നിന്നും കുതിരയുടെ 2D ഇമേജുകൾ ഞങ്ങൾ ആഗ്രഹിക്കുന്നു. ഞങ്ങളുടെ അൽഗോരിതത്തിലെ അടുത്ത മോഡലിനായി കഴിയുന്നത്ര വിവരങ്ങൾ (നിറങ്ങൾ, പ്രതിഫലനങ്ങൾ, സാന്ദ്രത) നൽകാൻ ഇമേജൻ ഉപയോഗിക്കുക എന്നതാണ് ലക്ഷ്യം.
NeRF ഉപയോഗിച്ച് 3D മോഡലുകൾ സൃഷ്ടിക്കുന്നു
അടുത്തതായി, ഡ്രീംഫ്യൂഷൻ എ എന്നറിയപ്പെടുന്ന ഒരു മോഡൽ ഉപയോഗിക്കുന്നു ന്യൂറൽ റേഡിയൻസ് ഫീൽഡ് അല്ലെങ്കിൽ സൃഷ്ടിച്ച ഇമേജ് സെറ്റിൽ നിന്ന് യഥാർത്ഥത്തിൽ 3D മോഡൽ സൃഷ്ടിക്കാൻ NeRF. 3D ഇമേജുകളുടെ ഡാറ്റാസെറ്റ് നൽകിയാൽ സങ്കീർണ്ണമായ 2D ദൃശ്യങ്ങൾ സൃഷ്ടിക്കാൻ NeRF-കൾക്ക് കഴിയും.
ഒരു NeRF എങ്ങനെ പ്രവർത്തിക്കുന്നുവെന്ന് മനസിലാക്കാൻ ശ്രമിക്കാം.
നൽകിയിരിക്കുന്ന 2D ഇമേജുകളുടെ ഡാറ്റാസെറ്റിൽ നിന്ന് ഒപ്റ്റിമൈസ് ചെയ്ത തുടർച്ചയായ വോള്യൂമെട്രിക് സീൻ ഫംഗ്ഷൻ സൃഷ്ടിക്കാനാണ് മോഡൽ ലക്ഷ്യമിടുന്നത്.
മോഡൽ ഒരു ഫംഗ്ഷൻ സൃഷ്ടിക്കുന്നുവെങ്കിൽ, ഇൻപുട്ടും ഔട്ട്പുട്ടും എന്താണ്?
സീൻ ഫംഗ്ഷൻ ഇൻപുട്ടായി ഒരു 3D ലൊക്കേഷനും 2D വ്യൂവിംഗ് ദിശയും എടുക്കുന്നു. ഫംഗ്ഷൻ പിന്നീട് ഒരു നിറവും (RGB രൂപത്തിൽ) ഒരു പ്രത്യേക വോളിയം സാന്ദ്രതയും നൽകുന്നു.
ഒരു നിർദ്ദിഷ്ട വീക്ഷണകോണിൽ നിന്ന് ഒരു 2D ഇമേജ് സൃഷ്ടിക്കുന്നതിന്, മോഡൽ 3D പോയിന്റുകളുടെ ഒരു കൂട്ടം സൃഷ്ടിക്കുകയും ഒരു കൂട്ടം വർണ്ണത്തിന്റെയും വോളിയത്തിന്റെയും സാന്ദ്രത മൂല്യങ്ങൾ നൽകുന്നതിന് സീൻ ഫംഗ്ഷനിലൂടെ ആ പോയിന്റുകൾ പ്രവർത്തിപ്പിക്കുകയും ചെയ്യും. വോളിയം റെൻഡറിംഗ് ടെക്നിക്കുകൾ ആ മൂല്യങ്ങളെ ഒരു 2D ഇമേജ് ഔട്ട്പുട്ടാക്കി മാറ്റും.
NeRF, 2D ഡിഫ്യൂഷൻ മോഡലുകൾ ഒരുമിച്ച് ഉപയോഗിക്കുന്നു
ഒരു NeRF എങ്ങനെ പ്രവർത്തിക്കുന്നുവെന്ന് ഇപ്പോൾ നമുക്കറിയാം, ഈ മോഡലിന് നമ്മുടെ ജനറേറ്റ് ചെയ്ത ചിത്രങ്ങളിൽ നിന്ന് എങ്ങനെ കൃത്യമായ 3D മോഡലുകൾ സൃഷ്ടിക്കാൻ കഴിയുമെന്ന് നോക്കാം.
നൽകിയിരിക്കുന്ന ഓരോ ടെക്സ്റ്റ് പ്രോംപ്റ്റിനും, ഡ്രീംഫ്യൂഷൻ ആദ്യം മുതൽ ക്രമരഹിതമായി ആരംഭിച്ച NeRF-നെ പരിശീലിപ്പിക്കുന്നു. ഓരോ ആവർത്തനവും ഒരു കൂട്ടം ഗോളാകൃതിയിലുള്ള കോർഡിനേറ്റുകളിൽ ഒരു റാൻഡം ക്യാമറ സ്ഥാനം തിരഞ്ഞെടുക്കുന്നു. ഒരു ഗ്ലാസ് ഗോളത്തിൽ പൊതിഞ്ഞ മോഡലിനെക്കുറിച്ച് ചിന്തിക്കുക. ഓരോ തവണയും ഞങ്ങൾ ഞങ്ങളുടെ 3D മോഡലിന്റെ ഒരു പുതിയ ഇമേജ് സൃഷ്ടിക്കുമ്പോൾ, ഞങ്ങളുടെ ഔട്ട്പുട്ടിന്റെ പ്രയോജനകരമായ പോയിന്റായി നമ്മുടെ ഗോളത്തിലെ ഒരു റാൻഡം പോയിന്റ് ഞങ്ങൾ തിരഞ്ഞെടുക്കും. ഡ്രീംഫ്യൂഷൻ റാൻഡം ലൈറ്റ് പൊസിഷനും തിരഞ്ഞെടുക്കും l റെൻഡറിങ്ങിനായി ഉപയോഗിക്കാൻ.
ക്യാമറയും ലൈറ്റ് പൊസിഷനും ലഭിച്ചുകഴിഞ്ഞാൽ, ഒരു NeRF മോഡൽ റെൻഡർ ചെയ്യും. ഡ്രീംഫ്യൂഷൻ, നിറമുള്ള റെൻഡർ, ടെക്സ്ചർലെസ് റെൻഡർ, ഷേഡിംഗ് ഇല്ലാതെ ആൽബിഡോയുടെ റെൻഡറിംഗ് എന്നിവയ്ക്കിടയിൽ ക്രമരഹിതമായി തിരഞ്ഞെടുക്കും.
ഞങ്ങളുടെ ടെക്സ്റ്റ്-ടു-ഇമേജ് മോഡൽ (ഇമജൻ) ഒരു പ്രതിനിധി സാമ്പിൾ സൃഷ്ടിക്കുന്നതിന് ആവശ്യമായ ചിത്രങ്ങൾ നിർമ്മിക്കണമെന്ന് ഞങ്ങൾ നേരത്തെ സൂചിപ്പിച്ചിരുന്നു.
ഡ്രീംഫ്യൂഷൻ ഇത് എങ്ങനെ നിർവഹിക്കുന്നു?
ഡ്രീംഫ്യൂഷൻ ഉദ്ദേശിച്ച കോണുകൾ നേടുന്നതിന് ഇൻപുട്ട് പ്രോംപ്റ്റിനെ ചെറുതായി പരിഷ്ക്കരിക്കുന്നു. ഉദാഹരണത്തിന്, ഞങ്ങളുടെ പ്രോംപ്റ്റിൽ "ഓവർഹെഡ് വ്യൂ" ചേർത്തുകൊണ്ട് ഉയർന്ന എലവേഷൻ ആംഗിളുകൾ നേടാനാകും. "ഫ്രണ്ട് വ്യൂ", "സൈഡ് വ്യൂ", "ബാക്ക് വ്യൂ" തുടങ്ങിയ പദസമുച്ചയങ്ങൾ ചേർത്തുകൊണ്ട് നമുക്ക് മറ്റ് ആംഗിളുകൾ സൃഷ്ടിക്കാൻ കഴിയും.
ക്രമരഹിതമായ ക്യാമറാ സ്ഥാനങ്ങളിൽ നിന്ന് ദൃശ്യങ്ങൾ ആവർത്തിച്ച് റെൻഡർ ചെയ്യപ്പെടുന്നു. ഈ റെൻഡറിംഗുകൾ ഒരു സ്കോർ ഡിസ്റ്റിലേഷൻ ലോസ് ഫംഗ്ഷനിലൂടെ കടന്നുപോകുന്നു. ഒരു ലളിതമായ ഗ്രേഡിയന്റ് ഡിസെന്റ് സമീപനം സാവധാനം മെച്ചപ്പെടുത്തും 3D മോഡൽ വാചകം വിവരിച്ചിരിക്കുന്ന ദൃശ്യവുമായി പൊരുത്തപ്പെടുന്നത് വരെ.
NeRF ഉപയോഗിച്ച് ഞങ്ങൾ 3D മോഡൽ റെൻഡർ ചെയ്തുകഴിഞ്ഞാൽ, നമുക്ക് ഇത് ഉപയോഗിക്കാം മാർച്ചിംഗ് ക്യൂബ്സ് അൽഗോരിതം ഞങ്ങളുടെ മോഡലിന്റെ ഒരു 3D മെഷ് ഔട്ട്പുട്ട് ചെയ്യാൻ. ഈ മെഷ് പിന്നീട് ജനപ്രിയ 3D റെൻഡററുകളിലേക്കോ മോഡലിംഗ് സോഫ്റ്റ്വെയറിലേക്കോ ഇറക്കുമതി ചെയ്യാൻ കഴിയും.
പരിമിതികൾ
നിലവിലുള്ള ടെക്സ്റ്റ്-ടു-ഇമേജ് ഡിഫ്യൂഷൻ മോഡലുകൾ പുതിയ രീതിയിൽ ഉപയോഗിക്കുന്നതിനാൽ ഡ്രീംഫ്യൂഷന്റെ ഔട്ട്പുട്ട് മതിയാകുന്നതാണ്, ഗവേഷകർ കുറച്ച് പരിമിതികൾ രേഖപ്പെടുത്തിയിട്ടുണ്ട്.
SDS ലോസ് ഫംഗ്ഷൻ ഓവർസാച്ചുറേറ്റഡ്, ഓവർ-സ്മൂത്ത് ഫലങ്ങൾ ഉണ്ടാക്കുന്നതായി നിരീക്ഷിക്കപ്പെട്ടിട്ടുണ്ട്. ഔട്ട്പുട്ടുകളിൽ കാണപ്പെടുന്ന അസ്വാഭാവിക കളറിംഗിലും കൃത്യമായ വിശദാംശങ്ങളുടെ അഭാവത്തിലും നിങ്ങൾക്ക് ഇത് നിരീക്ഷിക്കാനാകും.
64 x 64 പിക്സൽ ആയ ഇമേജൻ മോഡൽ ഔട്ട്പുട്ടിന്റെ റെസല്യൂഷനാൽ DreamFusion അൽഗോരിതം പരിമിതപ്പെടുത്തിയിരിക്കുന്നു. ഇത് സമന്വയിപ്പിച്ച മോഡലുകൾക്ക് സൂക്ഷ്മമായ വിശദാംശങ്ങൾ ഇല്ലാത്തതിലേക്ക് നയിക്കുന്നു.
അവസാനമായി, 3D ഡാറ്റയിൽ നിന്ന് 2D മോഡലുകൾ സമന്വയിപ്പിക്കുന്നതിൽ അന്തർലീനമായ ഒരു വെല്ലുവിളി ഉണ്ടെന്ന് ഗവേഷകർ അഭിപ്രായപ്പെട്ടു. ഒരു കൂട്ടം 3D ഇമേജുകളിൽ നിന്ന് നമുക്ക് സൃഷ്ടിക്കാൻ കഴിയുന്ന നിരവധി 2D മോഡലുകൾ ഉണ്ട്, ഇത് ഒപ്റ്റിമൈസേഷൻ വളരെ ബുദ്ധിമുട്ടുള്ളതും അവ്യക്തവുമാക്കുന്നു.
തീരുമാനം
ഡ്രീംഫ്യൂഷന്റെ 3D റെൻഡറിംഗുകൾ വളരെ നന്നായി പ്രവർത്തിക്കുന്നത് ടെക്സ്റ്റ്-ടു-ഇമേജ് ഡിഫ്യൂഷൻ മോഡലുകൾക്ക് ഏത് വസ്തുവും അല്ലെങ്കിൽ ദൃശ്യവും സൃഷ്ടിക്കുന്നതിനുള്ള കഴിവാണ്. 3D പരിശീലന ഡാറ്റയില്ലാതെ ഒരു ന്യൂറൽ നെറ്റ്വർക്കിന് 3D സ്പെയ്സിലെ ഒരു രംഗം എങ്ങനെ മനസ്സിലാക്കാൻ കഴിയും എന്നത് ശ്രദ്ധേയമാണ്. വായിക്കാൻ ഞാൻ ശുപാർശ ചെയ്യുന്നു മുഴുവൻ പേപ്പർ DreamFusion അൽഗോരിതത്തിന്റെ സാങ്കേതിക വിശദാംശങ്ങളെക്കുറിച്ച് കൂടുതലറിയാൻ.
ഫോട്ടോ-റിയലിസ്റ്റിക് 3D മോഡലുകൾ സൃഷ്ടിക്കാൻ ഈ സാങ്കേതികവിദ്യ മെച്ചപ്പെടുമെന്ന് പ്രതീക്ഷിക്കുന്നു. AI- സൃഷ്ടിച്ച പരിതസ്ഥിതികൾ ഉപയോഗിക്കുന്ന മുഴുവൻ വീഡിയോ ഗെയിമുകളും അല്ലെങ്കിൽ സിമുലേഷനുകളും സങ്കൽപ്പിക്കുക. ഇമ്മേഴ്സീവ് 3D ലോകങ്ങൾ സൃഷ്ടിക്കുന്നതിന് വീഡിയോ ഗെയിം ഡെവലപ്പർമാർക്ക് ഇത് പ്രവേശന തടസ്സം കുറയ്ക്കും!
ഭാവിയിൽ ടെക്സ്റ്റ്-ടു-3D മോഡലുകൾ എന്ത് പങ്ക് വഹിക്കുമെന്ന് നിങ്ങൾ കരുതുന്നു?
നിങ്ങളുടെ അഭിപ്രായങ്ങൾ രേഖപ്പെടുത്തുക