તમે સાંભળ્યું હશે કે પાછલા કેટલાક વર્ષોમાં ટેક્સ્ટ-ટુ-ઇમેજ AI મોડલ્સ કેટલા શક્તિશાળી બન્યા છે. પરંતુ શું તમે જાણો છો કે આ જ ટેક્નોલોજી 2D થી 3D સુધી લીપ કરવામાં મદદ કરી શકે છે?
આજના ડિજિટલ લેન્ડસ્કેપમાં AI-જનરેટેડ 3D મોડલ્સનો વ્યાપક ઉપયોગ થાય છે. વિડીયો ગેમ્સ અને ફિલ્મ કોમ્પ્યુટર-જનરેટેડ દ્રશ્યો બનાવવા માટે 3D અસ્કયામતો બનાવવા માટે કુશળ 3D કલાકારો અને બ્લેન્ડર જેવા મોડેલિંગ સોફ્ટવેર પર આધાર રાખે છે.
જો કે, શું એ શક્ય છે કે ઉદ્યોગ ઓછા પ્રયત્નો સાથે 3D એસેટ્સ બનાવવા માટે મશીન લર્નિંગનો ઉપયોગ કરી શકે, જેમ કે આજે 2D કલાકારો કેવી રીતે DALL-E જેવી ટેક્નોલોજી અપનાવવાનું શરૂ કરી રહ્યા છે અને મિડજર્ની?
આ લેખ એક નવલકથા અલ્ગોરિધમનું અન્વેષણ કરશે જે વર્તમાનનો ઉપયોગ કરીને અસરકારક ટેક્સ્ટ-ટુ-3ડી મોડલ બનાવવાનો પ્રયાસ કરે છે. પ્રસરણ મોડેલો.
શું છે ડ્રીમફ્યુઝન?
3D અસ્કયામતો સીધી જ જનરેટ કરતી પ્રસરણ મૉડલ બનાવવાની સાથેનો એક મુખ્ય મુદ્દો એ છે કે ત્યાં ફક્ત ઘણો 3D ડેટા ઉપલબ્ધ નથી. ઈન્ટરનેટ પર મળેલી ઈમેજીસના વિશાળ ડેટાસેટને કારણે 2D ડિફ્યુઝન મોડલ્સ એટલા શક્તિશાળી બની ગયા છે. 3D અસ્કયામતો સાથે આ જ કહી શકાતું નથી.
કેટલીક 3D જનરેટિવ તકનીકો 2D ડેટાની આ વિપુલતાનો લાભ લઈને ડેટાના અભાવને દૂર કરે છે.
ડ્રીમફ્યુઝન એક જનરેટિવ મોડલ છે જે આપેલા ટેક્સ્ટ વર્ણનના આધારે 3D મોડલ બનાવી શકે છે. ડ્રીમફ્યુઝન મોડલ ટેક્સ્ટ પ્રોમ્પ્ટ્સમાંથી વાસ્તવિક ત્રિ-પરિમાણીય મોડલ જનરેટ કરવા માટે પૂર્વ-પ્રશિક્ષિત ટેક્સ્ટ-ટુ-ઇમેજ ડિફ્યુઝન મોડલનો ઉપયોગ કરે છે.
3D પ્રશિક્ષણ ડેટા ન હોવા છતાં, આ અભિગમે ઉચ્ચ-વફાદારી દેખાવ અને ઊંડાણ સાથે સુસંગત 3D સંપત્તિઓ જનરેટ કરી છે.
તે કેવી રીતે કામ કરે છે?
ડ્રીમફ્યુઝન અલ્ગોરિધમમાં બે મુખ્ય મોડલનો સમાવેશ થાય છે: 2D ડિફ્યુઝન મોડલ અને એ મજ્જાતંતુકીય નેટવર્ક જે 2D ઈમેજીસને 3D દ્રશ્યમાં કન્વર્ટ કરી શકે છે.
Google નું Imagen ટેક્સ્ટ-ટુ-ઇમેજ મોડલ
અલ્ગોરિધમનો પ્રથમ ભાગ પ્રસરણ મોડેલ છે. આ મોડેલ ટેક્સ્ટને ઇમેજમાં કન્વર્ટ કરવા માટે જવાબદાર છે.
ઇમેજેન એક પ્રસરણ મોડલ છે જે ચોક્કસ ઑબ્જેક્ટની ઇમેજ ભિન્નતાનો મોટો નમૂનો જનરેટ કરી શકે છે. આ કિસ્સામાં, અમારી ઇમેજ ભિન્નતાએ પ્રદાન કરેલ ઑબ્જેક્ટના તમામ સંભવિત ખૂણાઓને આવરી લેવા જોઈએ. ઉદાહરણ તરીકે, જો આપણે ઘોડાનું 3D મૉડલ જનરેટ કરવા માગીએ છીએ, તો અમને તમામ સંભવિત ખૂણાઓથી ઘોડાની 2D છબીઓ જોઈશે. અમારા અલ્ગોરિધમમાં આગલા મોડલ માટે શક્ય તેટલી વધુ માહિતી (રંગ, પ્રતિબિંબ, ઘનતા) પ્રદાન કરવા માટે Imagen નો ઉપયોગ કરવાનો ધ્યેય છે.
NeRF સાથે 3D મોડલ્સ બનાવવું
આગળ, ડ્રીમફ્યુઝન એ તરીકે ઓળખાતા મોડેલનો ઉપયોગ કરે છે ન્યુરલ રેડિયન્સ ફીલ્ડ અથવા જનરેટ કરેલ ઇમેજ સેટમાંથી ખરેખર 3D મોડલ બનાવવા માટે NeRF. NeRF 3D ઇમેજના ડેટાસેટને જોતાં જટિલ 2D દ્રશ્યો બનાવવામાં સક્ષમ છે.
ચાલો એ સમજવાનો પ્રયત્ન કરીએ કે NeRF કેવી રીતે કામ કરે છે.
મોડલનો ઉદ્દેશ્ય 2D ઈમેજીસના પ્રદાન કરેલ ડેટાસેટમાંથી ઑપ્ટિમાઇઝ કરેલ સતત વોલ્યુમેટ્રિક સીન ફંક્શન બનાવવાનો છે.
જો મોડેલ ફંક્શન બનાવે છે, તો ઇનપુટ અને આઉટપુટ શું છે?
સીન ફંક્શન ઇનપુટ તરીકે 3D લોકેશન અને 2D જોવાની દિશામાં લે છે. ફંક્શન પછી રંગ (RGB ના સ્વરૂપમાં) અને ચોક્કસ વોલ્યુમ ઘનતા આઉટપુટ કરે છે.
ચોક્કસ દ્રષ્ટિકોણથી 2D ઈમેજ જનરેટ કરવા માટે, મોડેલ 3D પોઈન્ટનો સમૂહ જનરેટ કરશે અને રંગ અને વોલ્યુમ ઘનતા મૂલ્યોનો સમૂહ પરત કરવા માટે દ્રશ્ય કાર્ય દ્વારા તે બિંદુઓને ચલાવશે. વોલ્યુમ રેન્ડરીંગ તકનીકો પછી તે મૂલ્યોને 2D ઇમેજ આઉટપુટમાં રૂપાંતરિત કરશે.
NeRF અને 2D ડિફ્યુઝન મોડલ્સનો એકસાથે ઉપયોગ કરવો
હવે જ્યારે આપણે જાણીએ છીએ કે NeRF કેવી રીતે કાર્ય કરે છે, ચાલો જોઈએ કે આ મોડેલ કેવી રીતે અમારી જનરેટ કરેલી છબીઓમાંથી ચોક્કસ 3D મોડલ જનરેટ કરી શકે છે.
દરેક પ્રદાન કરેલ ટેક્સ્ટ પ્રોમ્પ્ટ માટે, ડ્રીમફ્યુઝન શરૂઆતથી અવ્યવસ્થિત રીતે શરૂ કરાયેલ NeRF ને તાલીમ આપે છે. દરેક પુનરાવર્તન ગોળાકાર કોઓર્ડિનેટ્સના સમૂહમાં રેન્ડમ કેમેરાની સ્થિતિ પસંદ કરે છે. કાચના ગોળામાં બંધાયેલ મોડેલ વિશે વિચારો. દરેક વખતે જ્યારે અમે અમારા 3D મોડલની નવી ઈમેજ જનરેટ કરીએ છીએ, ત્યારે અમે અમારા આઉટપુટના વેન્ટેજ પોઈન્ટ તરીકે અમારા ક્ષેત્રમાં એક રેન્ડમ પોઈન્ટ પસંદ કરીશું. ડ્રીમફ્યુઝન રેન્ડમ લાઇટ પોઝિશન પણ પસંદ કરશે l રેન્ડરીંગ માટે વાપરવા માટે.
એકવાર અમારી પાસે કૅમેરા અને લાઇટ પોઝિશન થઈ જાય, એક NeRF મૉડલ રેન્ડર કરવામાં આવશે. ડ્રીમફ્યુઝન પણ રંગીન રેન્ડર, ટેક્સચરલેસ રેન્ડર અને કોઈપણ શેડિંગ વિના આલ્બેડોના રેન્ડરિંગ વચ્ચે રેન્ડમલી પસંદ કરશે.
અમે અગાઉ ઉલ્લેખ કર્યો છે કે અમે ઇચ્છીએ છીએ કે અમારું ટેક્સ્ટ-ટુ-ઇમેજ મોડેલ (ઇમેજિન) પ્રતિનિધિ નમૂના બનાવવા માટે પૂરતી છબીઓ ઉત્પન્ન કરે.
ડ્રીમફ્યુઝન આ કેવી રીતે પરિપૂર્ણ કરે છે?
ડ્રીમફ્યુઝન ઇચ્છિત ખૂણાઓ હાંસલ કરવા માટે ઇનપુટ પ્રોમ્પ્ટમાં થોડો ફેરફાર કરે છે. ઉદાહરણ તરીકે, અમે અમારા પ્રોમ્પ્ટમાં "ઓવરહેડ વ્યૂ" ઉમેરીને ઉચ્ચ એલિવેશન એંગલ હાંસલ કરી શકીએ છીએ. આપણે “ફ્રન્ટ વ્યૂ”, “સાઇડ વ્યૂ” અને “બેક વ્યૂ” જેવા શબ્દસમૂહો જોડીને અન્ય એંગલ જનરેટ કરી શકીએ છીએ.
દ્રશ્યો વારંવાર રેન્ડમ કેમેરા પોઝિશનથી રેન્ડર કરવામાં આવે છે. આ રેન્ડરિંગ્સ પછી સ્કોર ડિસ્ટિલેશન નુકશાન કાર્યમાંથી પસાર થાય છે. એક સરળ ઢાળ વંશનો અભિગમ ધીમે ધીમે સુધારશે 3D મોડેલ જ્યાં સુધી તે ટેક્સ્ટ દ્વારા વર્ણવેલ દ્રશ્ય સાથે મેળ ન ખાય.
એકવાર અમે NeRF નો ઉપયોગ કરીને 3D મોડેલ રેન્ડર કરી લીધા પછી, અમે તેનો ઉપયોગ કરી શકીએ છીએ માર્ચિંગ ક્યુબ્સ અલ્ગોરિધમ અમારા મોડેલના 3D મેશને આઉટપુટ કરવા માટે. આ મેશ પછી લોકપ્રિય 3D રેન્ડરર્સ અથવા મોડેલિંગ સોફ્ટવેરમાં આયાત કરી શકાય છે.
મર્યાદાઓ
જ્યારે ડ્રીમફ્યુઝનનું આઉટપુટ પર્યાપ્ત પ્રભાવશાળી છે કારણ કે તે હાલના ટેક્સ્ટ-ટુ-ઇમેજ ડિફ્યુઝન મોડલ્સનો ઉપયોગ નવીન રીતે કરે છે, સંશોધકોએ કેટલીક મર્યાદાઓ નોંધી છે.
SDS નુકશાન કાર્ય ઓવરસેચ્યુરેટેડ અને ઓવર સ્મૂથ પરિણામો ઉત્પન્ન કરવા માટે જોવામાં આવ્યું છે. તમે આને અકુદરતી રંગ અને આઉટપુટમાં મળેલી ચોક્કસ વિગતોના અભાવમાં જોઈ શકો છો.
ડ્રીમફ્યુઝન અલ્ગોરિધમ પણ ઈમેજેન મોડેલ આઉટપુટના રિઝોલ્યુશન દ્વારા મર્યાદિત છે, જે 64 x 64 પિક્સેલ્સ છે. આનાથી સંશ્લેષિત મોડલ્સમાં વધુ સારી વિગતોનો અભાવ હોય છે.
છેલ્લે, સંશોધકોએ નોંધ્યું છે કે 3D ડેટામાંથી 2D મોડલ્સનું સંશ્લેષણ કરવામાં એક સહજ પડકાર છે. ત્યાં ઘણા સંભવિત 3D મોડલ્સ છે જે અમે 2D ઈમેજોના સમૂહમાંથી જનરેટ કરી શકીએ છીએ, જે ઑપ્ટિમાઇઝેશનને ખૂબ મુશ્કેલ અને અસ્પષ્ટ પણ બનાવે છે.
ઉપસંહાર
ડ્રીમફ્યુઝનના 3D રેન્ડરિંગ્સ કોઈપણ ઑબ્જેક્ટ અથવા દ્રશ્ય બનાવવા માટે ટેક્સ્ટ-ટુ-ઇમેજ ડિફ્યુઝન મોડલ્સની ક્ષમતાને કારણે ખૂબ સારી રીતે કાર્ય કરે છે. તે પ્રભાવશાળી છે કે કેવી રીતે ન્યુરલ નેટવર્ક કોઈપણ 3D તાલીમ ડેટા વિના 3D સ્પેસમાં દ્રશ્યને સમજી શકે છે. હું વાંચવાની ભલામણ કરું છું આખો કાગળ DreamFusion અલ્ગોરિધમની તકનીકી વિગતો વિશે વધુ જાણવા માટે.
આશા છે કે, આ ટેક્નોલોજી આખરે ફોટો-રિયાલિસ્ટિક 3D મોડલ્સ બનાવવા માટે સુધારશે. સમગ્ર વિડિયો ગેમ્સ અથવા સિમ્યુલેશનની કલ્પના કરો જે AI-જનરેટેડ વાતાવરણનો ઉપયોગ કરે છે. તે ઇમર્સિવ 3D વિશ્વ બનાવવા માટે વિડિઓ ગેમ વિકાસકર્તાઓ માટે પ્રવેશના અવરોધને ઘટાડી શકે છે!
તમને લાગે છે કે ટેક્સ્ટ-ટુ-3ડી મોડલ્સ ભવિષ્યમાં શું ભૂમિકા ભજવશે?
એક જવાબ છોડો