ડ્રીમફ્યુઝન - ટેક્સ્ટમાંથી 3D મોડલ્સ જનરેટ કરવું

સામગ્રીનું કોષ્ટક[છુપાવો][બતાવો]

ડ્રીમફ્યુઝન શું છે?
તે કેવી રીતે કામ કરે છે?+-
મર્યાદાઓ
ઉપસંહાર

તમે સાંભળ્યું હશે કે પાછલા કેટલાક વર્ષોમાં ટેક્સ્ટ-ટુ-ઇમેજ AI મોડલ્સ કેટલા શક્તિશાળી બન્યા છે. પરંતુ શું તમે જાણો છો કે આ જ ટેક્નોલોજી 2D થી 3D સુધી લીપ કરવામાં મદદ કરી શકે છે?

આજના ડિજિટલ લેન્ડસ્કેપમાં AI-જનરેટેડ 3D મોડલ્સનો વ્યાપક ઉપયોગ થાય છે. વિડીયો ગેમ્સ અને ફિલ્મ કોમ્પ્યુટર-જનરેટેડ દ્રશ્યો બનાવવા માટે 3D અસ્કયામતો બનાવવા માટે કુશળ 3D કલાકારો અને બ્લેન્ડર જેવા મોડેલિંગ સોફ્ટવેર પર આધાર રાખે છે.

જો કે, શું એ શક્ય છે કે ઉદ્યોગ ઓછા પ્રયત્નો સાથે 3D એસેટ્સ બનાવવા માટે મશીન લર્નિંગનો ઉપયોગ કરી શકે, જેમ કે આજે 2D કલાકારો કેવી રીતે DALL-E જેવી ટેક્નોલોજી અપનાવવાનું શરૂ કરી રહ્યા છે અને મિડજર્ની?

આ લેખ એક નવલકથા અલ્ગોરિધમનું અન્વેષણ કરશે જે વર્તમાનનો ઉપયોગ કરીને અસરકારક ટેક્સ્ટ-ટુ-3ડી મોડલ બનાવવાનો પ્રયાસ કરે છે. પ્રસરણ મોડેલો.

શું છે ડ્રીમફ્યુઝન?

3D અસ્કયામતો સીધી જ જનરેટ કરતી પ્રસરણ મૉડલ બનાવવાની સાથેનો એક મુખ્ય મુદ્દો એ છે કે ત્યાં ફક્ત ઘણો 3D ડેટા ઉપલબ્ધ નથી. ઈન્ટરનેટ પર મળેલી ઈમેજીસના વિશાળ ડેટાસેટને કારણે 2D ડિફ્યુઝન મોડલ્સ એટલા શક્તિશાળી બની ગયા છે. 3D અસ્કયામતો સાથે આ જ કહી શકાતું નથી.

કેટલીક 3D જનરેટિવ તકનીકો 2D ડેટાની આ વિપુલતાનો લાભ લઈને ડેટાના અભાવને દૂર કરે છે.

ડ્રીમફ્યુઝન આપેલ ટેક્સ્ટ વર્ણનમાંથી સુસંગત 3D મોડલ બનાવે છે

ડ્રીમફ્યુઝન એક જનરેટિવ મોડલ છે જે આપેલા ટેક્સ્ટ વર્ણનના આધારે 3D મોડલ બનાવી શકે છે. ડ્રીમફ્યુઝન મોડલ ટેક્સ્ટ પ્રોમ્પ્ટ્સમાંથી વાસ્તવિક ત્રિ-પરિમાણીય મોડલ જનરેટ કરવા માટે પૂર્વ-પ્રશિક્ષિત ટેક્સ્ટ-ટુ-ઇમેજ ડિફ્યુઝન મોડલનો ઉપયોગ કરે છે.

3D પ્રશિક્ષણ ડેટા ન હોવા છતાં, આ અભિગમે ઉચ્ચ-વફાદારી દેખાવ અને ઊંડાણ સાથે સુસંગત 3D સંપત્તિઓ જનરેટ કરી છે.

તે કેવી રીતે કામ કરે છે?

ડ્રીમફ્યુઝન અલ્ગોરિધમમાં બે મુખ્ય મોડલનો સમાવેશ થાય છે: 2D ડિફ્યુઝન મોડલ અને એ મજ્જાતંતુકીય નેટવર્ક જે 2D ઈમેજીસને 3D દ્રશ્યમાં કન્વર્ટ કરી શકે છે.

Google નું Imagen ટેક્સ્ટ-ટુ-ઇમેજ મોડલ

અલ્ગોરિધમનો પ્રથમ ભાગ પ્રસરણ મોડેલ છે. આ મોડેલ ટેક્સ્ટને ઇમેજમાં કન્વર્ટ કરવા માટે જવાબદાર છે.

ઇમેજેન એક પ્રસરણ મોડલ છે જે ચોક્કસ ઑબ્જેક્ટની ઇમેજ ભિન્નતાનો મોટો નમૂનો જનરેટ કરી શકે છે. આ કિસ્સામાં, અમારી ઇમેજ ભિન્નતાએ પ્રદાન કરેલ ઑબ્જેક્ટના તમામ સંભવિત ખૂણાઓને આવરી લેવા જોઈએ. ઉદાહરણ તરીકે, જો આપણે ઘોડાનું 3D મૉડલ જનરેટ કરવા માગીએ છીએ, તો અમને તમામ સંભવિત ખૂણાઓથી ઘોડાની 2D છબીઓ જોઈશે. અમારા અલ્ગોરિધમમાં આગલા મોડલ માટે શક્ય તેટલી વધુ માહિતી (રંગ, પ્રતિબિંબ, ઘનતા) પ્રદાન કરવા માટે Imagen નો ઉપયોગ કરવાનો ધ્યેય છે.

ડ્રીમફ્યુઝન ટેક્સ્ટમાંથી ઇમેજ જનરેટ કરવા માટે Google ના Imagen નો ઉપયોગ કરે છે

NeRF સાથે 3D મોડલ્સ બનાવવું

આગળ, ડ્રીમફ્યુઝન એ તરીકે ઓળખાતા મોડેલનો ઉપયોગ કરે છે ન્યુરલ રેડિયન્સ ફીલ્ડ અથવા જનરેટ કરેલ ઇમેજ સેટમાંથી ખરેખર 3D મોડલ બનાવવા માટે NeRF. NeRF 3D ઇમેજના ડેટાસેટને જોતાં જટિલ 2D દ્રશ્યો બનાવવામાં સક્ષમ છે.

ચાલો એ સમજવાનો પ્રયત્ન કરીએ કે NeRF કેવી રીતે કામ કરે છે.

મોડલનો ઉદ્દેશ્ય 2D ઈમેજીસના પ્રદાન કરેલ ડેટાસેટમાંથી ઑપ્ટિમાઇઝ કરેલ સતત વોલ્યુમેટ્રિક સીન ફંક્શન બનાવવાનો છે.

જો મોડેલ ફંક્શન બનાવે છે, તો ઇનપુટ અને આઉટપુટ શું છે?

સીન ફંક્શન ઇનપુટ તરીકે 3D લોકેશન અને 2D જોવાની દિશામાં લે છે. ફંક્શન પછી રંગ (RGB ના સ્વરૂપમાં) અને ચોક્કસ વોલ્યુમ ઘનતા આઉટપુટ કરે છે.

ચોક્કસ દ્રષ્ટિકોણથી 2D ઈમેજ જનરેટ કરવા માટે, મોડેલ 3D પોઈન્ટનો સમૂહ જનરેટ કરશે અને રંગ અને વોલ્યુમ ઘનતા મૂલ્યોનો સમૂહ પરત કરવા માટે દ્રશ્ય કાર્ય દ્વારા તે બિંદુઓને ચલાવશે. વોલ્યુમ રેન્ડરીંગ તકનીકો પછી તે મૂલ્યોને 2D ઇમેજ આઉટપુટમાં રૂપાંતરિત કરશે.

ડ્રીમફ્યુઝન એવા ફંક્શન જનરેટ કરવા માટે NeRF મોડલનો ઉપયોગ કરે છે જે દ્રશ્યના નવા દૃશ્યો બનાવે છે

NeRF અને 2D ડિફ્યુઝન મોડલ્સનો એકસાથે ઉપયોગ કરવો

હવે જ્યારે આપણે જાણીએ છીએ કે NeRF કેવી રીતે કાર્ય કરે છે, ચાલો જોઈએ કે આ મોડેલ કેવી રીતે અમારી જનરેટ કરેલી છબીઓમાંથી ચોક્કસ 3D મોડલ જનરેટ કરી શકે છે.

દરેક પ્રદાન કરેલ ટેક્સ્ટ પ્રોમ્પ્ટ માટે, ડ્રીમફ્યુઝન શરૂઆતથી અવ્યવસ્થિત રીતે શરૂ કરાયેલ NeRF ને તાલીમ આપે છે. દરેક પુનરાવર્તન ગોળાકાર કોઓર્ડિનેટ્સના સમૂહમાં રેન્ડમ કેમેરાની સ્થિતિ પસંદ કરે છે. કાચના ગોળામાં બંધાયેલ મોડેલ વિશે વિચારો. દરેક વખતે જ્યારે અમે અમારા 3D મોડલની નવી ઈમેજ જનરેટ કરીએ છીએ, ત્યારે અમે અમારા આઉટપુટના વેન્ટેજ પોઈન્ટ તરીકે અમારા ક્ષેત્રમાં એક રેન્ડમ પોઈન્ટ પસંદ કરીશું. ડ્રીમફ્યુઝન રેન્ડમ લાઇટ પોઝિશન પણ પસંદ કરશે l રેન્ડરીંગ માટે વાપરવા માટે.

એકવાર અમારી પાસે કૅમેરા અને લાઇટ પોઝિશન થઈ જાય, એક NeRF મૉડલ રેન્ડર કરવામાં આવશે. ડ્રીમફ્યુઝન પણ રંગીન રેન્ડર, ટેક્સચરલેસ રેન્ડર અને કોઈપણ શેડિંગ વિના આલ્બેડોના રેન્ડરિંગ વચ્ચે રેન્ડમલી પસંદ કરશે.

ડ્રીમફ્યુઝન વિવિધ એંગલથી ઈમેજો આઉટપુટ કરે છે

અમે અગાઉ ઉલ્લેખ કર્યો છે કે અમે ઇચ્છીએ છીએ કે અમારું ટેક્સ્ટ-ટુ-ઇમેજ મોડેલ (ઇમેજિન) પ્રતિનિધિ નમૂના બનાવવા માટે પૂરતી છબીઓ ઉત્પન્ન કરે.

ડ્રીમફ્યુઝન આ કેવી રીતે પરિપૂર્ણ કરે છે?

ડ્રીમફ્યુઝન ઇચ્છિત ખૂણાઓ હાંસલ કરવા માટે ઇનપુટ પ્રોમ્પ્ટમાં થોડો ફેરફાર કરે છે. ઉદાહરણ તરીકે, અમે અમારા પ્રોમ્પ્ટમાં "ઓવરહેડ વ્યૂ" ઉમેરીને ઉચ્ચ એલિવેશન એંગલ હાંસલ કરી શકીએ છીએ. આપણે “ફ્રન્ટ વ્યૂ”, “સાઇડ વ્યૂ” અને “બેક વ્યૂ” જેવા શબ્દસમૂહો જોડીને અન્ય એંગલ જનરેટ કરી શકીએ છીએ.

દ્રશ્યો વારંવાર રેન્ડમ કેમેરા પોઝિશનથી રેન્ડર કરવામાં આવે છે. આ રેન્ડરિંગ્સ પછી સ્કોર ડિસ્ટિલેશન નુકશાન કાર્યમાંથી પસાર થાય છે. એક સરળ ઢાળ વંશનો અભિગમ ધીમે ધીમે સુધારશે 3D મોડેલ જ્યાં સુધી તે ટેક્સ્ટ દ્વારા વર્ણવેલ દ્રશ્ય સાથે મેળ ન ખાય.

એકવાર અમે NeRF નો ઉપયોગ કરીને 3D મોડેલ રેન્ડર કરી લીધા પછી, અમે તેનો ઉપયોગ કરી શકીએ છીએ માર્ચિંગ ક્યુબ્સ અલ્ગોરિધમ અમારા મોડેલના 3D મેશને આઉટપુટ કરવા માટે. આ મેશ પછી લોકપ્રિય 3D રેન્ડરર્સ અથવા મોડેલિંગ સોફ્ટવેરમાં આયાત કરી શકાય છે.

મર્યાદાઓ

જ્યારે ડ્રીમફ્યુઝનનું આઉટપુટ પર્યાપ્ત પ્રભાવશાળી છે કારણ કે તે હાલના ટેક્સ્ટ-ટુ-ઇમેજ ડિફ્યુઝન મોડલ્સનો ઉપયોગ નવીન રીતે કરે છે, સંશોધકોએ કેટલીક મર્યાદાઓ નોંધી છે.

SDS નુકશાન કાર્ય ઓવરસેચ્યુરેટેડ અને ઓવર સ્મૂથ પરિણામો ઉત્પન્ન કરવા માટે જોવામાં આવ્યું છે. તમે આને અકુદરતી રંગ અને આઉટપુટમાં મળેલી ચોક્કસ વિગતોના અભાવમાં જોઈ શકો છો.

ડ્રીમફ્યુઝન અલ્ગોરિધમ પણ ઈમેજેન મોડેલ આઉટપુટના રિઝોલ્યુશન દ્વારા મર્યાદિત છે, જે 64 x 64 પિક્સેલ્સ છે. આનાથી સંશ્લેષિત મોડલ્સમાં વધુ સારી વિગતોનો અભાવ હોય છે.

છેલ્લે, સંશોધકોએ નોંધ્યું છે કે 3D ડેટામાંથી 2D મોડલ્સનું સંશ્લેષણ કરવામાં એક સહજ પડકાર છે. ત્યાં ઘણા સંભવિત 3D મોડલ્સ છે જે અમે 2D ઈમેજોના સમૂહમાંથી જનરેટ કરી શકીએ છીએ, જે ઑપ્ટિમાઇઝેશનને ખૂબ મુશ્કેલ અને અસ્પષ્ટ પણ બનાવે છે.

ઉપસંહાર

ડ્રીમફ્યુઝનના 3D રેન્ડરિંગ્સ કોઈપણ ઑબ્જેક્ટ અથવા દ્રશ્ય બનાવવા માટે ટેક્સ્ટ-ટુ-ઇમેજ ડિફ્યુઝન મોડલ્સની ક્ષમતાને કારણે ખૂબ સારી રીતે કાર્ય કરે છે. તે પ્રભાવશાળી છે કે કેવી રીતે ન્યુરલ નેટવર્ક કોઈપણ 3D તાલીમ ડેટા વિના 3D સ્પેસમાં દ્રશ્યને સમજી શકે છે. હું વાંચવાની ભલામણ કરું છું આખો કાગળ DreamFusion અલ્ગોરિધમની તકનીકી વિગતો વિશે વધુ જાણવા માટે.

આશા છે કે, આ ટેક્નોલોજી આખરે ફોટો-રિયાલિસ્ટિક 3D મોડલ્સ બનાવવા માટે સુધારશે. સમગ્ર વિડિયો ગેમ્સ અથવા સિમ્યુલેશનની કલ્પના કરો જે AI-જનરેટેડ વાતાવરણનો ઉપયોગ કરે છે. તે ઇમર્સિવ 3D વિશ્વ બનાવવા માટે વિડિઓ ગેમ વિકાસકર્તાઓ માટે પ્રવેશના અવરોધને ઘટાડી શકે છે!

તમને લાગે છે કે ટેક્સ્ટ-ટુ-3ડી મોડલ્સ ભવિષ્યમાં શું ભૂમિકા ભજવશે?

ડ્રીમફ્યુઝન - ટેક્સ્ટમાંથી 3D મોડલ્સ જનરેટ કરવું

ડ્રીમફ્યુઝન - ટેક્સ્ટમાંથી 3D મોડલ્સ જનરેટ કરવું

શું છે ડ્રીમફ્યુઝન?

તે કેવી રીતે કામ કરે છે?

Google નું Imagen ટેક્સ્ટ-ટુ-ઇમેજ મોડલ

NeRF સાથે 3D મોડલ્સ બનાવવું

NeRF અને 2D ડિફ્યુઝન મોડલ્સનો એકસાથે ઉપયોગ કરવો

મર્યાદાઓ

ઉપસંહાર

વિશે ડીયોન મેનોર

HashDork પર વધુ લેખો:

તમારા AI માં આભાસને કેવી રીતે ઘટાડવો

કોલોસીયન વિ હેજેન

આ ફ્યુચર ટેક ન્યૂઝલેટર ગમતું નથી

ડ્રીમફ્યુઝન - ટેક્સ્ટમાંથી 3D મોડલ્સ જનરેટ કરવું

શું છે ડ્રીમફ્યુઝન?

તે કેવી રીતે કામ કરે છે?

Google નું Imagen ટેક્સ્ટ-ટુ-ઇમેજ મોડલ

NeRF સાથે 3D મોડલ્સ બનાવવું

NeRF અને 2D ડિફ્યુઝન મોડલ્સનો એકસાથે ઉપયોગ કરવો

મર્યાદાઓ

ઉપસંહાર

વિશે ડીયોન મેનોર

HashDork પર વધુ લેખો:

તમારા AI માં આભાસને કેવી રીતે ઘટાડવો

સોશિયલ મીડિયા માટે 10 શ્રેષ્ઠ AI સાધનો

કોલોસીયન વિ હેજેન

10 શ્રેષ્ઠ AI એનિમેટેડ વિડિઓ મેકર ટૂલ્સ

રીડર અસર

એક જવાબ છોડો જવાબ રદ કરો

આ ફ્યુચર ટેક ન્યૂઝલેટર ગમતું નથી