የጽሑፍ-ወደ-ምስል AI ሞዴሎች ባለፉት ሁለት ዓመታት ውስጥ ምን ያህል ኃይለኛ እንደነበሩ ሰምተህ ይሆናል። ግን ተመሳሳይ ቴክኖሎጂ ከ 2D ወደ 3D ለመዝለል እንደሚረዳ ያውቃሉ?
በ AI የመነጩ 3D ሞዴሎች ዛሬ ባለው ዲጂታል መልክዓ ምድር ሰፊ የአጠቃቀም ጉዳይ አላቸው። ምስለ - ልግፃት እና ፊልም በኮምፒዩተር የተፈጠሩ ትዕይንቶችን ለመሙላት 3D ንብረቶችን ለመፍጠር በሰለጠነ የ3D አርቲስቶች እና እንደ Blender ያሉ ሞዴሊንግ ሶፍትዌሮች ይተማመናሉ።
ይሁን እንጂ ኢንዱስትሪው የማሽን መማሪያን ተጠቅሞ 3D ንብረቶችን በትንሽ ጥረት መፍጠር ይቻል ይሆን፣ ልክ ዛሬ የ2D አርቲስቶች እንደ DALL-E እና የመሳሰሉ ቴክኖሎጂዎችን መቀበል እንደጀመሩት አይነት። መካከለኛ ጉዞ?
ይህ መጣጥፍ ነባሩን በመጠቀም ውጤታማ የሆነ የጽሁፍ-ወደ-3D ሞዴል ለመፍጠር የሚሞክር ልቦለድ ስልተ-ቀመር ይዳስሳል የስርጭት ሞዴሎች.
ምንድነው Dreamfusion?
የ3-ል ንብረቶችን በቀጥታ የሚያመነጭ የስርጭት ሞዴል ለመፍጠር አንድ ትልቅ ጉዳይ በቀላሉ ብዙ የ3-ል መረጃ አለመኖሩ ነው። በበይነመረቡ ላይ ባለው ሰፊ የውሂብ ስብስብ ምክንያት 2D ስርጭት ሞዴሎች በጣም ኃይለኛ ሆነዋል። በ3-ል ንብረቶች ተመሳሳይ ነገር ማለት አይቻልም።
አንዳንድ የ3-ል አመንጪ ቴክኒኮች ይህንን የተትረፈረፈ 2D ውሂብ በመጠቀም በዚህ የመረጃ እጥረት ዙሪያ ይሰራሉ።
DreamFusion በቀረበው የጽሁፍ መግለጫ ላይ በመመስረት 3D ሞዴሎችን መፍጠር የሚችል አመንጭ ሞዴል ነው። የ DreamFusion ሞዴል ከጽሑፍ መጠየቂያዎች ተጨባጭ ባለ ሶስት አቅጣጫዊ ሞዴሎችን ለማመንጨት አስቀድሞ የሰለጠነ የጽሑፍ-ወደ-ምስል ስርጭት ሞዴል ይጠቀማል።
ምንም እንኳን የ3-ል የሥልጠና መረጃ ባይኖረውም ይህ አካሄድ ከፍተኛ ታማኝነት ያለው ገጽታ እና ጥልቀት ያለው ወጥ የሆነ 3D ንብረቶችን ፈጥሯል።
እንዴት ነው የሚሰራው?
DreamFusion ስልተ ቀመር ሁለት ዋና ሞዴሎችን ያቀፈ ነው፡- 2D ስርጭት ሞዴል እና ሀ የነርቭ ኔትወርክ 2D ምስሎችን ወደ የተቀናጀ 3D ትእይንት ሊለውጥ ይችላል።
የጉግል ምስልን ከጽሑፍ ወደ ምስል ሞዴል
የአልጎሪዝም የመጀመሪያው ክፍል ስርጭት ሞዴል ነው. ይህ ሞዴል ጽሑፍን ወደ ምስሎች የመቀየር ኃላፊነት አለበት።
Imagen የአንድ የተወሰነ ነገር የምስል ልዩነቶች ትልቅ ናሙና ሊያመነጭ የሚችል ስርጭት ሞዴል ነው። በዚህ ሁኔታ, የእኛ የምስል ልዩነቶች የቀረበውን ነገር ሁሉንም ሊሆኑ የሚችሉ ማዕዘኖች መሸፈን አለባቸው. ለምሳሌ፣ የፈረስ 3 ዲ አምሳያ ማመንጨት ከፈለግን፣ ከሁሉም አቅጣጫዎች የፈረስ 2D ምስሎችን እንፈልጋለን። ግቡ በአልጎሪዝም ውስጥ ለቀጣዩ ሞዴል በተቻለ መጠን ብዙ መረጃዎችን (ቀለሞችን ፣ ነጸብራቆችን ፣ ጥንካሬን) ለማቅረብ ኢማንን መጠቀም ነው።
ከ NeRF ጋር 3D ሞዴሎችን መፍጠር
በመቀጠል ድሪምፊሽን ሀ ተብሎ የሚጠራውን ሞዴል ይጠቀማል የነርቭ ራዲየስ መስክ ወይም NeRF የ 3 ዲ አምሳያውን ከተፈጠረው የምስል ስብስብ በትክክል ለመፍጠር። NeRFs የ3D ምስሎች የውሂብ ስብስብ ከተሰጣቸው ውስብስብ 2D ትዕይንቶችን መፍጠር ይችላሉ።
NeRF እንዴት እንደሚሰራ ለመረዳት እንሞክር።
ሞዴሉ ከቀረበው የ2D ምስሎች የውሂብ ስብስብ የተሻሻለ ቀጣይነት ያለው የድምጽ መጠን ትዕይንት ተግባር ለመፍጠር ያለመ ነው።
ሞዴሉ ተግባርን ከፈጠረ, ግቤት እና ውፅዓት ምንድን ናቸው?
የትዕይንት ተግባር በ3-ል ቦታ እና በ2ዲ እይታ አቅጣጫ እንደ ግብአት ይወስዳል። ከዚያም ተግባሩ አንድ ቀለም (በ RGB መልክ) እና የተወሰነ የድምጽ እፍጋት ያመጣል.
ባለ 2 ዲ ምስል ከአንድ የተወሰነ እይታ ለማመንጨት ሞዴሉ የ3-ል ነጥቦችን ያመነጫል እና ነጥቦቹን በትእይንት ተግባር አማካኝነት የቀለም እና የመጠን እፍጋት እሴቶችን ይመልሳል። የድምጽ አተረጓጎም ቴክኒኮች ከዚያም እነዚያን እሴቶች ወደ 2D ምስል ውፅዓት ይቀይሯቸዋል።
NeRF እና 2D Diffusion ሞዴሎችን በጋራ መጠቀም
አሁን NeRF እንዴት እንደሚሰራ ካወቅን፣ ይህ ሞዴል እንዴት ከተፈጠሩት ምስሎች ትክክለኛ የ3-ል ሞዴሎችን እንደሚያመነጭ እንይ።
ለእያንዳንዱ የቀረበ የጽሑፍ መጠየቂያ፣ DreamFusion በዘፈቀደ የተጀመረ NeRF ከባዶ ያሠለጥናል። እያንዳንዱ ድግግሞሽ በዘፈቀደ የካሜራ ቦታን በክብ መጋጠሚያዎች ስብስብ ውስጥ ይመርጣል። በመስታወት ሉል ውስጥ የተገጠመውን ሞዴል አስቡ. የ3-ል ሞዴላችንን አዲስ ምስል ባመነጭን ቁጥር በሉላችን ውስጥ የዘፈቀደ ነጥብ የውጤታችን ነጥብ እንመርጣለን። DreamFusion እንዲሁ የዘፈቀደ የብርሃን ቦታን ይመርጣል l ለማቅረብ ለመጠቀም።
አንዴ ካሜራ እና የብርሃን አቀማመጥ ካለን፣ የNeRF ሞዴል ይቀርባል። DreamFusion እንዲሁ በዘፈቀደ ከቀለም ቀረጻ፣ ሸካራነት ከሌለው ምስል እና የአልቤዶ አተረጓጎም ያለ ምንም ጥላ ይመርጣል።
የእኛ የጽሑፍ-ወደ-ምስል ሞዴል (Imagen) ተወካይ ናሙና ለመፍጠር በቂ ምስሎችን እንዲያዘጋጅ እንደምንፈልግ ቀደም ብለን ጠቅሰናል።
Dreamfusion ይህንን እንዴት ያከናውናል?
Dreamfusion በቀላሉ የታሰቡትን ማዕዘኖች ለማሳካት የግቤት ጥያቄውን በትንሹ ይለውጣል። ለምሳሌ፣ በጥያቄያችን ላይ “ከላይ እይታ” ጋር በማያያዝ ከፍ ያለ የከፍታ ማዕዘኖችን ማሳካት እንችላለን። እንደ “የፊት እይታ”፣ “የጎን እይታ” እና “የኋላ እይታ” ያሉ ሀረጎችን በማያያዝ ሌሎች ማዕዘኖችን ማመንጨት እንችላለን።
ትዕይንቶች በዘፈቀደ የካሜራ አቀማመጦች ላይ በተደጋጋሚ ይቀርባሉ. እነዚህ አተረጓጎሞች በውጤት የማስወገድ ኪሳራ ተግባር ውስጥ ያልፋሉ። ቀለል ያለ ቀስ በቀስ የመውረድ አካሄድ ቀስ በቀስ ያሻሽላል 3 ዲ አምሳያ በጽሑፉ ከተገለጸው ትዕይንት ጋር እስኪመሳሰል ድረስ.
NeRF ን በመጠቀም የ3ዲ አምሳያውን አንዴ ከሰራን በኋላ ልንጠቀም እንችላለን Marching Cubes አልጎሪዝም የእኛን ሞዴል 3D mesh ለማውጣት. ይህ ጥልፍልፍ ወደ ታዋቂ 3D አቅራቢዎች ወይም ሞዴሊንግ ሶፍትዌር ማስመጣት ይችላል።
ገደቦች
የ DreamFusion ውፅዓት ነባር የፅሁፍ-ወደ-ምስል ስርጭት ሞዴሎችን በልቦለድ መንገድ ስለሚጠቀም በበቂ ሁኔታ አስደናቂ ቢሆንም፣ ተመራማሪዎቹ ጥቂት ውስንነቶችን አስተውለዋል።
የኤስ.ዲ.ኤስ የኪሳራ ተግባር ከመጠን ያለፈ እና ከመጠን በላይ ለስላሳ ውጤቶችን ለማምጣት ተስተውሏል. ይህንን ከተፈጥሮ ውጭ በሆነው ቀለም እና በውጤቶቹ ውስጥ ትክክለኛ ዝርዝር እጥረት ውስጥ ማየት ይችላሉ ።
የ DreamFusion አልጎሪዝም እንዲሁ 64 x 64 ፒክሰሎች በሆነው በImagen ሞዴል ውፅዓት ጥራት የተገደበ ነው። ይህ ወደ የተዋሃዱ ሞዴሎች የተሻሉ ዝርዝሮች ወደሌላቸው ይመራል.
በመጨረሻም ተመራማሪዎቹ 3D ሞዴሎችን ከ 2D ውሂብ በማዋሃድ ረገድ አንድ ተግዳሮት እንዳለ ጠቁመዋል። ከ3D ምስሎች ስብስብ ልናመነጫቸው የምንችላቸው ብዙ የ2-ል ሞዴሎች አሉ፣ ይህም ማመቻቸትን በጣም ከባድ እና እንዲያውም አሻሚ ያደርገዋል።
መደምደሚያ
የ DreamFusion 3D አተረጓጎም በጥሩ ሁኔታ ይሰራል ምክንያቱም ከጽሑፍ ወደ ምስል ስርጭት ሞዴሎች ማንኛውንም ነገር ወይም ትዕይንት ለመፍጠር በመቻሉ ነው። የነርቭ ኔትወርክ በ3-ል ቦታ ላይ ያለ ምንም የ3-ል የስልጠና መረጃ እንዴት እንደሚረዳ አስደናቂ ነው። እንዲያነቡ እመክራለሁ። ሙሉ ወረቀት ስለ DreamFusion ስልተ ቀመር ቴክኒካዊ ዝርዝሮች የበለጠ ለማወቅ።
ተስፋ እናደርጋለን፣ ይህ ቴክኖሎጂ ውሎ አድሮ የፎቶ-እውነታውያን 3D ሞዴሎችን ለመፍጠር ይሻሻላል። በ AI-የተፈጠሩ አካባቢዎችን የሚጠቀሙ ሙሉ የቪዲዮ ጨዋታዎችን ወይም ማስመሰያዎችን አስቡ። መሳጭ 3D ዓለሞችን ለመፍጠር ለቪዲዮ ጌም ገንቢዎች የመግባት እንቅፋት ሊቀንስ ይችላል!
ከጽሑፍ ወደ 3-ልኬት ሞዴሎች ወደፊት ምን ሚና ይኖራቸዋል ብለው ያስባሉ?
መልስ ይስጡ