Сүүлийн хоёр жилийн хугацаанд AI загварууд хэрхэн хүчирхэг болсон талаар та сонссон байх. Гэхдээ ижил технологи нь 2D-ээс 3D руу үсрэлт хийхэд тусалж чадна гэдгийг та мэдэх үү?
Хиймэл оюун ухаанаар бүтээсэн 3D загварууд нь өнөөгийн дижитал орчинд өргөн хэрэглэгддэг. Видео тоглоом Мөн кино нь чадварлаг 3D уран бүтээлчид болон Blender зэрэг загварчлалын программ хангамжид тулгуурлаж, компьютерийн бүтээсэн үзэгдлүүдийг дүүргэхийн тулд 3D хөрөнгийг бий болгодог.
Гэсэн хэдий ч, өнөөдөр 3D уран бүтээлчид DALL-E болон технологи нэвтрүүлж эхэлж байгаатай адил салбар нь машин сургалтыг ашиглан 2D хөрөнгийг бага хүчин чармайлтаар бүтээх боломжтой юу? Замын дунд?
Энэ нийтлэл нь одоо байгаа програмуудыг ашиглан текстээс 3D хэлбэрт шилжүүлэх үр дүнтэй загварыг бий болгох шинэ алгоритмыг судлах болно. диффузын загварууд.
Гэж юу вэ Dreamfusion?
3D хөрөнгийг шууд үүсгэдэг тархалтын загварыг бий болгох нэг гол асуудал бол маш олон 3D өгөгдөл байдаггүй явдал юм. 2D диффузын загварууд нь интернетээс олдсон асар том зургийн мэдээллийн багцаас болж маш хүчирхэг болсон. 3D хөрөнгийн талаар ижил зүйлийг хэлж болохгүй.
Зарим 3D үүсгэгч техникүүд нь 2 хэмжээст өгөгдлийн элбэг дэлбэг байдлыг ашиглан өгөгдлийн хомсдолыг арилгахад тусалдаг.
DreamFusion өгөгдсөн текстийн тайлбар дээр үндэслэн 3D загвар үүсгэх боломжтой үүсгэгч загвар юм. DreamFusion загвар нь текстээс бодит гурван хэмжээст загвар үүсгэхийн тулд урьдчилан бэлтгэгдсэн текстийг дүрс рүү шилжүүлэх загварыг ашигладаг.
Хэдийгээр 3D сургалтын өгөгдөл байхгүй ч энэхүү арга нь өндөр нарийвчлалтай харагдах байдал, гүн гүнзгий уялдаатай 3D хөрөнгийг бий болгосон.
Энэ яаж ажилдаг вэ?
DreamFusion алгоритм нь хоёр хэмжээст тархалтын загвар ба мэдрэлийн сүлжээ Энэ нь 2D зургийг нэгдмэл 3D дүр зураг болгон хувиргах боломжтой.
Google-ийн Imagen Text-to-Image загвар
Алгоритмын эхний хэсэг нь тархалтын загвар юм. Энэ загвар нь текстийг зураг болгон хувиргах үүрэгтэй.
Imagen Энэ нь тодорхой объектын зургийн өөрчлөлтийн том түүврийг үүсгэж болох тархалтын загвар юм. Энэ тохиолдолд бидний зургийн өөрчлөлтүүд нь өгсөн объектын бүх боломжит өнцгийг хамарсан байх ёстой. Жишээлбэл, хэрэв бид морины 3D загварыг гаргахыг хүсвэл морины бүх өнцгөөс 2D зургийг авахыг хүсч байна. Зорилго нь Imagen-ийг ашиглан алгоритмын дараагийн загварт аль болох их мэдээлэл (өнгө, тусгал, нягтрал) өгөх явдал юм.
NeRF ашиглан 3D загвар бүтээх
Дараа нь Dreamfusion нь a гэж нэрлэгддэг загварыг ашигладаг Мэдрэлийн цацрагийн талбар эсвэл NeRF нь үүсгэсэн зургийн багцаас 3D загварыг бий болгох. NeRF-ууд нь 3D зургийн өгөгдлийн багцыг өгснөөр нарийн төвөгтэй 2D дүр зураг үүсгэх боломжтой.
NeRF хэрхэн ажилладагийг ойлгохыг хичээцгээе.
Энэхүү загвар нь өгөгдсөн 2D зургийн өгөгдлийн багцаас оновчтой болгосон тасралтгүй эзэлхүүнтэй үзэгдлийн функцийг бий болгох зорилготой юм.
Хэрэв загвар нь функц үүсгэвэл оролт, гаралт нь юу вэ?
Үзэгдэл функц нь 3D байршил, 2D харах чиглэлийг оролт болгон авдаг. Дараа нь функц нь өнгө (RGB хэлбэрээр) болон тодорхой эзлэхүүний нягтралыг гаргадаг.
Тодорхой өнцгөөс 2 хэмжээст дүрс үүсгэхийн тулд загвар нь 3D цэгүүдийн багц үүсгэж, өнгө, эзлэхүүний нягтын утгыг буцаахын тулд тухайн цэгүүдийг үзэгдлийн функцээр дамжуулан ажиллуулна. Эзлэхүүн гаргах техник нь эдгээр утгыг 2D зургийн гаралт болгон хувиргах болно.
NeRF болон 2D диффузын загваруудыг хамтад нь ашиглах
Одоо бид NeRF хэрхэн ажилладагийг мэдэж байгаа тул энэ загвар нь бидний бүтээсэн зургуудаас хэрхэн үнэн зөв 3D загвар гаргаж болохыг харцгаая.
Өгөгдсөн текст мөр бүрийн хувьд DreamFusion нь санамсаргүй байдлаар эхлүүлсэн NeRF-ийг эхнээс нь сургадаг. Давталт бүр бөмбөрцөг координатын багц дахь санамсаргүй камерын байрлалыг сонгоно. Шилэн бөмбөрцөгт бүрсэн загварыг бодоод үз дээ. Бид 3D загварынхаа шинэ дүрсийг үүсгэх бүрдээ өөрийн бөмбөрцөг дэх санамсаргүй цэгийг гаралтынхаа давуу тал болгон сонгох болно. DreamFusion нь мөн санамсаргүй гэрлийн байрлалыг сонгох болно l үзүүлэхэд ашиглах.
Бид камер болон гэрлийн байрлалтай болсны дараа NeRF загварыг үзүүлэх болно. DreamFusion нь мөн санамсаргүй байдлаар өнгөт дүрслэл, бүтэцгүй дүрслэл, альбедо дүрслэлийг ямар ч сүүдэрлэхгүйгээр сонгох болно.
Бид өөрсдийн текстээс дүрслэх загвараа (Imagen) төлөөлөх түүвэр үүсгэх хангалттай зураг гаргахыг хүсч байгаагаа өмнө нь дурдсан.
Dreamfusion үүнийг хэрхэн биелүүлдэг вэ?
Dreamfusion нь хүссэн өнцөгт хүрэхийн тулд оролтын сануулгыг бага зэрэг өөрчилдөг. Жишээлбэл, бид "дээд талын харагдац"-ыг өөрийн мөрд хавсаргаснаар өндөр өнцгийг олж авах боломжтой. Бид "урд талын харагдац", "хажуугийн харагдац", "арын харах" гэх мэт хэллэгүүдийг хавсаргаж өөр өнцгүүдийг үүсгэж болно.
Үзэгдэл нь санамсаргүй камерын байрлалаас дахин дахин гардаг. Дараа нь эдгээр дүрслэл нь оноо нэрэх алдагдлын функцээр дамждаг. Энгийн градиент буурах хандлага нь аажмаар сайжруулах болно 3D загвар текстэд дүрсэлсэн үзэгдэлтэй таарах хүртэл.
NeRF ашиглан 3D загварыг буулгасны дараа бид үүнийг ашиглаж болно Маршинг Cubes алгоритм манай загварын 3D торыг гаргах. Дараа нь энэ торыг алдартай 3D дүрслэгч эсвэл загварчлалын програм хангамжид оруулж болно.
хязгаарлалт
DreamFusion-ийн гаралт нь одоо байгаа текстээс зураг руу тархах загваруудыг шинэлэг байдлаар ашигладаг тул хангалттай гайхалтай боловч судлаачид цөөн хэдэн хязгаарлалтыг тэмдэглэжээ.
SDS-ийн алдагдлын функц нь хэт ханасан, хэт гөлгөр үр дүнд хүргэдэг нь ажиглагдсан. Та үүнийг байгалийн бус өнгө, гаралтаас олж авсан нарийн нарийвчлалгүй байдлаас ажиглаж болно.
DreamFusion алгоритм нь мөн Imagen загварын гаралтын нарийвчлалаар хязгаарлагддаг бөгөөд энэ нь 64 x 64 пиксел юм. Энэ нь нийлэгжүүлсэн загваруудыг нарийн ширийн зүйлгүй болгоход хүргэдэг.
Эцэст нь судлаачид 3 хэмжээст өгөгдлөөс 2 хэмжээст загварыг нэгтгэх нь төрөлхийн бэрхшээлтэй байдгийг тэмдэглэжээ. Олон тооны 3D зургуудаас үүсгэж болох 2D загварууд байдаг бөгөөд энэ нь оновчлолыг нэлээд төвөгтэй, бүр тодорхойгүй болгодог.
Дүгнэлт
DreamFusion-ийн 3D дүрслэлүүд нь текстээс зураг руу шилжих загварууд нь ямар ч объект, үзэгдэл үүсгэх чадвартай тул маш сайн ажилладаг. Мэдрэлийн сүлжээ нь ямар ч 3D сургалтын өгөгдөлгүйгээр 3D орон зай дахь дүр зургийг хэрхэн ойлгож чаддаг нь гайхалтай юм. Би уншихыг зөвлөж байна бүхэл бүтэн цаас DreamFusion алгоритмын техникийн дэлгэрэнгүй мэдээллийг авахыг хүсвэл.
Энэ технологи нь эцэстээ фото бодит 3D загварыг бий болгохын тулд сайжирна гэж найдаж байна. AI үүсгэсэн орчинг ашигладаг бүхэл бүтэн видео тоглоом эсвэл симуляцийг төсөөлөөд үз дээ. Энэ нь видео тоглоом хөгжүүлэгчдийн гайхалтай 3D ертөнцийг бий болгоход нэвтрэх саадыг багасгаж чадна!
Ирээдүйд текстээс 3D загварт ямар үүрэг гүйцэтгэнэ гэж та бодож байна вэ?
хариу үлдээх