Vtoonify: Удирдах боломжтой өндөр нягтралтай хөрөг видеоны хэв маяг дамжуулалт

Гарчиг[Нуух][Үзүүлэх]

Vtoonify гэж юу вэ?
Энэ яаж ажилдаг вэ?
StyleGAN ба санал болгож буй Vtoonify-ийн хязгаарлалт
Vtoonify-г бусад орчин үеийн загваруудтай харьцуулах+-
Давуу тал+-
- хязгаарлалт
Дүгнэлт

Компьютерийн алсын хараа, графикийн хувьд хамгийн өндөр калибрын бүтээлч хөрөг кино бүтээх нь чухал бөгөөд хүсэх ажил юм.

Хүчтэй StyleGAN-д суурилсан хөрөг зургийг toonify хийх хэд хэдэн үр дүнтэй загваруудыг санал болгосон боловч эдгээр дүрсэнд чиглэсэн техникүүд нь видеон дээр ашиглахад тодорхой сул талуудтай байдаг, тухайлбал, тогтмол хүрээний хэмжээ, нүүр царайг тэгшитгэх шаардлага, нүүрний бус нарийн ширийн зүйлс байхгүй. , мөн цаг хугацааны үл нийцэл.

Хувьсгалт VToonify хүрээ нь хяналттай, өндөр нягтралтай хөрөг видео хэв маягийн шилжүүлгийг шийдвэрлэхэд ашиглагддаг.

Бид энэ нийтлэлд VToonify-ийн хамгийн сүүлийн үеийн судалгаа, түүний функциональ байдал, сул тал болон бусад хүчин зүйлсийг авч үзэх болно.

Vtoonify гэж юу вэ?

VToonify хүрээ нь өндөр нарийвчлалтай хөрөг видеоны хэв маягийг өөрчлөх боломжтой.

VToonify нь StyleGAN-ийн дунд болон өндөр нарийвчлалтай давхаргыг ашиглан кодлогчоор олж авсан олон масштабын агуулгын шинж чанарт суурилсан өндөр чанартай уран сайхны хөрөг зургийг бүтээдэг.

Үүний үр дүнд үүссэн бүрэн эргэлтийн архитектур нь хувьсах хэмжээтэй кинонуудын тэгш бус нүүрийг оролт болгон авдаг бөгөөд үүний үр дүнд гаралт дахь бодит хөдөлгөөнтэй бүхэл бүтэн нүүрний хэсгүүд бий болдог.

Vtoonify

Энэхүү хүрээ нь одоогийн StyleGAN-д суурилсан зургийн toonification загваруудтай нийцэж байгаа бөгөөд тэдгээрийг видео toonification болгон өргөтгөх боломжийг олгодог бөгөөд өнгө, эрчмийг тохируулах боломжтой гэх мэт сонирхол татахуйц шинж чанаруудыг өвлөн авсан.

энэ нь судалгаа цуглуулгад суурилсан болон үлгэр жишээ хөрөг видео хэв маяг шилжүүлэх нь тус тус Toonify болон DualStyleGAN дээр суурилсан VToonify хоёр хувилбарыг танилцуулж байна.

Өргөн хүрээний туршилтын олдворууд нь санал болгож буй VToonify хүрээ нь хувьсах хэв маягийн параметр бүхий өндөр чанартай, цаг хугацааны хувьд уялдаа холбоотой уран сайхны хөрөг кино хийхэд одоо байгаа арга барилаас давж гарсныг харуулж байна.

Судлаачид өгдөг Google Colab дэвтэр, ингэснээр та үүн дээр гараа бохирдуулж болно.

Энэ яаж ажилдаг вэ?

Өндөр нарийвчлалтай хөрөг зургийн хэв маягийг тохируулах боломжтой болгохын тулд VToonify нь зургийн орчуулгын системийн давуу талыг StyleGAN дээр суурилсан хүрээтэй хослуулсан.

Vtoonify ажиллаж байна

Төрөл бүрийн оролтын хэмжээг тохируулахын тулд зураг орчуулах систем нь бүрэн эргэлтийн сүлжээг ашигладаг. Харин эхнээс нь сургах нь өндөр нарийвчлалтай, хяналттай хэв маягийг дамжуулах боломжгүй болгодог.

Урьдчилан бэлтгэгдсэн StyleGAN загварыг өндөр нарийвчлалтай, хяналттай хэв маягийг шилжүүлэхэд зориулж StyleGAN-д суурилсан хүрээнд ашигладаг, гэхдээ энэ нь зургийн тогтмол хэмжээ, нарийвчлалын алдагдлаар хязгаарлагддаг.

StyleGAN нь хайбрид фреймворк дээр тогтмол хэмжээтэй оролтын функц болон бага нягтралтай давхаргуудаа устгаснаар өөрчлөгдсөн бөгөөд энэ нь зургийн орчуулгын хүрээтэй төстэй бүрэн хувиргалт кодлогч-генераторын архитектурыг бий болгодог.

Хүрээний дэлгэрэнгүй мэдээллийг хадгалахын тулд генераторын нэмэлт агуулгын шаардлага болгон оролтын хүрээний олон масштабын агуулгын шинж чанарыг гаргаж авах кодлогчийг сурга. Vtoonify нь StyleGAN загварын загварын удирдлагын уян хатан чанарыг үүсгүүрт оруулснаар өгөгдөл болон загвараа хоёуланг нь ялгаж авдаг.

StyleGAN ба санал болгож буй Vtoonify-ийн хязгаарлалт

Уран сайхны хөрөг зураг нь бидний өдөр тутмын амьдралд төдийгүй урлаг, олон нийтийн сүлжээ аватар, кино, энтертайнмент сурталчилгаа гэх мэт.

Хөгжлийн хамт гүн гүнзгий суралцах технологийн тусламжтайгаар хөрөг зургийн автоматжуулсан хэв маягийн шилжүүлгийг ашиглан бодит нүүр царайны зургаас өндөр чанартай уран сайхны хөрөг зураг бүтээх боломжтой боллоо.

Зурган дээр суурилсан хэв маягийг шилжүүлэхэд зориулж бүтээсэн олон амжилттай арга замууд байдаг бөгөөд тэдгээрийн ихэнх нь гар утасны програм хэлбэрээр эхлэн хэрэглэгчдэд хялбар байдаг. Видео материал нь сүүлийн хэдэн жилийн хугацаанд манай сошиал медиа мэдээллийн гол тулгуур болсон.

Сошиал медиа болон түр зуурын киноны өсөлт нь амжилттай, сонирхолтой видеог бүтээхийн тулд хөрөг видеоны хэв маягийг шилжүүлэх гэх мэт шинэлэг видео засварлах эрэлт хэрэгцээг нэмэгдүүлсэн.

Зурганд чиглэсэн одоо байгаа техникүүд нь кинонд ашиглахад ихээхэн сул талуудтай тул автомат хөрөг видеоны загварчлалд ашиг тусыг нь хязгаарладаг.

StyleGAN нь хэв маягийн тохируулгатай өндөр чанартай нүүр царайг бүтээх чадвартай тул хөрөг зургийн хэв маягийг шилжүүлэх загварыг хөгжүүлэх нийтлэг тулгуур юм.

StyleGAN-д суурилсан систем (зураг toonification гэж нэрлэдэг) нь бодит царайг StyleGAN далд орон зайд кодлож, дараа нь үүссэн загварын кодыг уран сайхны хөрөг зургийн мэдээллийн багц дээр нарийн тааруулсан өөр StyleGAN-д хэрэглэж, загварчилсан хувилбарыг бий болгодог.

StyleGAN нь нүүр царайг зэрэгцүүлсэн, тогтсон хэмжээтэй зургуудыг бүтээдэг бөгөөд энэ нь бодит зураг авалтын динамик царайг илүүд үздэггүй. Видеон дээрх нүүрийг тайрах, зэрэгцүүлэх нь зарим тохиолдолд нүүр царай болон эвгүй дохио зангааг үүсгэдэг. Судлаачид энэ асуудлыг StyleGAN-ийн "тогтмол ургацын хязгаарлалт" гэж нэрлэдэг.

Зэрэгцээгүй царайны хувьд StyleGAN3-ийг санал болгосон; гэхдээ энэ нь зөвхөн тогтоосон зургийн хэмжээг дэмждэг.

Цаашилбал, саяхны судалгаагаар тэгш бус царайг кодлох нь тэгшлэхээс илүү хэцүү болохыг олж мэдэв. Царайны буруу кодчилол нь хөрөг зургийн хэв маягийг шилжүүлэхэд хортой бөгөөд ингэснээр дахин бүтээгдсэн болон загварчилсан фрэймүүдэд таних тэмдэг өөрчлөгдөх, бүрэлдэхүүн хэсгүүд байхгүй болно.

Хэлэлцсэнчлэн хөрөг видеоны хэв маягийг дамжуулах үр дүнтэй арга нь дараах асуудлуудыг шийдвэрлэх ёстой.

Бодит хөдөлгөөнийг хадгалахын тулд арга барил нь тэгш бус нүүр царай, янз бүрийн видео хэмжээстэй ажиллах чадвартай байх ёстой. Видеоны том хэмжээ буюу өргөн өнцгөөр харах нь нүүрийг хүрээнээс гаргахгүй байхын зэрэгцээ илүү их мэдээлэл авах боломжтой.
Өнөөгийн түгээмэл хэрэглэгддэг HD гаджетуудтай өрсөлдөхийн тулд өндөр нарийвчлалтай видео хэрэгтэй.
Бодит хэрэглэгчийн харилцааны системийг бий болгохдоо хэрэглэгчдэд сонголтоо өөрчлөх, сонгоход уян хатан хэв маягийн хяналтыг санал болгох хэрэгтэй.

Үүний тулд судлаачид VToonify, видео toonification-д зориулсан шинэ эрлийз хүрээг санал болгож байна. Тогтмол ургацын хязгаарлалтыг даван туулахын тулд судлаачид эхлээд StyleGAN дээр орчуулгын эквивариацийг судалдаг.

VToonify нь StyleGAN-д суурилсан архитектурын ашиг тус, дүрс орчуулгын хүрээг хослуулан тохируулж, өндөр нарийвчлалтай хөрөг видеоны хэв маягийг шилжүүлэх боломжийг олгодог.

Дараахь томоохон хувь нэмэр оруулдаг.

Судлаачид StyleGAN-ийн тогтмол ургацын хязгаарлалтыг судалж, орчуулгын тэнцвэрт байдалд суурилсан шийдлийг санал болгож байна.
Судлаачид тэгш бус царай болон янз бүрийн видеоны хэмжээг дэмждэг өндөр нягтралтай хөрөг видеоны хэв маягийн хяналттай дамжуулалтад зориулагдсан өвөрмөц бүрэн эргэлттэй VToonify хүрээг танилцуулж байна.
Судлаачид VToonify-ийг Toonify болон DualStyleGAN-ийн үндсэн дээр бүтээж, цуглуулгад суурилсан болон үлгэр жишээ загварт суурилсан хөрөг видеоны хэв маягийг шилжүүлэх боломжийг олгохын тулд үндсэн хэсгүүдийг өгөгдөл, загварын хувьд нягтаруулдаг.

Vtoonify-г бусад орчин үеийн загваруудтай харьцуулах

Toonify

Энэ нь StyleGAN ашиглан тэгшитгэсэн нүүрэн дээр цуглуулгад суурилсан хэв маягийг шилжүүлэх үндэс суурь болдог. Загварын кодыг олж авахын тулд судлаачид PSP-д зориулж нүүр царайг зэрэгцүүлж, 256256 зургийг тайрах ёстой. Toonify нь 1024*1024 загварын код бүхий загварчилсан үр дүнг гаргахад ашиглагддаг.

Эцэст нь тэд видеон дээрх үр дүнг анхны байршилд нь дахин тохируулна. Загваргүй хэсгийг хар болгож тохируулсан.

Vtoonify-г бусад орчин үеийн загваруудтай харьцуулах

DualStyleGAN

Энэ нь StyleGAN дээр суурилсан үлгэр жишээ хэв маягийг шилжүүлэх үндэс суурь юм. Тэд Toonify-тэй ижил өгөгдөл боловсруулахын өмнөх болон дараах техникийг ашигладаг.

Pix2pixHD

Энэ нь зурагнаас зураг руу орчуулах загвар бөгөөд өндөр нарийвчлалтай засварлахад зориулж урьдчилан бэлтгэгдсэн загваруудыг нэгтгэхэд түгээмэл хэрэглэгддэг. Үүнийг хосолсон өгөгдлийг ашиглан сургадаг.

Судлаачид задлан задлан шинжлэх газрын зургийг ашигладаг тул pix2pixHD-г газрын зургийн нэмэлт орц болгон ашигладаг.

Эхний захиалгат хөдөлгөөн

FOM бол ердийн зургийн хөдөлгөөнт загвар юм. Энэ нь 256256 зураг дээр бэлтгэгдсэн бөгөөд бусад зургийн хэмжээтэй тааруухан ажилладаг. Үүний үр дүнд судлаачид эхлээд видео фрэймийг 256*256 болгож FOM-ийг хөдөлгөөнт дүрс болгон хувиргаж, дараа нь үр дүнгийн хэмжээг анхны хэмжээнд нь тохируулдаг.

Шударга харьцуулахын тулд FOM нь өөрийн арга барилын анхны загварчилсан хүрээг жишиг загварын дүр төрх болгон ашигладаг.

ДаГАН

Энэ нь 3D нүүрний хөдөлгөөнт загвар юм. Тэд FOM-тэй ижил мэдээлэл бэлтгэх, дараах боловсруулалтын аргыг ашигладаг.

Харьцуулалт

Давуу тал

Үүнийг урлаг, сошиал медиа аватар, кино, зугаа цэнгэлийн сурталчилгаа гэх мэт ажилд ашиглаж болно.
Vtoonify-ийг метаверс дээр бас ашиглаж болно.

хязгаарлалт

Энэхүү аргачлал нь StyleGAN-д суурилсан үндсэн системээс өгөгдөл болон загварыг хоёуланг нь гаргаж авдаг бөгөөд үүний үр дүнд өгөгдөл болон загварт хазайлт үүсдэг.
Олдворууд нь нүүрний хэв маягийн хэсэг болон бусад хэсгүүдийн хэмжээсийн ялгаанаас үүдэлтэй байдаг.
Энэ стратеги нь нүүр царайтай холбоотой асуудлуудыг шийдвэрлэхэд бага амжилтанд хүрдэг.

Дүгнэлт

Эцэст нь хэлэхэд, VToonify нь хэв маягийн хяналттай, өндөр нарийвчлалтай видео toonification хийх хүрээ юм.

Энэхүү хүрээ нь видеог боловсруулахад маш сайн гүйцэтгэлийг бий болгож, StyleGAN-д суурилсан зургийн toonification загваруудыг аль алиных нь хувьд нягтруулж, бүтцийн хэв маяг, өнгөний хэв маяг, хэв маягийн зэргийг өргөнөөр хянах боломжийг олгодог. синтетик өгөгдөл болон сүлжээний бүтэц.

Vtoonify: Удирдах боломжтой өндөр нарийвчлалтай хөрөг видеоны хэв маягийг шилжүүлэх

Vtoonify гэж юу вэ?

Энэ яаж ажилдаг вэ?

StyleGAN ба санал болгож буй Vtoonify-ийн хязгаарлалт