በኮምፒዩተር እይታ እና ግራፊክስ ውስጥ ከፍተኛ ጥራት ያላቸውን የፈጠራ የቁም ፊልሞችን ለመስራት ወሳኝ እና ተፈላጊ ተግባር ነው።
ምንም እንኳን በኃይለኛው StyleGAN ላይ ተመስርተው በርካታ ውጤታማ የቁም ምስል ቱኒቲኬሽን ሞዴሎች ቢቀርቡም፣ እነዚህ ምስል ላይ ያተኮሩ ቴክኒኮች ከቪዲዮዎች ጋር ሲጠቀሙ ግልጽ ድክመቶች አሏቸው፣ ለምሳሌ ቋሚ የፍሬም መጠን፣ ፊትን የማስተካከል መስፈርት፣ የፊት ያልሆኑ ዝርዝሮች አለመኖር። , እና ጊዜያዊ አለመመጣጠን.
አስቸጋሪ ቁጥጥር የሚደረግለትን ባለከፍተኛ ጥራት የቁም ቪዲዮ ዘይቤ ማስተላለፍን ለመቋቋም አብዮታዊ የVToonify ማዕቀፍ ስራ ላይ ይውላል።
በዚህ ጽሑፍ ውስጥ በ VToonify ላይ በጣም የቅርብ ጊዜ ጥናትን እንመረምራለን, ተግባራዊነቱን, ጉዳቶቹን እና ሌሎች ነገሮችን ጨምሮ.
Vtoonify ምንድን ነው?
VToonify ማዕቀፍ ሊበጅ የሚችል ባለከፍተኛ ጥራት የቁም ቪዲዮ ዘይቤ ስርጭትን ይፈቅዳል።
VToonify ከፍተኛ ጥራት ያላቸውን ጥበባዊ ምስሎችን ለመፍጠር የStylGANን መካከለኛ እና ከፍተኛ ጥራት ንጣፎችን ይጠቀማል የፍሬም ዝርዝሮችን ለማቆየት በመቀየሪያ የተገኙ ባለብዙ ይዘት ባህሪያት።
የውጤቱ ሙሉ በሙሉ ኮንቮሉሽን አርክቴክቸር በተለዋዋጭ መጠን ያላቸው ፊልሞች ላይ ያልተስተካከሉ ፊቶችን እንደ ግብአት ይወስዳል፣ይህም በውጤቱ ውስጥ ትክክለኛ እንቅስቃሴዎች ያላቸው ሙሉ-ፊት ክልሎችን ያስከትላል።
ይህ ማዕቀፍ አሁን ባለው የStylGAN ላይ ከተመሰረቱ የምስል ቶኒዲሽን ሞዴሎች ጋር ተኳሃኝ ነው፣ ይህም ወደ ቪዲዮ ቱኒዲሽን እንዲራዘም ያስችላቸዋል፣ እና እንደ የሚስተካከሉ ቀለም እና የጥንካሬ ማበጀት ያሉ ማራኪ ባህሪያትን ይወርሳል።
ይህ ጥናት በToonify እና DualStyleGAN ላይ በመመስረት ሁለት የVToonify ቅጽበቶችን ያስተዋውቃል በስብስብ ላይ የተመሰረተ እና በአብነት ላይ የተመሰረተ የቁም ቪዲዮ ዘይቤ ማስተላለፍ።
ሰፊ የሙከራ ግኝቶች እንደሚያሳዩት የታቀደው የVToonify ማዕቀፍ ከፍተኛ ጥራት ያላቸውን፣ ጊዜያዊ-ወጥነት ያለው ጥበባዊ የቁም ፊልሞችን ከተለዋዋጭ የቅጥ መለኪያዎች ጋር በመስራት ረገድ ካሉ አቀራረቦች የላቀ ነው።
ተመራማሪዎች ይሰጣሉ ጎግል ኮላብ ማስታወሻ ደብተር, ስለዚህ በእጃችሁ ላይ እጆቻችሁን ማበከል ትችላላችሁ.
እንዴት ነው የሚሰራው?
የሚስተካከለው ባለከፍተኛ ጥራት የቁም ቪዲዮ ዘይቤ ማስተላለፍን ለማከናወን፣VToonify የምስሉን የትርጉም ማዕቀፍ ከStylGAN-ተኮር ማዕቀፍ ጋር ያጣምራል።
የተለያዩ የግቤት መጠኖችን ለማስተናገድ፣ የምስል አተረጓጎም ስርዓቱ ሙሉ በሙሉ ኮንቮሉሽን ኔትወርኮችን ይጠቀማል። ከባዶ ማሰልጠን በሌላ በኩል ከፍተኛ ጥራት ያለው እና ቁጥጥር የሚደረግበት ዘይቤ ማስተላለፍ የማይቻል ያደርገዋል።
ቀደም ሲል የሰለጠነው የStylGAN ሞዴል ለከፍተኛ ጥራት እና ለቁጥጥር ዘይቤ ማስተላለፍ በStylGAN-ተኮር ማዕቀፍ ውስጥ ጥቅም ላይ ይውላል ፣ ምንም እንኳን በቋሚ የምስል መጠን እና ዝርዝር ኪሳራ የተገደበ ነው።
StyleGAN ቋሚ መጠን ያላቸውን የግቤት ባህሪያቱን እና ዝቅተኛ ጥራት ያላቸውን ንብርብሮች በመሰረዝ በድብልቅ ማዕቀፍ ውስጥ ተስተካክሏል፣ ይህም ከምስል የትርጉም ማዕቀፍ ጋር ተመሳሳይ የሆነ ሙሉ በሙሉ ኮንቮይደር-ጀነሬተር አርክቴክቸር ያስገኛል።
የፍሬም ዝርዝሮችን ለመጠበቅ፣ ለጄነሬተር እንደ ተጨማሪ የይዘት መስፈርት የግቤት ክፈፉን ባለብዙ ደረጃ ይዘት ባህሪያት ለማውጣት ኢንኮደርን ያሰለጥኑ። Vtoonify ሁለቱንም ውሂቡን እና ሞዴሉን ለማጣራት በጄነሬተር ውስጥ በማስቀመጥ የStylGAN ሞዴል የቅጥ ቁጥጥር ተለዋዋጭነትን ይወርሳል።
የStylGAN እና የታቀደው Vtoonify ገደቦች
ጥበባዊ የቁም ሥዕሎች በዕለት ተዕለት ሕይወታችን ውስጥ እንዲሁም በፈጠራ ንግዶች እንደ ጥበብ፣ ማህበራዊ ሚዲያ አምሳያዎች፣ ፊልሞች፣ የመዝናኛ ማስታወቂያ እና የመሳሰሉት።
ከ ልማት ጋር። ጥልቀት ያለው ትምህርት ቴክኖሎጂ፣ አሁን በራስ-ሰር የቁም ስታይል ማስተላለፍን በመጠቀም ከእውነተኛ የፊት ፎቶዎች ከፍተኛ ጥራት ያላቸውን ጥበባዊ ምስሎች መፍጠር ተችሏል።
በምስል ላይ የተመሰረተ የአጻጻፍ ስልት ለማስተላለፍ የተፈጠሩ የተለያዩ የተሳካ መንገዶች አሉ, ብዙዎቹ በሞባይል አፕሊኬሽኖች መልክ ለጀማሪ ተጠቃሚዎች በቀላሉ ይገኛሉ. የቪዲዮ ቁሳቁስ ላለፉት በርካታ አመታት የማህበራዊ ሚዲያ ምግቦቻችን በፍጥነት ዋና ምንጭ ሆኗል።
የማህበራዊ ሚዲያ እና ጊዜያዊ ፊልሞች መበራከት የተሳካ እና አስደሳች ቪዲዮዎችን ለማፍለቅ እንደ የቁም ቪዲዮ ስታይል ሽግግር ያሉ የፈጠራ የቪዲዮ አርትዖት ፍላጎትን ጨምሯል።
ነባር ምስልን ያማከለ ቴክኒኮች በፊልሞች ላይ ሲተገበሩ ጉልህ ጉዳቶች አሏቸው፣ ይህም በራስ-ሰር የቁም ቪዲዮ ስታይል ላይ ያላቸውን ጠቀሜታ ይገድባል።
ስታይልጋን ከፍተኛ ጥራት ያላቸውን ፊቶችን በሚስተካከሉ የአጻጻፍ ስልቶች የመፍጠር አቅሙ የተነሳ የቁም ሥዕል ስታይል ማስተላለፊያ ሞዴልን ለማዘጋጀት የተለመደ የጀርባ አጥንት ነው።
በStylGAN ላይ የተመሰረተ ስርዓት (እንዲሁም የሥዕል ቱኒፊኬሽን በመባልም ይታወቃል) የእውነተኛ ፊትን ወደ StyleGAN ድብቅ ቦታ ያስቀምጣል እና ከዚያ የተገኘውን የቅጥ ኮድ ወደ ሌላ የStylGAN በጥሩ ሁኔታ የተስተካከለ ስሪትን ለመፍጠር በሥዕል የቁም ዳታ ስብስብ ላይ ይተገበራል።
StyleGAN በተስተካከሉ ፊቶች እና በቋሚ መጠን ስዕሎችን ይፈጥራል፣ ይህም በእውነተኛው ዓለም ቀረጻ ላይ ተለዋዋጭ ፊቶችን አይደግፍም። ፊትን መቁረጥ እና በቪዲዮው ላይ ማስተካከል አንዳንድ ጊዜ ከፊል ፊት እና አሳፋሪ ምልክቶችን ያስከትላል። ተመራማሪዎች ይህንን እትም የStylGAN 'ቋሚ የሰብል ገደብ' ብለው ይጠሩታል።
ላልተሰመሩ ፊቶች፣ StyleGAN3 ቀርቧል። ሆኖም ግን, የተቀመጠውን የምስል መጠን ብቻ ነው የሚደግፈው.
በተጨማሪም፣ በቅርብ ጊዜ የተደረገ ጥናት ያልተስተካከሉ ፊቶችን ኮድ ማድረግ ከተሰለፉ ፊቶች የበለጠ ፈታኝ መሆኑን አረጋግጧል። ትክክል ያልሆነ የፊት ኢንኮዲንግ ለቁም ቅፅ ማስተላለፍ ጎጂ ነው፣ ይህም እንደ የማንነት ለውጥ እና በድጋሚ በተገነቡት እና ቅጥ በተዘጋጁት ክፈፎች ውስጥ የጎደሉ ክፍሎች ያሉ ችግሮችን ያስከትላል።
እንደተብራራው፣ የቁም ቪዲዮ ዘይቤን ለማስተላለፍ ቀልጣፋ ቴክኒክ የሚከተሉትን ጉዳዮች ማስተናገድ አለበት።
- ተጨባጭ እንቅስቃሴዎችን ለመጠበቅ አቀራረቡ ያልተስተካከሉ ፊቶችን እና የተለያዩ የቪዲዮ መጠኖችን መቋቋም መቻል አለበት። ትልቅ የቪዲዮ መጠን ወይም ሰፊ የእይታ አንግል ፊቱን ከፍሬም ውጭ እንዳይንቀሳቀስ በሚጠብቅበት ጊዜ ተጨማሪ መረጃን ሊይዝ ይችላል።
- ዛሬ በብዛት ጥቅም ላይ ከዋሉት HD መግብሮች ጋር ለመወዳደር ከፍተኛ ጥራት ያለው ቪዲዮ አስፈላጊ ነው።
- ተለዋዋጭ የቅጥ ቁጥጥር ለተጠቃሚዎች ተጨባጭ የተጠቃሚ መስተጋብር ስርዓት ሲፈጥሩ እንዲቀይሩ እና ምርጫቸውን እንዲመርጡ መሰጠት አለበት።
ለዚያ ዓላማ፣ ተመራማሪዎች VToonifyን፣ ለቪዲዮ toonification ልቦለድ ድብልቅ ማዕቀፍ ጠቁመዋል። ቋሚ የሰብል ውስንነትን ለማሸነፍ ተመራማሪዎች በመጀመሪያ በStylGAN ውስጥ የትርጉም አቻነትን ያጠናሉ።
VToonify የሚስተካከለው ባለከፍተኛ ጥራት የቁም ቪዲዮ ዘይቤ ማስተላለፍን ለማሳካት የStylGAN-ተኮር አርክቴክቸር እና የምስል ትርጉም ማዕቀፍ ጥቅሞችን ያጣምራል።
የሚከተሉት ዋና ዋና አስተዋጾዎች ናቸው፡-
- ተመራማሪዎች የStylGAN ቋሚ የሰብል ገደቦችን ይመረምራሉ እና በትርጉም አቻነት ላይ የተመሰረተ መፍትሄ ይሰጣሉ።
- ተመራማሪዎች ያልተስተካከሉ ፊቶችን እና የተለያዩ የቪዲዮ መጠኖችን የሚደግፍ ቁጥጥር ባለ ከፍተኛ ጥራት ያለው የቁም ቪዲዮ ዘይቤ ማስተላለፍ ልዩ የሆነ ሙሉ በሙሉ convolutional VToonify ማዕቀፍ አቅርበዋል።
- ተመራማሪዎች በToonify እና DualStyleGAN የጀርባ አጥንት ላይ VToonifyን ይገነባሉ እና ከሁለቱም መረጃዎች እና ሞዴል አንጻር የጀርባ አጥንቶችን በመሰብሰብ እና በአርአያነት ላይ የተመሰረተ የቁም ቪዲዮ ዘይቤ ማስተላለፍን ለማስቻል።
Vtoonifyን ከሌሎች ዘመናዊ ሞዴሎች ጋር ማወዳደር
ብቸኝነት ያድርጉ
StyleGANን በመጠቀም በተሰለፉ ፊቶች ላይ በስብስብ ላይ የተመሰረተ የቅጥ ማስተላለፍ መሰረት ሆኖ ያገለግላል። የቅጥ ኮዶችን ሰርስሮ ለማውጣት፣ ተመራማሪዎች ፊቶችን አስተካክለው 256256 ፎቶዎችን ለPSP መከርከም አለባቸው። Toonify ከ1024*1024 የቅጥ ኮዶች ጋር በቅጥ የተሰራ ውጤት ለመፍጠር ጥቅም ላይ ይውላል።
በመጨረሻም ውጤቱን በቪዲዮው ውስጥ ወደ መጀመሪያው ቦታ ያስተካክሉት። ቅጥ ያጣው ቦታ ወደ ጥቁር ተቀይሯል።
DualStyleGAN
በStylGAN ላይ የተመሰረተ በአብነት ላይ የተመሰረተ የአጻጻፍ ስልት የጀርባ አጥንት ነው። ልክ እንደ Toonify ተመሳሳይ ውሂብ የቅድመ እና ድህረ-ማቀነባበር ቴክኒኮችን ይጠቀማሉ።
Pix2pixHD
ቀድሞ የሰለጠኑ ሞዴሎችን ለከፍተኛ ጥራት አርትዖት ለማጠራቀም በተለምዶ የሚያገለግል ከምስል ወደ ምስል የትርጉም ሞዴል ነው። የተጣመረ መረጃን በመጠቀም የሰለጠነ ነው።
ተመራማሪዎች ፒክስ2ፒክስ ኤችዲ እንደ ተጨማሪ የአብነት ካርታ ግብአቶች ይጠቀማሉ ምክንያቱም የተወሰደ የመተንተኛ ካርታ ስለሚጠቀም።
የመጀመሪያ ትዕዛዝ እንቅስቃሴ
FOM የተለመደ የምስል አኒሜሽን ሞዴል ነው። በ256256 ሥዕሎች ላይ የሰለጠነ ሲሆን ከሌሎች የምስል መጠኖች ጋር ደካማ አፈጻጸም አሳይቷል። በውጤቱም፣ ተመራማሪዎች በመጀመሪያ የቪዲዮ ክፈፎችን ወደ 256*256 ለFOM ወደ አኒሜሽን ያመጣሉ እና ውጤቱን ወደ መጀመሪያው መጠናቸው ቀየሩት።
ለፍትሃዊ ንፅፅር፣ FOM የመጀመሪያውን የቅጥ የተሰራ የአቀራረብ ፍሬሙን እንደ የማጣቀሻ ዘይቤ ምስል ይጠቀማል።
ዳጋን
ባለ 3 ዲ የፊት አኒሜሽን ሞዴል ነው። እንደ FOM ተመሳሳይ የውሂብ ዝግጅት እና የድህረ-ሂደት ዘዴዎችን ይጠቀማሉ.
ጥቅሞች
- በኪነጥበብ፣ በማህበራዊ ሚዲያ አምሳያዎች፣ በፊልሞች፣ በመዝናኛ ማስታወቂያ እና በመሳሰሉት ውስጥ ሊሰራ ይችላል።
- Vtoonify በሜታቨርስ ውስጥም ጥቅም ላይ ሊውል ይችላል።
ገደቦች
- ይህ ዘዴ ሁለቱንም መረጃዎችን እና ሞዴሉን ከStylGAN-የተመሰረቱ የጀርባ አጥንቶች ያወጣል፣ይህም መረጃን እና የሞዴል አድልዎ ያስከትላል።
- ቅርሶቹ በአብዛኛው የሚከሰቱት በቅጥ በተሰራው የፊት ክልል እና በሌሎች ክፍሎች መካከል ባለው የመጠን ልዩነት ነው።
- ይህ ስልት በፊት ክልል ውስጥ ካሉ ነገሮች ጋር ሲገናኝ ብዙም ስኬታማ አይሆንም።
መደምደሚያ
በመጨረሻም፣ VToonify በቅጥ ቁጥጥር የሚደረግበት ባለከፍተኛ ጥራት የቪዲዮ ቱኒፊሽን ማዕቀፍ ነው።
ይህ ማዕቀፍ ቪዲዮዎችን በማስተናገድ ረገድ ጥሩ አፈጻጸም ያስገኛል እና በStylGAN ላይ የተመሰረቱ የምስል ማሳያ ሞዴሎችን ከሁለቱም አንፃር በማጣመር መዋቅራዊ ዘይቤ ፣ የቀለም ዘይቤ እና የቅጥ ዲግሪ ላይ ሰፊ ቁጥጥርን ያስችላል። ሰው ሠራሽ ውሂብ እና የአውታረ መረብ መዋቅሮች.
መልስ ይስጡ