Είναι ένα κρίσιμο και επιθυμητό έργο στην όραση υπολογιστών και στα γραφικά η παραγωγή δημιουργικών ταινιών πορτραίτου υψηλότερου διαμετρήματος.
Παρόλο που έχουν προταθεί αρκετά αποτελεσματικά μοντέλα για την τονοποίηση εικόνας πορτρέτου με βάση το ισχυρό StyleGAN, αυτές οι τεχνικές προσανατολισμένες στην εικόνα έχουν σαφή μειονεκτήματα όταν χρησιμοποιούνται με βίντεο, όπως το σταθερό μέγεθος καρέ, η απαίτηση για ευθυγράμμιση προσώπου, η απουσία λεπτομερειών που δεν αφορούν το πρόσωπο. , και χρονική ασυνέπεια.
Ένα επαναστατικό πλαίσιο VToonify χρησιμοποιείται για την αντιμετώπιση της δύσκολης ελεγχόμενης μεταφοράς στυλ βίντεο πορτρέτου υψηλής ανάλυσης.
Θα εξετάσουμε την πιο πρόσφατη μελέτη για το VToonify σε αυτό το άρθρο, συμπεριλαμβανομένης της λειτουργικότητας, των μειονεκτημάτων και άλλων παραγόντων.
Τι είναι το Vtoonify;
Το πλαίσιο VToonify επιτρέπει την προσαρμόσιμη μετάδοση σε στυλ βίντεο πορτρέτου υψηλής ανάλυσης.
Το VToonify χρησιμοποιεί τα επίπεδα μεσαίας και υψηλής ανάλυσης του StyleGAN για να δημιουργήσει καλλιτεχνικά πορτρέτα υψηλής ποιότητας που βασίζονται σε χαρακτηριστικά περιεχομένου πολλαπλής κλίμακας που ανακτώνται από έναν κωδικοποιητή για τη διατήρηση των λεπτομερειών του καρέ.
Η προκύπτουσα πλήρως συνελικτική αρχιτεκτονική λαμβάνει ως είσοδο μη ευθυγραμμισμένα πρόσωπα σε ταινίες μεταβλητού μεγέθους, με αποτέλεσμα περιοχές ολόκληρου του προσώπου με ρεαλιστικές κινήσεις στην έξοδο.
Αυτό το πλαίσιο είναι συμβατό με τα τρέχοντα μοντέλα τονοποίησης εικόνων που βασίζονται στο StyleGAN, επιτρέποντάς τους να επεκταθούν σε τονωτικό βίντεο και κληρονομούν ελκυστικά χαρακτηριστικά, όπως ρυθμιζόμενη προσαρμογή χρώματος και έντασης.
Αυτός ο διαλογισμός στα μελέτη εισάγει δύο παρουσίες του VToonify που βασίζονται στο Toonify και στο DualStyleGAN για μεταφορά βίντεο πορτρέτου βάσει συλλογής και βάσει υποδειγμάτων, αντίστοιχα.
Εκτεταμένα πειραματικά ευρήματα δείχνουν ότι το προτεινόμενο πλαίσιο VToonify ξεπερνά τις υπάρχουσες προσεγγίσεις στη δημιουργία υψηλής ποιότητας, χρονικά συνεκτικών καλλιτεχνικών ταινιών πορτραίτου με μεταβλητές παραμέτρους στυλ.
Οι ερευνητές παρέχουν το Σημειωματάριο Google Colab, ώστε να μπορείτε να λερώσετε τα χέρια σας πάνω του.
Πώς λειτουργεί;
Για να επιτύχει ρυθμιζόμενη μεταφορά στυλ βίντεο πορτρέτου υψηλής ανάλυσης, το VToonify συνδυάζει τα πλεονεκτήματα του πλαισίου μετάφρασης εικόνας με το πλαίσιο που βασίζεται στο StyleGAN.
Για να φιλοξενήσει διαφορετικά μεγέθη εισόδου, το σύστημα μετάφρασης εικόνας χρησιμοποιεί πλήρως συνελικτικά δίκτυα. Η προπόνηση από την αρχή, από την άλλη πλευρά, καθιστά αδύνατη τη μετάδοση υψηλής ανάλυσης και ελεγχόμενου στυλ.
Το προεκπαιδευμένο μοντέλο StyleGAN χρησιμοποιείται στο πλαίσιο που βασίζεται στο StyleGAN για μεταφορά υψηλής ανάλυσης και ελεγχόμενου στυλ, αν και περιορίζεται σε σταθερό μέγεθος εικόνας και απώλειες λεπτομέρειας.
Το StyleGAN τροποποιείται στο υβριδικό πλαίσιο διαγράφοντας τη δυνατότητα εισόδου σταθερού μεγέθους και τα επίπεδα χαμηλής ανάλυσης, με αποτέλεσμα μια πλήρως συνελικτική αρχιτεκτονική κωδικοποιητή-γεννήτριας παρόμοια με αυτή του πλαισίου μετάφρασης εικόνας.
Για να διατηρήσετε τις λεπτομέρειες του πλαισίου, εκπαιδεύστε έναν κωδικοποιητή ώστε να εξάγει χαρακτηριστικά περιεχομένου πολλαπλής κλίμακας του πλαισίου εισόδου ως πρόσθετη απαίτηση περιεχομένου στη γεννήτρια. Το Vtoonify κληρονομεί την ευελιξία ελέγχου στυλ του μοντέλου StyleGAN τοποθετώντας το στη γεννήτρια για να αποστάξει τόσο τα δεδομένα όσο και το μοντέλο του.
Περιορισμοί του StyleGAN & του προτεινόμενου Vtoonify
Τα καλλιτεχνικά πορτρέτα είναι κοινά στην καθημερινή μας ζωή καθώς και σε δημιουργικές επιχειρήσεις όπως η τέχνη, social media άβαταρ, ταινίες, διαφημίσεις ψυχαγωγίας και ούτω καθεξής.
Με την ανάπτυξη του βαθιά μάθηση τεχνολογίας, είναι πλέον δυνατή η δημιουργία καλλιτεχνικών πορτρέτων υψηλής ποιότητας από φωτογραφίες πραγματικών προσώπων χρησιμοποιώντας αυτοματοποιημένη μεταφορά στυλ πορτρέτου.
Υπάρχουν διάφοροι επιτυχημένοι τρόποι που δημιουργήθηκαν για τη μεταφορά στυλ βάσει εικόνας, πολλοί από τους οποίους είναι εύκολα προσβάσιμοι σε αρχάριους χρήστες με τη μορφή εφαρμογών για κινητά. Το υλικό βίντεο έχει γίνει γρήγορα βασικός πυλώνας των ροών μας στα μέσα κοινωνικής δικτύωσης τα τελευταία χρόνια.
Η άνοδος των μέσων κοινωνικής δικτύωσης και των εφήμερων ταινιών έχει αυξήσει τη ζήτηση για καινοτόμο επεξεργασία βίντεο, όπως η μεταφορά στυλ βίντεο πορτρέτου, για τη δημιουργία επιτυχημένων και ενδιαφέροντων βίντεο.
Οι υπάρχουσες τεχνικές προσανατολισμένες στην εικόνα έχουν σημαντικά μειονεκτήματα όταν εφαρμόζονται σε ταινίες, περιορίζοντας τη χρησιμότητά τους στην αυτοματοποιημένη στυλιζάρισμα βίντεο πορτρέτου.
Το StyleGAN είναι μια κοινή βάση για την ανάπτυξη ενός μοντέλου μεταφοράς στυλ εικόνας πορτρέτου λόγω της ικανότητάς του να δημιουργεί πρόσωπα υψηλής ποιότητας με ρυθμιζόμενη διαχείριση στυλ.
Ένα σύστημα που βασίζεται στο StyleGAN (γνωστό και ως τοονοποίηση εικόνων) κωδικοποιεί ένα πραγματικό πρόσωπο στον λανθάνοντα χώρο StyleGAN και στη συνέχεια εφαρμόζει τον κώδικα στυλ που προκύπτει σε ένα άλλο StyleGAN προσαρμοσμένο με ακρίβεια στο σύνολο δεδομένων καλλιτεχνικών πορτρέτων για να δημιουργήσει μια στυλιζαρισμένη έκδοση.
Το StyleGAN δημιουργεί εικόνες με ευθυγραμμισμένα πρόσωπα και σε σταθερό μέγεθος, το οποίο δεν ευνοεί τα δυναμικά πρόσωπα σε πλάνα του πραγματικού κόσμου. Η περικοπή προσώπου και η ευθυγράμμιση στο βίντεο μερικές φορές οδηγούν σε μερικό πρόσωπο και άβολες χειρονομίες. Οι ερευνητές αποκαλούν αυτό το ζήτημα «περιορισμός σταθερής καλλιέργειας» του StyleGAN.
Για μη ευθυγραμμισμένα πρόσωπα, έχει προταθεί το StyleGAN3. Ωστόσο, υποστηρίζει μόνο ένα καθορισμένο μέγεθος εικόνας.
Επιπλέον, μια πρόσφατη μελέτη ανακάλυψε ότι η κωδικοποίηση μη ευθυγραμμισμένων προσώπων είναι πιο δύσκολη από τα ευθυγραμμισμένα πρόσωπα. Η λανθασμένη κωδικοποίηση προσώπων είναι επιβλαβής για τη μεταφορά στυλ πορτρέτου, με αποτέλεσμα ζητήματα όπως η αλλαγή ταυτότητας και τα στοιχεία που λείπουν στα ανακατασκευασμένα και με στυλ καρέ.
Όπως συζητήθηκε, μια αποτελεσματική τεχνική για τη μεταφορά στυλ βίντεο πορτρέτου πρέπει να χειρίζεται τα ακόλουθα ζητήματα:
- Για να διατηρηθούν οι ρεαλιστικές κινήσεις, η προσέγγιση πρέπει να μπορεί να αντιμετωπίζει μη ευθυγραμμισμένα πρόσωπα και ποικίλα μεγέθη βίντεο. Ένα μεγάλο μέγεθος βίντεο ή μια ευρεία γωνία θέασης, μπορεί να καταγράψει περισσότερες πληροφορίες, ενώ το πρόσωπο δεν μετακινείται εκτός κάδρου.
- Για να ανταγωνιστείτε τα σημερινά ευρέως χρησιμοποιούμενα gadget HD, είναι απαραίτητο βίντεο υψηλής ανάλυσης.
- Θα πρέπει να προσφέρεται ευέλικτο στυλ ελέγχου ώστε οι χρήστες να αλλάζουν και να επιλέγουν την επιλογή τους όταν αναπτύσσουν ένα ρεαλιστικό σύστημα αλληλεπίδρασης με τον χρήστη.
Για το σκοπό αυτό, οι ερευνητές προτείνουν το VToonify, ένα νέο υβριδικό πλαίσιο για τονισμό βίντεο. Για να ξεπεραστεί ο σταθερός περιορισμός των καλλιεργειών, οι ερευνητές μελετούν πρώτα την ισοδυναμία μετάφρασης στο StyleGAN.
Το VToonify συνδυάζει τα πλεονεκτήματα της αρχιτεκτονικής που βασίζεται στο StyleGAN και του πλαισίου μετάφρασης εικόνας για να επιτύχει ρυθμιζόμενη μεταφορά στυλ βίντεο πορτρέτου υψηλής ανάλυσης.
Οι ακόλουθες είναι οι σημαντικότερες συνεισφορές:
- Οι ερευνητές διερευνούν τον περιορισμό σταθερής καλλιέργειας του StyleGAN και προτείνουν μια λύση που βασίζεται στην ισοδυναμία μετάφρασης.
- Οι ερευνητές παρουσιάζουν ένα μοναδικό πλήρως συνελικτικό πλαίσιο VToonify για ελεγχόμενη μεταφορά στυλ βίντεο πορτρέτου υψηλής ανάλυσης που υποστηρίζει μη ευθυγραμμισμένα πρόσωπα και διαφορετικά μεγέθη βίντεο.
- Οι ερευνητές κατασκευάζουν το VToonify στους βασικούς άξονες των Toonify και DualStyleGAN και συμπυκνώνουν τις ραχοκοκαλιές όσον αφορά τόσο τα δεδομένα όσο και το μοντέλο για να επιτρέψουν τη μεταφορά στυλ βίντεο πορτρέτου βάσει συλλογής και υποδειγμάτων.
Συγκρίνοντας το Vtoonify με άλλα μοντέλα τελευταίας τεχνολογίας
Toonify
Χρησιμεύει ως βάση για μεταφορά στυλ με βάση τη συλλογή σε ευθυγραμμισμένα πρόσωπα χρησιμοποιώντας το StyleGAN. Για να ανακτήσουν τους κωδικούς στυλ, οι ερευνητές πρέπει να ευθυγραμμίσουν πρόσωπα και να περικόψουν 256256 φωτογραφίες για το PSP. Το Toonify χρησιμοποιείται για τη δημιουργία ενός στυλιζαρισμένου αποτελέσματος με κωδικούς στυλ 1024*1024.
Τέλος, ευθυγραμμίζουν εκ νέου το αποτέλεσμα στο βίντεο στην αρχική του θέση. Η μη στυλιζαρισμένη περιοχή έχει ρυθμιστεί σε μαύρο.
DualStyleGAN
Είναι η ραχοκοκαλιά για μεταφορά στυλ βασισμένη σε υποδείγματα που βασίζεται στο StyleGAN. Χρησιμοποιούν τις ίδιες τεχνικές πριν και μετά την επεξεργασία δεδομένων με το Toonify.
Pix2pixHD
Είναι ένα μοντέλο μετάφρασης εικόνας σε εικόνα που χρησιμοποιείται συνήθως για τη συμπύκνωση προεκπαιδευμένων μοντέλων για επεξεργασία υψηλής ανάλυσης. Εκπαιδεύεται με χρήση ζευγαρωμένων δεδομένων.
Οι ερευνητές χρησιμοποιούν το pix2pixHD ως πρόσθετες εισόδους χαρτών παρουσίας, καθώς χρησιμοποιεί εξαγόμενο χάρτη ανάλυσης.
Κίνηση πρώτης τάξης
Το FOM είναι ένα τυπικό μοντέλο κινούμενης εικόνας. Εκπαιδεύτηκε σε 256256 εικόνες και έχει κακή απόδοση με άλλα μεγέθη εικόνας. Ως αποτέλεσμα, οι ερευνητές πρώτα κλιμακώνουν τα καρέ βίντεο σε 256*256 για το FOM σε κινούμενη εικόνα και στη συνέχεια αλλάζουν το μέγεθος των αποτελεσμάτων στο αρχικό τους μέγεθος.
Για μια δίκαιη σύγκριση, η FOM χρησιμοποιεί το πρώτο στυλιζαρισμένο πλαίσιο της προσέγγισής της ως εικόνα στυλ αναφοράς.
DaGAN
Είναι ένα τρισδιάστατο μοντέλο κινούμενων σχεδίων προσώπου. Χρησιμοποιούν τις ίδιες μεθόδους προετοιμασίας και μετεπεξεργασίας δεδομένων με το FOM.
Πλεονεκτήματα
- Μπορεί να χρησιμοποιηθεί στις τέχνες, στα είδωλα των μέσων κοινωνικής δικτύωσης, στις ταινίες, στη διαφήμιση ψυχαγωγίας και ούτω καθεξής.
- Το Vtoonify μπορεί επίσης να χρησιμοποιηθεί στο metaverse.
Περιορισμοί
- Αυτή η μεθοδολογία εξάγει τόσο τα δεδομένα όσο και το μοντέλο από τους κορμούς που βασίζονται στο StyleGAN, με αποτέλεσμα την προκατάληψη δεδομένων και μοντέλου.
- Τα τεχνουργήματα προκαλούνται κυρίως από διαφορές μεγέθους μεταξύ της περιοχής του στυλιζαρισμένου προσώπου και των άλλων τμημάτων.
- Αυτή η στρατηγική είναι λιγότερο επιτυχημένη όταν αντιμετωπίζετε πράγματα στην περιοχή του προσώπου.
Συμπέρασμα
Τέλος, το VToonify είναι ένα πλαίσιο για ελεγχόμενη από στυλ υψηλής ανάλυσης βίντεο toonification.
Αυτό το πλαίσιο επιτυγχάνει εξαιρετική απόδοση στο χειρισμό βίντεο και επιτρέπει τον ευρύ έλεγχο του δομικού στυλ, του στυλ χρώματος και του βαθμού στυλ, συμπυκνώνοντας μοντέλα βελτιστοποίησης εικόνας που βασίζονται στο StyleGAN τόσο από την άποψη τους. συνθετικά δεδομένα και δομές δικτύου.
Αφήστε μια απάντηση