Πίνακας περιεχομένων[Κρύβω][Προβολή]
Γενικά, τα μοντέλα βαθιάς δημιουργίας όπως τα GAN, τα VAE και τα αυτοπαλινδρομικά μοντέλα χειρίζονται προβλήματα σύνθεσης εικόνας.
Δεδομένης της υψηλής ποιότητας των δεδομένων που δημιουργούν, τα Generative Adversarial Networks (GAN) έχουν λάβει μεγάλη προσοχή τα τελευταία χρόνια.
Τα μοντέλα διάχυσης είναι ένα άλλο συναρπαστικό πεδίο μελέτης που έχει καθιερωθεί. Τα πεδία της δημιουργίας εικόνας, βίντεο και φωνής έχουν βρει εκτενή χρήση και για τα δύο.
Μοντέλα διάχυσης έναντι GANs: Ποια παράγει καλύτερα αποτελέσματα; Φυσικά, αυτό οδήγησε σε μια συνεχή συζήτηση.
Στην υπολογιστική αρχιτεκτονική γνωστή ως GAN, δύο νευρωνικά δίκτυα μάχονται ο ένας εναντίον του άλλου για την παραγωγή νέων παρουσιών δεδομένων που μπορούν να περάσουν για γνήσια δεδομένα.
Τα μοντέλα διάχυσης γίνονται όλο και πιο δημοφιλή, καθώς παρέχουν σταθερότητα εκπαίδευσης και υψηλά αποτελέσματα για την παραγωγή μουσικής και γραφικών.
Αυτό το άρθρο θα εξετάσει λεπτομερώς το μοντέλο διάχυσης και τα GAN, καθώς και πώς διαφέρουν μεταξύ τους και μερικά άλλα πράγματα.
Λοιπόν, τι είναι τα Generative Adversarial Networks;
Προκειμένου να δημιουργηθούν νέα, τεχνητά στιγμιότυπα δεδομένων που μπορεί να θεωρηθούν αυθεντικά δεδομένα, τα παραγωγικά ανταγωνιστικά δίκτυα (GANs) χρησιμοποιούν δύο νευρωνικά δίκτυα και τα φέρνουν το ένα ενάντια στο άλλο (άρα το «αντίπαλο» στο όνομα).
Χρησιμοποιούνται εκτενώς για δημιουργία ομιλίας, βίντεο και εικόνας.
Ο στόχος του GAN είναι να δημιουργήσει δεδομένα που δεν είχαν ανακαλυφθεί στο παρελθόν από ένα συγκεκριμένο σύνολο δεδομένων. Η προσπάθεια εξαγωγής συμπερασμάτων ενός μοντέλου της πραγματικής, μη αναγνωρισμένης υποκείμενης κατανομής δεδομένων από τα δείγματα, το κάνει αυτό.
Εναλλακτικά, αυτά τα δίκτυα είναι υπονοούμενα μοντέλα που προσπαθούν να μάθουν μια συγκεκριμένη στατιστική κατανομή.
Η μέθοδος που χρησιμοποιούσε το GAN για να ανακαλύψει πώς να επιτύχει αυτόν τον στόχο ήταν νέα. Στην πραγματικότητα, παράγουν δεδομένα παίζοντας ένα παιχνίδι δύο παικτών για να αναπτύξουν ένα σιωπηρό μοντέλο.
Τα παρακάτω περιγράφουν τη δομή:
- ένας Διακριτικός που αποκτά τη δυνατότητα διαφοροποίησης μεταξύ αυθεντικών και πλαστών δεδομένων
- μια γεννήτρια που επιλέγει νέους τρόπους για τη δημιουργία δεδομένων μπορεί να ξεγελάσει το άτομο που διακρίνει.
Ο διαχωριστής παρουσιάζεται ως ένα νευρωνικό δίκτυο. Επομένως, η γεννήτρια πρέπει να δημιουργήσει μια εικόνα υψηλής ποιότητας για να την ξεγελάσει.
Το γεγονός ότι αυτές οι γεννήτριες δεν εκπαιδεύονται χρησιμοποιώντας καμία κατανομή εξόδου είναι μια σημαντική διάκριση μεταξύ των μοντέλων αυτόματου κωδικοποιητή και άλλων μοντέλων.
Υπάρχουν δύο τρόποι για να αποσυντεθεί η συνάρτηση απώλειας του μοντέλου:
- τη δυνατότητα ποσοτικοποίησης εάν ο υπεύθυνος διάκρισης προβλέπει με ακρίβεια πραγματικά δεδομένα
- τα δεδομένα που δημιουργούνται προβλέπονται με ακρίβεια από ένα τμήμα.
Στον καλύτερο δυνατό διαχωριστή, αυτή η συνάρτηση απώλειας ελαχιστοποιείται στη συνέχεια:
Τα γενικά μοντέλα μπορούν επομένως να θεωρηθούν ως μοντέλα ελαχιστοποίησης απόστασης και, εάν ο διαχωριστής είναι ιδανικός, ως ελαχιστοποίηση της απόκλισης μεταξύ της πραγματικής και της παραγόμενης κατανομής.
Στην πραγματικότητα, μπορεί να χρησιμοποιηθούν διαφορετικές αποκλίσεις και να οδηγήσουν σε διάφορες μεθόδους εκπαίδευσης GAN.
Η δυναμική εκμάθησης, η οποία περιλαμβάνει μια αντιστάθμιση μεταξύ της γεννήτριας και της συσκευής διάκρισης, είναι δύσκολο να ακολουθηθεί, παρά το γεγονός ότι είναι απλή η προσαρμογή της συνάρτησης απώλειας των GAN.
Επίσης, δεν υπάρχουν διαβεβαιώσεις ότι η μάθηση θα συγκλίνει. Ως αποτέλεσμα, η εκπαίδευση ενός μοντέλου GAN είναι δύσκολη, καθώς είναι τυπικό να αντιμετωπίζονται προβλήματα όπως η εξαφάνιση των κλίσεων και η κατάρρευση της λειτουργίας (όταν δεν υπάρχει ποικιλομορφία στα δείγματα που δημιουργούνται).
Τώρα, ήρθε η ώρα για τα μοντέλα διάχυσης
Το πρόβλημα με τη σύγκλιση εκπαίδευσης των GANs έχει αντιμετωπιστεί μέσω της ανάπτυξης μοντέλων διάχυσης.
Αυτά τα μοντέλα υποθέτουν ότι μια διαδικασία διάχυσης είναι ισοδύναμη με απώλεια πληροφοριών που προκαλείται από την προοδευτική παρεμβολή του θορύβου (ένας γκαουσιανός θόρυβος προστίθεται σε κάθε στάδιο της διαδικασίας διάχυσης).
Ο σκοπός ενός τέτοιου μοντέλου είναι να προσδιορίσει πώς ο θόρυβος επηρεάζει τις πληροφορίες που υπάρχουν στο δείγμα ή, για να το θέσω αλλιώς, πόσες πληροφορίες χάνονται λόγω της διάχυσης.
Εάν ένα μοντέλο μπορεί να το καταλάβει αυτό, θα πρέπει να μπορεί να ανακτήσει το αρχικό δείγμα και να αναιρέσει την απώλεια πληροφοριών που προέκυψε.
Αυτό επιτυγχάνεται μέσω ενός μοντέλου διάχυσης αποθορυβοποίησης. Μια διαδικασία εμπρόσθιας διάχυσης και μια διαδικασία αντίστροφης διάχυσης αποτελούν τα δύο στάδια.
Η διαδικασία διάχυσης προς τα εμπρός περιλαμβάνει τη σταδιακή προσθήκη Gaussian θορύβου (δηλαδή, τη διαδικασία διάχυσης) έως ότου τα δεδομένα μολυνθούν πλήρως από το θόρυβο.
Το νευρωνικό δίκτυο στη συνέχεια εκπαιδεύεται χρησιμοποιώντας τη μέθοδο της αντίστροφης διάχυσης για να μάθει τις πιθανότητες κατανομής υπό όρους για την αντιστροφή του θορύβου.
Εδώ μπορείτε να καταλάβετε περισσότερα για το μοντέλο διάχυσης.
Model Diffusion Vs GANs
Όπως ένα μοντέλο διάχυσης, τα GAN παράγουν εικόνες από θόρυβο.
Το μοντέλο αποτελείται από ένα νευρωνικό δίκτυο γεννήτριας, το οποίο ξεκινά με το θόρυβο κάποιας πληροφοριακής μεταβλητής ρύθμισης, όπως μια ετικέτα κλάσης ή μια κωδικοποίηση κειμένου.
Το αποτέλεσμα θα πρέπει να είναι κάτι που μοιάζει με ρεαλιστική εικόνα.
Για να δημιουργήσουμε γενιές φωτορεαλιστικών και υψηλής πιστότητας εικόνων, χρησιμοποιούμε GAN. Ακόμη πιο ρεαλιστικά γραφικά από τα GAN παράγονται χρησιμοποιώντας μοντέλα διάχυσης.
Κατά κάποιο τρόπο, τα μοντέλα διάχυσης είναι πιο ακριβή στην περιγραφή των γεγονότων.
Ενώ ένα GAN λαμβάνει ως είσοδο τον τυχαίο θόρυβο ή μια μεταβλητή κλάσης και εξάγει ένα ρεαλιστικό δείγμα, τα μοντέλα διάχυσης είναι συχνά πιο αργά, επαναλαμβανόμενα και χρειάζονται πολύ περισσότερη καθοδήγηση.
Δεν υπάρχουν πολλά περιθώρια λάθους όταν η απενεργοποίηση θορύβων εφαρμόζεται επανειλημμένα με στόχο την επιστροφή στην αρχική εικόνα από τον θόρυβο.
Κάθε σημείο ελέγχου διέρχεται σε όλο το στάδιο της δημιουργίας και με κάθε βήμα, η εικόνα μπορεί να αποκτά όλο και περισσότερες πληροφορίες.
Συμπέρασμα
Συμπερασματικά, Λόγω λίγων σημαντικών ερευνών που δημοσιεύθηκαν μόνο τις δεκαετίες 2020 και 2021, τα μοντέλα διάχυσης μπορούν πλέον να ξεπεράσουν τα GAN όσον αφορά τη σύνθεση εικόνων.
Φέτος, ξεκίνησε το OpenAI DALL-E2, ένα μοντέλο παραγωγής εικόνας που επιτρέπει στους επαγγελματίες να χρησιμοποιούν μοντέλα διάχυσης.
Αν και τα GAN είναι αιχμής, οι περιορισμοί τους καθιστούν δύσκολη την κλιμάκωση και τη χρήση τους σε νέα περιβάλλοντα.
Προκειμένου να επιτευχθεί ποιότητα δείγματος παρόμοια με το GAN χρησιμοποιώντας μοντέλα που βασίζονται σε πιθανότητες, έχει γίνει πολλή δουλειά σε αυτό.
Αφήστε μια απάντηση