Τα τελευταία χρόνια, τα μοντέλα παραγωγής που ονομάζονται «μοντέλα διάχυσης» έχουν γίνει ολοένα και πιο δημοφιλή και με καλό σκοπό.
Ο κόσμος έχει δει τι είναι ικανά τα μοντέλα διάχυσης, όπως η καλύτερη απόδοση των GAN στη σύνθεση εικόνων, χάρη σε ορισμένες επιλεγμένες δημοσιεύσεις ορόσημα που δημοσιεύθηκαν μόλις τη δεκαετία του 2020 και του 2021.
Οι ασκούμενοι είδαν πιο πρόσφατα τη χρήση μοντέλων διάχυσης DALL-E2, το μοντέλο δημιουργίας εικόνας του OpenAI που δημοσιεύτηκε τον περασμένο μήνα.
Πολλοί επαγγελματίες της Μηχανικής Μάθησης είναι αναμφίβολα περίεργοι για την εσωτερική λειτουργία των Μοντέλων Διάχυσης δεδομένης της πρόσφατης επιτυχίας τους.
Σε αυτήν την ανάρτηση, θα εξετάσουμε τις θεωρητικές βάσεις των μοντέλων διάχυσης, τον σχεδιασμό τους, τα πλεονεκτήματά τους και πολλά άλλα. Ας ξεκινήσουμε.
Τι είναι το μοντέλο διάχυσης;
Ας ξεκινήσουμε με το να καταλάβουμε γιατί αυτό το μοντέλο αναφέρεται ως μοντέλο διάχυσης.
Μια λέξη που σχετίζεται με τη θερμοδυναμική στα μαθήματα φυσικής ονομάζεται διάχυση. Ένα σύστημα δεν βρίσκεται σε ισορροπία εάν υπάρχει μεγάλη συγκέντρωση ενός υλικού, όπως ένα άρωμα, σε μια θέση.
Πρέπει να συμβεί διάχυση για να εισέλθει το σύστημα σε ισορροπία. Τα μόρια του αρώματος διαχέονται σε όλο το σύστημα από μια περιοχή υψηλότερης συγκέντρωσης, καθιστώντας το σύστημα ομοιόμορφο παντού.
Όλα τελικά γίνονται ομοιογενή λόγω της διάχυσης.
Τα μοντέλα διάχυσης παρακινούνται από αυτή τη θερμοδυναμική συνθήκη μη ισορροπίας. Τα μοντέλα διάχυσης χρησιμοποιούν μια αλυσίδα Markov, η οποία είναι μια σειρά μεταβλητών όπου η τιμή κάθε μεταβλητής βασίζεται στην κατάσταση του προηγούμενου συμβάντος.
Τραβώντας μια φωτογραφία, προσθέτουμε διαδοχικά μια συγκεκριμένη ποσότητα θορύβου σε όλη τη φάση της διάχυσης προς τα εμπρός.
Αφού αποθηκεύσουμε την πιο θορυβώδη εικόνα, προχωράμε στη δημιουργία της επόμενης εικόνας στη σειρά εισάγοντας πρόσθετο θόρυβο.
Πολλές φορές γίνεται αυτή η διαδικασία. Μια εικόνα καθαρού θορύβου προκύπτει από την επανάληψη αυτής της μεθόδου μερικές φορές.
Πώς μπορούμε τότε να δημιουργήσουμε μια εικόνα από αυτήν την ακατάστατη εικόνα;
Η διαδικασία διάχυσης αντιστρέφεται χρησιμοποιώντας α νευρικό σύστημα. Τα ίδια δίκτυα και τα ίδια βάρη χρησιμοποιούνται στη διαδικασία διάχυσης προς τα πίσω για τη δημιουργία της εικόνας από t έως t-1.
Αντί να αφήσουμε το δίκτυο να προβλέψει την εικόνα, μπορεί κανείς να προσπαθήσει να προβλέψει τον θόρυβο σε κάθε βήμα, ο οποίος πρέπει να αφαιρεθεί από την εικόνα, προκειμένου να απλοποιηθεί περαιτέρω η εργασία.
Σε κάθε σενάριο, το σχεδιασμός νευρωνικών δικτύων πρέπει να επιλεγεί με τρόπο που να διατηρεί τη διάσταση των δεδομένων.
Deep Dive into Diffusion Model
Τα στοιχεία ενός μοντέλου διάχυσης είναι μια διαδικασία προς τα εμπρός (επίσης γνωστή ως διεργασία διάχυσης), στην οποία ένα σημείο αναφοράς (συχνά μια εικόνα) ακούγεται σταδιακά και μια αντίστροφη διαδικασία (επίσης γνωστή ως διαδικασία αντίστροφης διάχυσης), στην οποία ο θόρυβος είναι μετατρέπεται ξανά σε δείγμα από την κατανομή στόχο.
Όταν το επίπεδο θορύβου είναι αρκετά χαμηλό, τα υπό όρους Gaussians μπορούν να χρησιμοποιηθούν για να καθοριστούν οι μεταβάσεις της αλυσίδας δειγματοληψίας στη διαδικασία προς τα εμπρός. Μια εύκολη παραμετροποίηση της μπροστινής διαδικασίας προκύπτει από τη σύζευξη αυτής της γνώσης με την υπόθεση Markov:
q(x1:T |x0) := YT t=1 q(xt|xt−1), q(xt|xt−1) := N (xt; p 1 − βtxt−1, βtI)
Εδώ 1 ....Το T είναι ένα πρόγραμμα διακύμανσης (είτε μαθημένο είτε σταθερό) που διασφαλίζει, για αρκετά υψηλό Τ, ότι το xT είναι ουσιαστικά ένα ισότροπο Gaussian.
Η αντίθετη διαδικασία είναι όπου συμβαίνει η μαγεία του μοντέλου διάχυσης. Το μοντέλο μαθαίνει να αντιστρέφει αυτή τη διαδικασία διάχυσης κατά τη διάρκεια της εκπαίδευσης προκειμένου να παράγει νέα δεδομένα. Το μοντέλο μαθαίνει την κοινή κατανομή ως (x0:T) το αποτέλεσμα της έναρξης με την καθαρή εξίσωση θορύβου Gauss
(xT):=Ν(xT,0,I).
pθ(x0:T ) := p(xT ) YT t=1 pθ(xt−1|xt), pθ(xt−1|xt) := N (xt−1; μθ (xt, t), Σθ( xt, t))
όπου ανακαλύπτονται οι χρονικά εξαρτώμενες παράμετροι των μεταβάσεων Gauss. Ειδικότερα, σημειώστε πώς η διατύπωση Markov δηλώνει ότι μια δεδομένη κατανομή μετάβασης αντίστροφης διάχυσης εξαρτάται αποκλειστικά από το προηγούμενο χρονικό βήμα (ή το επόμενο χρονικό βήμα, ανάλογα με το πώς το βλέπετε):
pθ(xt−1|xt) := N (xt−1; μθ (xt, t), Σθ(xt, t))
Εκπαίδευση μοντέλων
Ένα αντίστροφο μοντέλο Markov που μεγιστοποιεί την πιθανότητα των δεδομένων εκπαίδευσης χρησιμοποιείται για την εκπαίδευση ενός μοντέλου διάχυσης. Πρακτικά μιλώντας, η εκπαίδευση είναι ανάλογη με τη μείωση του μεταβλητού άνω ορίου στην πιθανότητα αρνητικού log.
E [− log pθ(x0)] ≤ Eq − log pθ(x0:T ) q(x1:T |x0) = Eq − log p(xT ) − X t≥1 log pθ(xt−1|xt) q (xt|xt−1) =: L
Μοντέλα
Τώρα πρέπει να αποφασίσουμε πώς να εκτελέσουμε το Μοντέλο Διάχυσης αφού καθορίσουμε τα μαθηματικά θεμέλια της συνάρτησης στόχου μας. Η μόνη απόφαση που απαιτείται για τη διαδικασία προώθησης είναι ο καθορισμός του χρονοδιαγράμματος διακύμανσης, του οποίου οι τιμές συνήθως αυξάνονται κατά τη διάρκεια της διαδικασίας.
Εξετάζουμε έντονα τη χρήση της παραμετροποίησης κατανομής Gauss και της αρχιτεκτονικής του μοντέλου για την αντίστροφη διαδικασία.
Μοναδική προϋπόθεση του σχεδιασμού μας είναι τόσο η είσοδος όσο και η έξοδος να έχουν τις ίδιες διαστάσεις. Αυτό υπογραμμίζει τον τεράστιο βαθμό ελευθερίας που παρέχουν τα μοντέλα διάχυσης.
Παρακάτω, θα πάμε σε μεγαλύτερο βάθος σχετικά με αυτές τις επιλογές.
Προώθηση Διαδικασία
Πρέπει να παρέχουμε το χρονοδιάγραμμα διακύμανσης σε σχέση με τη διαδικασία προώθησης. Τις ορίσαμε συγκεκριμένα ως σταθερές που εξαρτώνται από το χρόνο και παραβλέψαμε την πιθανότητα να μπορούν να μάθουν. Χρονολογικό πρόγραμμα από
β1 = 10−4 έως βT = 0.02.
Lt γίνεται σταθερά σε σχέση με το σύνολο των παραμέτρων εκμάθησης λόγω του σταθερού χρονοδιαγράμματος διακύμανσης, επιτρέποντάς μας να το αγνοήσουμε κατά τη διάρκεια της προπόνησης ανεξάρτητα από τις συγκεκριμένες τιμές που έχουν επιλεγεί.
Αντίστροφη διαδικασία
Τώρα εξετάζουμε τις αποφάσεις που απαιτούνται για να ορίσουμε την αντίστροφη διαδικασία. Θυμηθείτε πώς περιγράψαμε τις αντίστροφες μεταβάσεις Markov ως Gaussian:
pθ(xt−1|xt) := N (xt−1; μθ (xt, t), Σθ(xt, t))
Τώρα που προσδιορίσαμε τους λειτουργικούς τύπους. Παρά το γεγονός ότι υπάρχουν πιο περίπλοκες τεχνικές για παραμετροποίηση, απλώς ορίσαμε
Σθ(xt, t) = σ 2 t I
σ 2 t = βt
Για να το θέσουμε διαφορετικά, θεωρούμε ότι η πολυμεταβλητή Gaussian είναι το αποτέλεσμα ξεχωριστών Gaussian με την ίδια διακύμανση, μια τιμή διακύμανσης που μπορεί να κυμαίνεται με την πάροδο του χρόνου. Αυτές οι αποκλίσεις έχουν ρυθμιστεί ώστε να αντιστοιχούν στο χρονοδιάγραμμα των αποκλίσεων της διαδικασίας προώθησης.
Ως αποτέλεσμα αυτής της νέας διατύπωσης, έχουμε:
pθ(xt−1|xt) := N (xt−1; μθ (xt, t), Σθ(xt, t)) :=N (xt−1; μθ (xt, t), σ2 t I)
Αυτό έχει ως αποτέλεσμα την εναλλακτική συνάρτηση απώλειας που φαίνεται παρακάτω, η οποία οι συγγραφείς βρήκαν ότι παράγει πιο συνεπή εκπαίδευση και ανώτερα αποτελέσματα:
Lsimple(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
Οι συγγραφείς κάνουν επίσης συνδέσεις μεταξύ αυτής της διατύπωσης μοντέλων διάχυσης και των μοντέλων δημιουργίας αντιστοίχισης βαθμολογίας που βασίζονται στο Langevin. Όπως και με την ανεξάρτητη και παράλληλη ανάπτυξη της κβαντικής φυσικής με βάση τα κύματα και της κβαντικής μηχανικής βασισμένης σε μήτρες, η οποία αποκάλυψε δύο συγκρίσιμες διατυπώσεις των ίδιων φαινομένων, φαίνεται ότι τα μοντέλα διάχυσης και τα μοντέλα με βάση το σκορ μπορεί να είναι δύο όψεις του ίδιου νομίσματος.
Αρχιτεκτονική δικτύου
Παρά το γεγονός ότι η λειτουργία συμπυκνωμένης απώλειας στοχεύει στην εκπαίδευση ενός μοντέλου Σθ, ακόμα δεν έχουμε αποφασίσει για την αρχιτεκτονική αυτού του μοντέλου. Λάβετε υπόψη ότι το μοντέλο πρέπει απλώς να έχει τις ίδιες διαστάσεις εισόδου και εξόδου.
Δεδομένου αυτού του περιορισμού, πιθανότατα δεν είναι απροσδόκητο ότι αρχιτεκτονικές τύπου U-Net χρησιμοποιούνται συχνά για τη δημιουργία μοντέλων διάχυσης εικόνων.
Γίνονται πολυάριθμες αλλαγές κατά μήκος της διαδρομής της αντίστροφης διαδικασίας ενώ χρησιμοποιούνται συνεχείς υπό συνθήκη κατανομές Gauss. Θυμηθείτε ότι ο στόχος της αντίστροφης διαδικασίας είναι να δημιουργήσετε μια εικόνα που αποτελείται από ακέραιες τιμές pixel. Επομένως, είναι απαραίτητος ο προσδιορισμός διακριτών (log) πιθανοτήτων για κάθε πιθανή τιμή pixel σε όλα τα pixel.
Αυτό επιτυγχάνεται με την ανάθεση ενός ξεχωριστού διακριτού αποκωδικοποιητή στην τελευταία μετάβαση της αλυσίδας αντίστροφης διάχυσης. εκτιμώντας την πιθανότητα μιας συγκεκριμένης εικόνας x0 δεδομένου x1.
pθ(x0|x1) = YD i=1 Z δ+(xi 0 ) δ−(xi 0 ) N (x; μ i θ (x1, 1), σ2 1 ) dx
δ+(x) = ∞ αν x = 1 x + 1 255 αν x < 1 δ−(x) = −∞ αν x = −1 x − 1 255 αν x > −1
όπου ο εκθέτης I υποδηλώνει την εξαγωγή μιας συντεταγμένης και το D τον αριθμό των διαστάσεων στα δεδομένα.
Ο στόχος σε αυτό το σημείο είναι να καθοριστεί η πιθανότητα κάθε ακέραιας τιμής για ένα συγκεκριμένο εικονοστοιχείο δεδομένης της κατανομής των πιθανών τιμών για αυτό το εικονοστοιχείο στη χρονική μεταβλητή t=1.
Τελικός στόχος
Τα μεγαλύτερα αποτελέσματα, σύμφωνα με τους επιστήμονες, προήλθαν από την πρόβλεψη του στοιχείου θορύβου μιας εικόνας σε ένα συγκεκριμένο χρονικό βήμα. Στο τέλος, επιδιώκουν τον ακόλουθο στόχο:
Lsimple(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
Στην παρακάτω εικόνα, οι διαδικασίες εκπαίδευσης και δειγματοληψίας για το μοντέλο διάχυσης απεικονίζονται συνοπτικά:
Οφέλη του μοντέλου διάχυσης
Όπως αναφέρθηκε ήδη, ο όγκος της έρευνας για τα μοντέλα διάχυσης έχει πολλαπλασιαστεί πρόσφατα. Τα μοντέλα διάχυσης προσφέρουν πλέον κορυφαία ποιότητα εικόνας και εμπνέονται από τη θερμοδυναμική μη ισορροπίας.
Τα μοντέλα διάχυσης παρέχουν μια ποικιλία άλλων πλεονεκτημάτων εκτός από την ποιότητα εικόνας αιχμής, όπως το να μην απαιτούν αντίπαλη εκπαίδευση.
Τα μειονεκτήματα της αντίθετης εκπαίδευσης είναι ευρέως γνωστά, επομένως είναι συχνά προτιμότερο να επιλέγουμε εναλλακτικές εναλλακτικές λύσεις με ισοδύναμη απόδοση και αποτελεσματικότητα εκπαίδευσης.
Τα μοντέλα διάχυσης παρέχουν επίσης τα πλεονεκτήματα της επεκτασιμότητας και της παραλληλισμού όσον αφορά την αποτελεσματικότητα της εκπαίδευσης.
Αν και τα Μοντέλα Διάχυσης φαίνεται να παράγουν αποτελέσματα φαινομενικά από τον αέρα, η βάση για αυτά τα αποτελέσματα τίθεται από μια σειρά στοχαστικών και ενδιαφέρουσες μαθηματικές αποφάσεις και λεπτότητες, και οι βέλτιστες πρακτικές του κλάδου εξακολουθούν να αναπτύσσονται.
Συμπέρασμα
Συμπερασματικά, οι ερευνητές επιδεικνύουν ευρήματα σύνθεσης εικόνας υψηλής ποιότητας χρησιμοποιώντας πιθανολογικά μοντέλα διάχυσης, μια κατηγορία μοντέλων λανθάνουσας μεταβλητής που υποκινούνται από ιδέες από τη θερμοδυναμική μη ισορροπίας.
Έχουν επιτύχει τεράστια πράγματα χάρη στα υπερσύγχρονα αποτελέσματα και την εκπαίδευσή τους χωρίς αντίπαλο και δεδομένης της νηπιακής τους ηλικίας, ενδέχεται να αναμένονται περισσότερες προόδους τα επόμενα χρόνια.
Συγκεκριμένα, έχει ανακαλυφθεί ότι τα μοντέλα διάχυσης είναι ζωτικής σημασίας για τη λειτουργικότητα προηγμένων μοντέλων όπως το DALL-E 2.
Εδώ μπορείτε να έχετε πρόσβαση στην πλήρη έρευνα.
Αφήστε μια απάντηση