Τα μοντέλα διάχυσης έχουν σαρώσει την υδρόγειο από καταιγίδα με την κυκλοφορία του Dall-E 2, Imagen της Google, Σταθερή Διάχυση, να Μεσοταξίδι, πυροδοτώντας την καινοτομία και διευρύνοντας τα όρια της μηχανικής μάθησης.
Αυτά τα μοντέλα μπορούν να παράγουν σχεδόν απεριόριστο αριθμό εικόνων από προτροπές λέξεων, συμπεριλαμβανομένων φωτορεαλιστικών, μαγικών, φουτουριστικών και, φυσικά, χαριτωμένων εικόνων.
Αυτές οι δυνατότητες επαναλαμβάνουν τι σημαίνει για τον άνθρωπο η διασύνδεση με το πυρίτιο, δίνοντάς μας τη δυνατότητα να κάνουμε σχεδόν οποιαδήποτε εικόνα μπορούμε να οραματιστούμε.
Καθώς αυτά τα μοντέλα αναπτύσσονται ή το επόμενο γενεσιουργό παράδειγμα αναλαμβάνει, οι άνθρωποι θα μπορούν να παράγουν εικόνες, ταινίες και άλλες εμπειρίες που καθηλώνουν μόνο με μια σκέψη.
Σε αυτήν την ανάρτηση, θα συζητήσουμε το μοντέλο διάχυσης, σταθερή διάχυση, πώς λειτουργεί και ένα σεμινάριο ζωγραφικής μοντέλων διάχυσης, μεταξύ άλλων.
Τι είναι το μοντέλο διάχυσης;
Τα μοντέλα μηχανικής μάθησης που μπορούν να δημιουργήσουν νέα δεδομένα από δεδομένα εκπαίδευσης αναφέρονται ως παραγωγικά μοντέλα. Άλλα μοντέλα παραγωγής περιλαμβάνουν μοντέλα που βασίζονται σε ροή, αυτοκωδικοποιητές παραλλαγών και δίκτυα ανταλλάγματος (GAN).
Το καθένα μπορεί να δημιουργήσει εικόνες εξαιρετικής ποιότητας. Τα μοντέλα διάχυσης μαθαίνουν να ανακτούν τα δεδομένα αντιστρέφοντας αυτή τη διαδικασία προσθήκης θορύβου αφού καταστρέψουν τα δεδομένα εκπαίδευσης προσθέτοντας θόρυβο. Για να το θέσω αλλιώς, τα μοντέλα διάχυσης είναι σε θέση να δημιουργούν συνεκτικές εικόνες από το θόρυβο.
Τα μοντέλα διάχυσης μαθαίνουν εισάγοντας θόρυβο στις εικόνες, τον οποίο το μοντέλο καταργεί αργότερα. Προκειμένου να παραχθούν ρεαλιστικά γραφικά, το μοντέλο στη συνέχεια εφαρμόζει αυτήν την τεχνική αφαίρεσης θορύβων σε τυχαίους σπόρους.
Ρυθμίζοντας τη διαδικασία παραγωγής εικόνας, αυτά τα μοντέλα μπορούν να χρησιμοποιηθούν σε συνδυασμό με καθοδήγηση κειμένου σε εικόνα για τη δημιουργία σχεδόν απεριόριστου αριθμού εικόνων μόνο από κείμενο. Οι σπόροι μπορούν να κατευθυνθούν με εισόδους από ενσωματώσεις όπως το CLIP για να δώσουν ισχυρές δυνατότητες μετατροπής κειμένου σε εικόνα.
Τα μοντέλα διάχυσης μπορούν να εκτελέσουν μια ποικιλία εργασιών, συμπεριλαμβανομένης της δημιουργίας εικόνας, της αποθορυβοποίησης εικόνας, της εσωτερικής ζωγραφικής, της εξωτερικής ζωγραφικής και της διάχυσης bit.
Τώρα, τι είναι η σταθερή διάχυση;
Το Stable Diffusion είναι ένα μοντέλο μηχανικής εκμάθησης για δημιουργία εικόνων με βάση κείμενο που παρέχεται από Σταθερότητα.AI. Είναι σε θέση να δημιουργεί εικόνες από κείμενο.
Συστατικά σταθερής διάχυσης
Σταθερή Διάχυση είναι ένα σύστημα που αποτελείται από διάφορα στοιχεία και έννοιες. Δεν είναι ένα ενιαίο μοντέλο. Όταν ελέγχουμε πίσω από την κουκούλα, το πρώτο πράγμα που βλέπουμε είναι ότι υπάρχει ένα στοιχείο κατανόησης κειμένου που μετατρέπει τις πληροφορίες κειμένου σε μια αριθμητική αναπαράσταση που αποτυπώνει τις έννοιες του κειμένου.
Μπορούμε να ονομάσουμε αυτόν τον κωδικοποιητή κειμένου Transformer γλωσσικό μοντέλο (τεχνικά: ο κωδικοποιητής κειμένου ενός μοντέλου CLIP). Παίρνει το κείμενο εισαγωγής και δημιουργεί μια λίστα ακεραίων αριθμών (ένα διάνυσμα) για κάθε λέξη/κουπόνι στο κείμενο. Αυτά τα δεδομένα παρέχονται στη συνέχεια στο Image Generator, το οποίο αποτελείται από πολλά στοιχεία.
Υπάρχουν δύο βήματα στη δημιουργία εικόνας:
1. Δημιουργός πληροφοριών εικόνας
Το κύριο συστατικό στη Σταθερή Διάχυση είναι αυτό το στοιχείο. Εκεί γίνεται η πλειονότητα της βελτίωσης στην απόδοση σε σχέση με προηγούμενες εκδόσεις.
Αυτό το στοιχείο διέρχεται από διάφορα στάδια για την παροχή δεδομένων εικόνας. Ο δημιουργός πληροφοριών εικόνας λειτουργεί μόνο εντός του χώρου πληροφοριών εικόνας (ή του λανθάνοντος χώρου).
Είναι πιο γρήγορο από τα προηγούμενα μοντέλα διάχυσης που λειτουργούσαν σε χώρο pixel λόγω αυτού του χαρακτηριστικού. Από τεχνική άποψη, αυτό το στοιχείο αποτελείται από έναν αλγόριθμο προγραμματισμού και ένα UNet νευρικό σύστημα.
Η διαδικασία που λαμβάνει χώρα σε αυτό το στοιχείο αναφέρεται ως "διάχυση". Μια εικόνα υψηλής ποιότητας παράγεται τελικά ως αποτέλεσμα της επεξεργασίας των πληροφοριών σταδιακά (από το επόμενο στοιχείο, τον αποκωδικοποιητή εικόνας).
2. Αποκωδικοποιητής εικόνας
Χρησιμοποιώντας τα δεδομένα που έλαβε από τον παραγωγό πληροφοριών, ο αποκωδικοποιητής εικόνας δημιουργεί μια εικόνα. Εκτελείται μόνο μία φορά για να δημιουργήσει την ολοκληρωμένη εικόνα pixel στο τέλος της λειτουργίας.
Εκμάθηση Stable Diffusion Impainting
Η ζωγραφική εικόνας σταθερής διάχυσης είναι η τεχνική συμπλήρωσης περιοχών που λείπουν ή έχουν καταστραφεί. Ο σκοπός της ζωγραφικής εικόνων είναι να αποκρύψει το γεγονός ότι η εικόνα έχει αποκατασταθεί.
Αυτή η τεχνική χρησιμοποιείται συχνά για την εξάλειψη ανεπιθύμητων πραγμάτων από μια εικόνα ή για την αποκατάσταση κατεστραμμένων περιοχών ιστορικών φωτογραφιών. Το Stable Diffusion Inpainting είναι ένας σχετικά πρόσφατος τρόπος ζωγραφικής που αποδίδει πολλά υποσχόμενα αποτελέσματα.
Ακολουθώντας τις παρακάτω οδηγίες θα ξεκινήσετε την εξερεύνηση της εσωτερικής ζωγραφικής και την τροποποίηση υπαρχουσών φωτογραφιών, εάν θέλετε να δοκιμάσετε να κάνετε inpainting με σταθερή διάχυση:
- Μεταβείτε στο Huggingface Σταθερή διάχυση
- Ανεβάστε τη δική σας εικόνα
- Διαγράψτε το τμήμα της εικόνας σας που πρέπει να αντικατασταθεί.
- Εισαγάγετε την προτροπή σας εδώ (τι θέλετε να προσθέσετε στη θέση αυτού που καταργείτε)
- Επιλέξτε "τρέξιμο"
Στο επάνω βίντεο, ανεβάζουμε μια εικόνα με τρία λεμόνια και τα αντικαθιστούμε με μήλα. Προσωπικά συνιστώ να το δοκιμάσετε με τις δικές σας φωτογραφίες και προτροπές.
Συμπέρασμα
Σε γενικές γραμμές, η σταθερή έγχρωμη διάχυση είναι μια εξαιρετική μέθοδος για την παραγωγή ψεύτικων εικόνων ή βίντεο που φαίνονται εξαιρετικά αληθινά. Καθώς προχωράμε προς την πρόοδο της νέας τεχνολογίας, θα γίνεται όλο και πιο δύσκολο να γίνει διάκριση μεταξύ αυθεντικού και δόλιου καθώς η τεχνολογία προχωρά.
Σουαχίρ
Το πρώτο ημίχρονο είναι εντελώς άσχετο με το δεύτερο ημίχρονο. Θα ήταν πολύ ωραίο αν ο συγγραφέας εξηγούσε πώς λειτουργεί το inpaint στο πλαίσιο του μοντέλου που εξήγησε νωρίτερα, θα μπορούσε να είχε δώσει πληροφορίες. Αλλά όχι! Αυτό θα απαιτούσε πραγματική κατανόηση, αντί να συλλέξει και να επεξεργαστεί ένα τυχαίο κείμενο.