Πίνακας περιεχομένων[Κρύβω][Προβολή]
Πιθανότατα γνωρίζετε ότι ένας υπολογιστής μπορεί να περιγράψει μια εικόνα.
Για παράδειγμα, μια εικόνα ενός σκύλου που παίζει με τα παιδιά σας μπορεί να μεταφραστεί ως «σκύλος και παιδιά στον κήπο». Αλλά ξέρατε ότι το αντίθετο είναι πλέον εφικτό; Πληκτρολογείτε μερικές λέξεις και το μηχάνημα δημιουργεί μια νέα εικόνα.
Σε αντίθεση με μια αναζήτηση Google, η οποία αναζητά υπάρχουσες φωτογραφίες, όλα αυτά είναι φρέσκα. Τα τελευταία χρόνια, το OpenAI ήταν ένας από τους κορυφαίους οργανισμούς, αναφέροντας εκπληκτικά αποτελέσματα.
Εκπαιδεύουν τους αλγόριθμους τους σε τεράστιες βάσεις δεδομένων κειμένου και εικόνων. Δημοσίευσαν μια εργασία για το μοντέλο εικόνας GLIDE τους, το οποίο εκπαιδεύτηκε σε εκατοντάδες εκατομμύρια φωτογραφίες. Όσον αφορά τον φωτορεαλισμό, ξεπερνά το προηγούμενο μοντέλο «DALL-E».
Σε αυτήν την ανάρτηση, θα δούμε το GLIDE του OpenAI, μια από τις πολλές συναρπαστικές πρωτοβουλίες που στοχεύουν στην παραγωγή και την αλλαγή φωτορεαλιστικών εικόνων με μοντέλα διάχυσης καθοδηγούμενα από κείμενο. Ας ξεκινήσουμε.
Τι είναι Ανοίξτε το AI Glide?
Ενώ οι περισσότερες εικόνες μπορούν να περιγραφούν με λέξεις, η δημιουργία εικόνων από εισαγωγές κειμένου απαιτεί εξειδικευμένες γνώσεις και σημαντικό χρόνο.
Επιτρέποντας σε έναν πράκτορα AI να παράγει φωτορεαλιστικές εικόνες από προτροπές φυσικής γλώσσας όχι μόνο επιτρέπει στους ανθρώπους να δημιουργούν πλούσιο και ποικίλο οπτικό υλικό με πρωτοφανή ευκολία, αλλά επιτρέπει επίσης απλούστερη επαναληπτική βελτίωση και λεπτόκοκκο έλεγχο των εικόνων που δημιουργούνται.
Το GLIDE μπορεί να χρησιμοποιηθεί για την επεξεργασία υπαρχουσών φωτογραφιών χρησιμοποιώντας προτροπές κειμένου φυσικής γλώσσας για την εισαγωγή νέων αντικειμένων, τη δημιουργία σκιών και αντανακλάσεων, ζωγραφική εικόνας, και ούτω καθεξής.
Μπορεί επίσης να μετατρέψει βασικά γραμμικά σχέδια σε φωτορεαλιστικές φωτογραφίες και έχει εξαιρετικές δυνατότητες κατασκευής και επισκευής μηδενικού δείγματος για πολύπλοκες καταστάσεις.
Πρόσφατη έρευνα έχει δείξει ότι τα μοντέλα διάχυσης με βάση την πιθανότητα μπορούν επίσης να παράγουν συνθετικές εικόνες υψηλής ποιότητας, ιδιαίτερα όταν συνδυάζονται με μια καθοδηγητική προσέγγιση που εξισορροπεί την ποικιλία και την πιστότητα.
Το OpenAI δημοσίευσε α μοντέλο καθοδηγούμενης διάχυσης τον Μάιο, το οποίο επιτρέπει στα μοντέλα διάχυσης να εξαρτώνται από τις ετικέτες ενός ταξινομητή. Το GLIDE βελτιώνει αυτήν την επιτυχία φέρνοντας καθοδηγούμενη διάχυση στο πρόβλημα της δημιουργίας εικόνας υπό όρους κειμένου.
Αφού εκπαίδευσαν ένα μοντέλο διάχυσης GLIDE 3.5 δισεκατομμυρίων παραμέτρων χρησιμοποιώντας έναν κωδικοποιητή κειμένου για να ρυθμίσουν τις περιγραφές φυσικής γλώσσας, οι ερευνητές δοκίμασαν δύο εναλλακτικές στρατηγικές καθοδήγησης: την καθοδήγηση CLIP και την καθοδήγηση χωρίς ταξινομητή.
Το CLIP είναι μια κλιμακούμενη τεχνική για την εκμάθηση κοινών αναπαραστάσεων κειμένου και εικόνων που αποδίδει μια βαθμολογία με βάση το πόσο κοντά είναι μια εικόνα σε μια λεζάντα.
Η ομάδα χρησιμοποίησε αυτή τη στρατηγική στα μοντέλα διάχυσης αντικαθιστώντας τον ταξινομητή με ένα μοντέλο CLIP που «καθοδηγεί» τα μοντέλα. Εν τω μεταξύ, η καθοδήγηση χωρίς ταξινομητή είναι μια στρατηγική για την κατεύθυνση μοντέλων διάχυσης που δεν περιλαμβάνουν την εκπαίδευση ενός ξεχωριστού ταξινομητή.
Αρχιτεκτονική GLIDE
Η αρχιτεκτονική GLIDE αποτελείται από τρία στοιχεία: ένα Abblated Diffusion Model (ADM) εκπαιδευμένο για τη δημιουργία εικόνας 64 × 64, ένα μοντέλο κειμένου (μετασχηματιστής) που επηρεάζει τη δημιουργία εικόνας μέσω μιας γραμμής ειδοποίησης κειμένου και ένα μοντέλο upsampling που μετατρέπει τις μικρές μας εικόνες 64 × 64 σε πιο ερμηνεύσιμα 256 x 256 pixel.
Τα δύο πρώτα στοιχεία συνεργάζονται για τον έλεγχο της διαδικασίας δημιουργίας εικόνας, έτσι ώστε να αντικατοπτρίζει κατάλληλα το μήνυμα κειμένου, ενώ το τελευταίο απαιτείται για να κάνει τις εικόνες που δημιουργούμε πιο κατανοητές. Το έργο GLIDE εμπνεύστηκε από τον α έκθεση που δημοσιεύτηκε το 2021 Αυτό έδειξε ότι οι τεχνικές ADM ξεπέρασαν τα επί του παρόντος δημοφιλή, υπερσύγχρονα μοντέλα παραγωγής όσον αφορά την ποιότητα του δείγματος εικόνας.
Για το ADM, οι συγγραφείς του GLIDE χρησιμοποίησαν το ίδιο μοντέλο ImageNet 64 x 64 με τους Dhariwal και Nichol, αλλά με 512 κανάλια αντί για 64. Το μοντέλο ImageNet έχει περίπου 2.3 δισεκατομμύρια παραμέτρους ως αποτέλεσμα αυτού.
Η ομάδα GLIDE, σε αντίθεση με τους Dhariwal και Nichol, ήθελε να έχει μεγαλύτερο άμεσο έλεγχο στη διαδικασία δημιουργίας εικόνας, επομένως συνδύασαν το οπτικό μοντέλο με έναν μετασχηματιστή με δυνατότητα προσοχής. Το GLIDE σάς δίνει κάποιο έλεγχο στην έξοδο της διαδικασίας δημιουργίας εικόνας επεξεργαζόμενοι τις προτροπές εισαγωγής κειμένου.
Αυτό επιτυγχάνεται με την εκπαίδευση του μοντέλου μετασχηματιστή σε ένα κατάλληλα μεγάλο σύνολο δεδομένων από φωτογραφίες και λεζάντες (παρόμοιο με αυτό που χρησιμοποιείται στο έργο DALL-E).
Το κείμενο αρχικά κωδικοποιείται σε μια σειρά από K διακριτικά προκειμένου να το ρυθμίσει. Μετά από αυτό, οι μάρκες φορτώνονται σε ένα μοντέλο μετασχηματιστή. Η έξοδος του μετασχηματιστή μπορεί στη συνέχεια να χρησιμοποιηθεί με δύο τρόπους. Για το μοντέλο ADM, η τελική ενσωμάτωση διακριτικού χρησιμοποιείται αντί για την ενσωμάτωση κλάσης.
Δεύτερον, το τελικό στρώμα των ενσωματώσεων διακριτικών - μια σειρά από διανύσματα χαρακτηριστικών - προβάλλεται ανεξάρτητα στις διαστάσεις για κάθε επίπεδο προσοχής στο μοντέλο ADM και συνδέεται με κάθε πλαίσιο προσοχής.
Στην πραγματικότητα, αυτό επιτρέπει στο μοντέλο ADM να παράγει μια εικόνα από νέους συνδυασμούς παρόμοιων διακριτικών κειμένου με μοναδικό και φωτορεαλιστικό τρόπο, με βάση την εκμάθηση κατανόησης των λέξεων εισόδου και των σχετικών εικόνων τους. Αυτός ο μετασχηματιστής κωδικοποίησης κειμένου περιέχει 1.2 δισεκατομμύρια παραμέτρους και χρησιμοποιεί 24 υπολειπόμενα μπλοκ με πλάτος 2048.
Τέλος, το μοντέλο διάχυσης upsampler περιλαμβάνει περίπου 1.5 δισεκατομμύρια παραμέτρους και διαφέρει από το βασικό μοντέλο καθώς ο κωδικοποιητής κειμένου του είναι μικρότερος, με πλάτος 1024 και 384 βασικά κανάλια, σε σύγκριση με το βασικό μοντέλο. Αυτό το μοντέλο, όπως υποδηλώνει το όνομα, βοηθά στην αναβάθμιση του δείγματος προκειμένου να βελτιωθεί η ερμηνευτικότητα τόσο για μηχανές όσο και για ανθρώπους.
Μοντέλο διάχυσης
Το GLIDE δημιουργεί εικόνες χρησιμοποιώντας τη δική του έκδοση του ADM (ADM-G για "καθοδηγούμενη"). Το μοντέλο ADM-G είναι μια τροποποίηση του μοντέλου U-net διάχυσης. Ένα μοντέλο διάχυσης U-net διαφέρει δραματικά από τις πιο κοινές τεχνικές σύνθεσης εικόνας όπως VAE, GAN και μετασχηματιστές.
Κατασκευάζουν μια αλυσίδα Markov βημάτων διάχυσης για να εισάγουν σταδιακά τυχαίο θόρυβο στα δεδομένα και στη συνέχεια μαθαίνουν να αντιστρέφουν τη διαδικασία διάχυσης και να ξαναφτιάχνουν τα απαιτούμενα δείγματα δεδομένων μόνο από τον θόρυβο. Λειτουργεί σε δύο στάδια: εμπρόσθια και αντίστροφη διάχυση.
Η μέθοδος διάχυσης προς τα εμπρός, δεδομένου ενός σημείου δεδομένων από την πραγματική κατανομή του δείγματος, προσθέτει μια μικρή ποσότητα θορύβου στο δείγμα σε μια προκαθορισμένη σειρά βημάτων. Καθώς τα βήματα αυξάνονται σε μέγεθος και πλησιάζουν το άπειρο, το δείγμα χάνει όλα τα αναγνωρίσιμα χαρακτηριστικά και η ακολουθία αρχίζει να μοιάζει με ισοτροπική καμπύλη Gauss.
Κατά την προς τα πίσω διάχυση φάση, το μοντέλο διάχυσης μαθαίνει να αντιστρέφει την επίδραση του προστιθέμενου θορύβου στις εικόνες και να οδηγεί την παραγόμενη εικόνα πίσω στο αρχικό της σχήμα, επιχειρώντας να μοιάζει με την αρχική κατανομή του δείγματος εισόδου.
Ένα ολοκληρωμένο μοντέλο θα μπορούσε να το κάνει με μια πραγματική είσοδο θορύβου Gauss και μια προτροπή. Η μέθοδος ADM-G διαφέρει από την προηγούμενη, καθώς ένα μοντέλο, είτε CLIP είτε προσαρμοσμένος μετασχηματιστής, επηρεάζει τη φάση διάχυσης προς τα πίσω χρησιμοποιώντας τα διακριτικά προτροπής κειμένου που εισάγονται.
Δυνατότητες ολίσθησης
1. Δημιουργία εικόνας
Η πιο δημοφιλής και ευρέως χρησιμοποιούμενη χρήση του GLIDE θα είναι πιθανώς η σύνθεση εικόνας. Παρόλο που οι εικόνες είναι μέτριες και το GLIDE έχει δυσκολίες με τις μορφές ζώων/ανθρώπων, οι δυνατότητες για παραγωγή εικόνας με μία λήψη είναι σχεδόν ατελείωτες.
Μπορεί να δημιουργήσει φωτογραφίες ζώων, διασημοτήτων, τοπίων, κτιρίων και πολλά άλλα, και μπορεί να το κάνει σε διάφορα στυλ τέχνης καθώς και φωτορεαλιστικά. Οι συγγραφείς των ερευνητών υποστηρίζουν ότι το GLIDE είναι ικανό να ερμηνεύει και να προσαρμόζει μια ευρεία ποικιλία κειμενικών εισροών σε οπτική μορφή, όπως φαίνεται στα παρακάτω δείγματα.
2. Βαφή με ολίσθηση
Η αυτόματη ζωγραφική φωτογραφιών του GLIDE είναι αναμφισβήτητα η πιο συναρπαστική χρήση. Το GLIDE μπορεί να τραβήξει μια υπάρχουσα φωτογραφία ως είσοδο, να την επεξεργαστεί έχοντας κατά νου την προτροπή κειμένου για τοποθεσίες που πρέπει να τροποποιηθούν και στη συνέχεια να κάνει ενεργές τροποποιήσεις σε αυτά τα μέρη με ευκολία.
Πρέπει να χρησιμοποιείται σε συνδυασμό με ένα μοντέλο επεξεργασίας, όπως το SDEdit, για να παράγει ακόμα καλύτερα αποτελέσματα. Στο μέλλον, οι εφαρμογές που εκμεταλλεύονται τέτοιες δυνατότητες μπορεί να είναι ζωτικής σημασίας για την ανάπτυξη προσεγγίσεων αλλαγής εικόνας χωρίς κώδικα.
Συμπέρασμα
Τώρα που περάσαμε από τη διαδικασία, θα πρέπει να κατανοήσετε τις βασικές αρχές του τρόπου λειτουργίας του GLIDE, καθώς και το εύρος των δυνατοτήτων του στη δημιουργία εικόνων και στην τροποποίηση της εικόνας.
Αφήστε μια απάντηση