Πίνακας περιεχομένων[Κρύβω][Προβολή]
Τα μεγάλα μοντέλα κειμένου σε εικόνα έκαναν σημαντική πρόοδο στην ανάπτυξη της τεχνητής νοημοσύνης, παράγοντας υψηλής ποιότητας και διαφοροποιημένη σύνθεση εικόνων από μια δεδομένη προτροπή κειμένου.
Αυτά τα μοντέλα δεν μπορούν να συνθέσουν μοναδικές αναπαραστάσεις θεμάτων σε διάφορες ρυθμίσεις ή να αναπαράγουν την εμφάνιση των θεμάτων σε ένα δεδομένο σύνολο αναφοράς.
Πρόσφατες τεχνολογίες όπως το DALL.E2 του OpenAI ή το StabilityAI Σταθερή Διάχυση και το Midjourney κατακλύζουν ήδη το διαδίκτυο. Τώρα είναι ώρα να προσαρμόσετε τα αποτελέσματα. Πώς όμως;
Το Google DreamBooth AI έφτασε.
Το DreamBooth έχει τη δυνατότητα να αναγνωρίζει το θέμα μιας εικόνας, να την αποδομεί από το αρχικό της πλαίσιο και στη συνέχεια να τη συνθέτει με ακρίβεια σε ένα νέο επιθυμητό πλαίσιο. Επιπλέον, μπορεί να χρησιμοποιηθεί με τις τρέχουσες γεννήτριες εικόνων AI.
Σε αυτό το άρθρο, θα ρίξουμε μια βαθιά ματιά στο DreamBooth, τη χρήση του, το σεμινάριο του, τους περιορισμούς του και πολλά άλλα.
Τι είναι το Dreambooth;
ονειροπόλος, ένα ολοκαίνουργιο μοντέλο διάχυσης κειμένου σε εικόνα, παρουσιάστηκε από την Google. Μια γραπτή προτροπή μπορεί να χρησιμοποιηθεί ως καθοδήγηση από το Google DreamBooth AI για να δημιουργήσει ένα ευρύ φάσμα φωτογραφιών του επιλεγμένου θέματος του χρήστη σε διαφορετικές ρυθμίσεις.
Μια ερευνητική ομάδα από το Πανεπιστήμιο της Βοστώνης και την Google ανέπτυξε το DreamBooth, μια τεχνική αιχμής για την αλλαγή μοντέλων κειμένου σε εικόνα που έχουν υποβληθεί σε εκτενή προεκπαίδευση.
Η γενική ιδέα είναι μάλλον απλή: θέλουν να αυξήσουν το λεξικό γλώσσας-όρασης έτσι ώστε τα ασυνήθιστα αναγνωριστικά διακριτικών να συσχετίζονται με προσαρμοσμένα θέματα που μπορούν να ορίσουν οι χρήστες.
Ο κύριος στόχος του μοντέλου είναι να συνδέσει τους χρήστες με το μοντέλο διάχυσης κειμένου σε εικόνα δίνοντάς τους τους πόρους που χρειάζονται για να παράγουν φωτορεαλιστικές αναπαραστάσεις των περιπτώσεων του επιλεγμένου θέματος.
Κατά συνέπεια, αυτή η τεχνική φαίνεται να λειτουργεί καλά για τη σύνοψη προκλήσεων σε μια σειρά καταστάσεων.
Το DreamBooth της Google διαφέρει από τα προηγούμενα εργαλεία μετατροπής κειμένου σε εικόνα, όπως π.χ DALL-E2, Σταθερή Διάχυση, να Μεσοταξίδι, δεδομένου ότι δίνει στους χρήστες περισσότερο έλεγχο της εικόνας του θέματος πριν τους αφήσει να χειριστούν το μοντέλο διάχυσης χρησιμοποιώντας εισόδους που βασίζονται σε κείμενο.
Χαρακτηριστικά
- Το DreamBooth AI μπορεί να βελτιώσει ένα μοντέλο κειμένου σε εικόνα με 3-5 εικόνες.
- Οι πρωτότυπες φωτορεαλιστικές φωτογραφίες μπορούν να δημιουργηθούν με το DreamBooth AI.
- Επιπλέον, το DreamBooth AI μπορεί να δημιουργήσει φωτογραφίες ενός θέματος από πολλές οπτικές γωνίες.
Εφαρμογή
Εικαστικές ερμηνείες
Αυτή η εργασία διαφέρει συγκεκριμένα από τη μεταφορά στυλ, η οποία διατηρεί τη σημασιολογία της σκηνής πηγής ενώ ενσωματώνει το στυλ μιας άλλης εικόνας στην αρχική σκηνή.
Με βάση τη δημιουργική προσέγγιση, η τεχνητή νοημοσύνη μπορεί να επιτύχει σημαντικές αλλαγές σκηνής, διατηρώντας παράλληλα τις ιδιαιτερότητες της αναγνώρισης και του στιγμιότυπου θέματος.
Τροποποίηση Ακινήτου
Τα χαρακτηριστικά της θεματικής παρουσίας μπορούν να τροποποιηθούν από το DreamBooth AI.
Αξεσουάρ
Η ισχυρή σύνθεση πριν από το μοντέλο γενιάς είναι αυτό που κάνει την ικανότητα του DreamBooth AI να κοσμεί αντικείμενα τόσο ενδιαφέρουσα.
Επαναπλαισίωση
Το DreamBooth AI μπορεί να παράγει διακριτικές εικόνες για ένα συγκεκριμένο παράδειγμα θέματος δίνοντας σε ένα εκπαιδευμένο μοντέλο μια πρόταση που περιλαμβάνει το μοναδικό αναγνωριστικό και το ουσιαστικό κλάσης.
Μπορεί να δημιουργήσει το θέμα σε μοναδικές, πρωτόγνωρες στάσεις, αρθρώσεις και δομή σκηνής αντί να αλλάξει το περιβάλλον. Ρεαλιστικές αντανακλάσεις και σκιές, καθώς και αλληλεπιδράσεις μεταξύ του θέματος και των γύρω αντικειμένων.
Εκμάθηση Dreambooth
Σε αυτό το σεμινάριο, θα ακολουθήσουμε το Σημειωματάριο Google Collab, και θα σας καθοδηγήσω, κάτι που θα σας κάνει να το κατανοήσετε και να το χρησιμοποιήσετε μόνοι σας.
Ρύθμιση GPU και εγκατάσταση βιβλιοθηκών
Το να μάθετε ποια είδη GPU και VRAM είναι διαθέσιμα είναι το πρώτο βήμα. Η εγκατάσταση μερικών απαιτήσεων και εξαρτήσεων είναι επίσης απαραίτητη. Απλώς πατήστε το κουμπί αναπαραγωγής και μετά περιμένετε να τελειώσει.
Δημιουργήστε έναν λογαριασμό στο Huggingface και δημιουργήστε ένα διακριτικό
Το επόμενο βήμα είναι να εγγραφείτε για έναν λογαριασμό Huggingface. Όταν τελειώσετε, κάντε κλικ στις ρυθμίσεις στην επάνω δεξιά γωνία. Θα φτάσετε στην επόμενη σελίδα.
Δημιουργήστε το διακριτικό και το όνομα όπως ζητήθηκε από εδώ. Το διακριτικό θα πρέπει να αντιγραφεί και να επικολληθεί στη συνεργασία Google στο παρακάτω κελί.
Εγκαταστήστε xformers
Σε αυτό το στάδιο, μπορείτε απλά να πατήσετε το κουμπί αναπαραγωγής για να εγκαταστήσετε τα xformers κάνοντας κλικ στο χρόνο εκτέλεσης.
Συνδεθείτε στο Drive
Τώρα, πρέπει απλώς να εκτελέσετε αυτό το κελί για να συνδεθείτε στο google drive.
Εισαγάγετε την προτροπή
Στο παρακάτω κελί, πρέπει απλώς να εισαγάγετε την προτροπή.
Ανέβασμα εικόνων
Σε αυτό το βήμα, πρέπει απλώς να ανεβάσετε τις εικόνες που θέλατε να εκπαιδεύσετε.
Τρένο μοντέλο AI
Αυτή είναι η πιο σημαντική φάση, καθώς θα χρησιμοποιήσετε το DreamBooth για να εκπαιδεύσετε ένα νέο μοντέλο AI βασισμένο σε όλες τις φωτογραφίες αναφοράς που έχετε υποβάλει. Πρέπει να περιορίσετε την προσοχή σας σε δύο πεδία εισαγωγής. Το "—instance prompt" είναι η πρώτη παράμετρος. Πρέπει να δώσετε ένα πολύ διακριτό όνομα εδώ.
Το όρισμα «–λίστα εννοιών» είναι το δεύτερο κρίσιμο πεδίο εισαγωγής. Πρέπει να μετονομαστεί ώστε να ταιριάζει με αυτό που χρησιμοποιείται στην ενότητα "Αλλαγή προτροπής".
Δημιουργήστε εικόνες AI
Οι εικόνες AI θα δημιουργηθούν σε αυτό το στάδιο, όπου μπορείτε να εισάγετε τις οδηγίες κειμένου.
Περιορισμοί Dreambooth
- Η γραμμή εντολών γίνεται εμπόδιο για επαναλήψεις στο θέμα με υψηλούς βαθμούς λεπτομέρειας. Το DreamBooth μπορεί να αλλάξει το πλαίσιο του θέματος, αλλά αν το μοντέλο επιθυμεί να αλλάξει το ίδιο το θέμα, υπάρχουν προβλήματα με το πλαίσιο.
- Ένα άλλο ζήτημα είναι η υπερβολική προσαρμογή της εικόνας εξόδου στην εικόνα εισόδου. Εάν δεν παρέχονται αρκετές φωτογραφίες, το θέμα ενδέχεται να μην ληφθεί υπόψη ή να συνδυαστεί με το περιβάλλον των εικόνων που υποβάλλονται. Όταν τίθεται ένα πλαίσιο για μια περίεργη γενιά, συμβαίνει το ίδιο.
Συμπέρασμα
Για την παραγωγή εξόδων από μία μόνο εισαγωγή κειμένου, το μεγαλύτερο μέρος των μοντέλων κειμένου σε εικόνα απαιτούν εκατομμύρια παραμέτρους και βιβλιοθήκες.
Το DreamBooth απλοποιεί την απόκτηση και τη χρήση περιεχομένου για τους καταναλωτές, απαιτώντας μόνο την εισαγωγή τριών έως πέντε θεματικών φωτογραφιών μαζί με φόντο κειμένου.
Αφήστε μια απάντηση