Ίσως έχετε ακούσει για το πόσο ισχυρά έχουν γίνει τα μοντέλα τεχνητής νοημοσύνης κειμένου σε εικόνα τα τελευταία δύο χρόνια. Γνωρίζατε όμως ότι η ίδια τεχνολογία θα μπορούσε να σας βοηθήσει να κάνετε το άλμα από το 2D στο 3D;
Τα τρισδιάστατα μοντέλα που δημιουργούνται με τεχνητή νοημοσύνη έχουν μια ευρεία περίπτωση χρήσης στο σημερινό ψηφιακό τοπίο. Τα βιντεοπαιχνίδια και η ταινία βασίζονται σε ειδικευμένους 3D καλλιτέχνες και λογισμικό μοντελοποίησης όπως το Blender για τη δημιουργία τρισδιάστατων στοιχείων για να συμπληρώσουν σκηνές που δημιουργούνται από υπολογιστή.
Ωστόσο, είναι πιθανό η βιομηχανία να χρησιμοποιήσει τη μηχανική εκμάθηση για να δημιουργήσει τρισδιάστατα στοιχεία με λιγότερη προσπάθεια, παρόμοια με το πώς οι καλλιτέχνες 3D σήμερα αρχίζουν να υιοθετούν τεχνολογία όπως το DALL-E και Μεσοταξίδι?
Αυτό το άρθρο θα εξερευνήσει έναν νέο αλγόριθμο που προσπαθεί να δημιουργήσει ένα αποτελεσματικό μοντέλο κειμένου σε 3D χρησιμοποιώντας το υπάρχον μοντέλα διάχυσης.
Τι είναι Dreamfusion?
Ένα σημαντικό ζήτημα με τη δημιουργία ενός μοντέλου διάχυσης που δημιουργεί άμεσα τρισδιάστατα στοιχεία είναι ότι απλά δεν υπάρχουν πολλά διαθέσιμα τρισδιάστατα δεδομένα. Τα μοντέλα 3D διάχυσης έχουν γίνει τόσο ισχυρά λόγω του τεράστιου συνόλου δεδομένων εικόνων που βρίσκονται στο Διαδίκτυο. Δεν μπορεί να ειπωθεί το ίδιο με τα 3D στοιχεία.
Ορισμένες τεχνικές δημιουργίας 3D αντιμετωπίζουν αυτήν την έλλειψη δεδομένων εκμεταλλευόμενοι αυτήν την αφθονία 2D δεδομένων.
DreamFusion είναι ένα μοντέλο παραγωγής που μπορεί να δημιουργήσει τρισδιάστατα μοντέλα με βάση μια παρεχόμενη περιγραφή κειμένου. Το μοντέλο DreamFusion χρησιμοποιεί ένα προεκπαιδευμένο μοντέλο διάχυσης κειμένου σε εικόνα για τη δημιουργία ρεαλιστικών τρισδιάστατων μοντέλων από προτροπές κειμένου.
Παρά το γεγονός ότι δεν υπάρχουν δεδομένα εκπαίδευσης 3D, αυτή η προσέγγιση έχει δημιουργήσει συνεκτικά 3D στοιχεία με εμφάνιση και βάθος υψηλής πιστότητας.
Πώς λειτουργεί;
Ο αλγόριθμος DreamFusion αποτελείται από δύο κύρια μοντέλα: ένα μοντέλο διάχυσης 2D και ένα νευρικό σύστημα που μπορεί να μετατρέψει εικόνες 2D σε μια συνεκτική τρισδιάστατη σκηνή.
Το μοντέλο Imagen Text-to-Image της Google
Το πρώτο μέρος του αλγορίθμου είναι το μοντέλο διάχυσης. Αυτό το μοντέλο είναι υπεύθυνο για τη μετατροπή κειμένου σε εικόνα.
Εικόνα είναι ένα μοντέλο διάχυσης που μπορεί να δημιουργήσει ένα μεγάλο δείγμα παραλλαγών εικόνας ενός συγκεκριμένου αντικειμένου. Σε αυτήν την περίπτωση, οι παραλλαγές της εικόνας μας θα πρέπει να καλύπτουν όλες τις πιθανές γωνίες του παρεχόμενου αντικειμένου. Για παράδειγμα, αν θέλαμε να δημιουργήσουμε ένα τρισδιάστατο μοντέλο ενός αλόγου, θα θέλαμε 3D εικόνες του αλόγου από όλες τις πιθανές γωνίες. Ο στόχος είναι να χρησιμοποιήσουμε το Imagen για να παρέχουμε όσο το δυνατόν περισσότερες πληροφορίες (χρώματα, αντανακλάσεις, πυκνότητα) για το επόμενο μοντέλο στον αλγόριθμό μας.
Δημιουργία τρισδιάστατων μοντέλων με το NeRF
Στη συνέχεια, το Dreamfusion χρησιμοποιεί ένα μοντέλο γνωστό ως α Πεδίο νευρικής ακτινοβολίας ή NeRF για να δημιουργήσετε πραγματικά το τρισδιάστατο μοντέλο από το σύνολο εικόνων που δημιουργήθηκε. Τα NeRF είναι σε θέση να δημιουργούν σύνθετες τρισδιάστατες σκηνές με βάση ένα σύνολο δεδομένων 3D εικόνων.
Ας προσπαθήσουμε να καταλάβουμε πώς λειτουργεί ένα NeRF.
Το μοντέλο στοχεύει να δημιουργήσει μια συνεχή ογκομετρική λειτουργία σκηνής βελτιστοποιημένη από το παρεχόμενο σύνολο δεδομένων 2D εικόνων.
Εάν το μοντέλο δημιουργεί μια συνάρτηση, ποια είναι η είσοδος και η έξοδος;
Η λειτουργία σκηνής λαμβάνει μια θέση 3D και μια κατεύθυνση προβολής 2D ως είσοδο. Στη συνέχεια, η συνάρτηση εξάγει ένα χρώμα (με τη μορφή RGB) και μια συγκεκριμένη πυκνότητα όγκου.
Για να δημιουργήσετε μια εικόνα 2D από μια συγκεκριμένη οπτική γωνία, το μοντέλο θα δημιουργήσει ένα σύνολο τρισδιάστατων σημείων και θα εκτελέσει αυτά τα σημεία μέσω της συνάρτησης σκηνής για να επιστρέψει ένα σύνολο τιμών πυκνότητας χρώματος και όγκου. Στη συνέχεια, οι τεχνικές απόδοσης τόμου θα μετατρέψουν αυτές τις τιμές σε έξοδο εικόνας 3D.
Χρήση μοντέλων NeRF και 2D διάχυσης μαζί
Τώρα που γνωρίζουμε πώς λειτουργεί ένα NeRF, ας δούμε πώς αυτό το μοντέλο μπορεί να δημιουργήσει ακριβή τρισδιάστατα μοντέλα από τις δημιουργούμενες εικόνες μας.
Για κάθε παρεχόμενη προτροπή κειμένου, το DreamFusion εκπαιδεύει ένα τυχαία αρχικοποιημένο NeRF από την αρχή. Κάθε επανάληψη επιλέγει μια τυχαία θέση κάμερας σε ένα σύνολο σφαιρικών συντεταγμένων. Σκεφτείτε το μοντέλο που περικλείεται σε μια γυάλινη σφαίρα. Κάθε φορά που δημιουργούμε μια νέα εικόνα του τρισδιάστατου μοντέλου μας, θα επιλέγουμε ένα τυχαίο σημείο στη σφαίρα μας ως πλεονέκτημα της εξόδου μας. Το DreamFusion θα επιλέξει επίσης μια τυχαία θέση φωτός l για χρήση για απόδοση.
Μόλις έχουμε θέση κάμερας και φωτισμού, θα αποδοθεί ένα μοντέλο NeRF. Το DreamFusion θα επιλέξει επίσης τυχαία μεταξύ μιας έγχρωμης απόδοσης, ενός render χωρίς υφή και μιας απόδοσης του albedo χωρίς καμία σκίαση.
Έχουμε αναφέρει νωρίτερα ότι θέλουμε το μοντέλο κειμένου σε εικόνα (Imagen) να παράγει αρκετές εικόνες για να δημιουργήσει ένα αντιπροσωπευτικό δείγμα.
Πώς το επιτυγχάνει αυτό το Dreamfusion;
Το Dreamfusion απλώς τροποποιεί ελαφρώς την προτροπή εισόδου για να επιτύχει τις επιδιωκόμενες γωνίες. Για παράδειγμα, μπορούμε να επιτύχουμε υψηλές γωνίες προσαρτώντας την "προβολή" στην προτροπή μας. Μπορούμε να δημιουργήσουμε άλλες γωνίες προσθέτοντας φράσεις όπως "μπροστινή όψη", "πλάγια όψη" και "πίσω όψη".
Οι σκηνές αποδίδονται επανειλημμένα από τυχαίες θέσεις κάμερας. Αυτές οι αποδόσεις στη συνέχεια περνούν από μια συνάρτηση απώλειας απόσταξης βαθμολογίας. Μια απλή προσέγγιση κλίσης κατάβασης θα βελτιώσει σιγά σιγά το Μοντέλο 3D μέχρι να ταιριάζει με τη σκηνή που περιγράφει το κείμενο.
Αφού αποδώσουμε το τρισδιάστατο μοντέλο χρησιμοποιώντας το NeRF, μπορούμε να χρησιμοποιήσουμε το Αλγόριθμος Marching Cubes για να εξάγουμε ένα τρισδιάστατο πλέγμα του μοντέλου μας. Αυτό το πλέγμα μπορεί στη συνέχεια να εισαχθεί σε δημοφιλείς 3D renderers ή λογισμικό μοντελοποίησης.
Περιορισμοί
Ενώ το αποτέλεσμα του DreamFusion είναι αρκετά εντυπωσιακό καθώς χρησιμοποιεί υπάρχοντα μοντέλα διάχυσης κειμένου σε εικόνα με νέο τρόπο, οι ερευνητές έχουν σημειώσει μερικούς περιορισμούς.
Η συνάρτηση απώλειας SDS έχει παρατηρηθεί ότι παράγει υπερκορεσμένα και υπερβολικά εξομαλυντικά αποτελέσματα. Μπορείτε να το παρατηρήσετε αυτό στον αφύσικο χρωματισμό και την έλλειψη ακριβούς λεπτομέρειας που βρέθηκαν στις εξόδους.
Ο αλγόριθμος DreamFusion περιορίζεται επίσης από την ανάλυση της εξόδου του μοντέλου Imagen, η οποία είναι 64 x 64 pixel. Αυτό οδηγεί στο ότι τα συνθετικά μοντέλα δεν έχουν λεπτότερες λεπτομέρειες.
Τέλος, οι ερευνητές παρατήρησαν ότι υπάρχει μια εγγενής πρόκληση στη σύνθεση τρισδιάστατων μοντέλων από δεδομένα 3D. Υπάρχουν πολλά πιθανά τρισδιάστατα μοντέλα που μπορούμε να δημιουργήσουμε από ένα σύνολο εικόνων 2D, γεγονός που καθιστά τη βελτιστοποίηση αρκετά δύσκολη και ακόμη και διφορούμενη.
Συμπέρασμα
Οι τρισδιάστατες αποδόσεις του DreamFusion λειτουργούν τόσο καλά λόγω της ικανότητας των μοντέλων διάχυσης κειμένου σε εικόνα να δημιουργούν οποιοδήποτε αντικείμενο ή σκηνή. Είναι εντυπωσιακό πώς ένα νευρωνικό δίκτυο μπορεί να κατανοήσει μια σκηνή σε τρισδιάστατο χώρο χωρίς τρισδιάστατα δεδομένα εκπαίδευσης. Συνιστώ να διαβάσετε το ολόκληρο χαρτί για να μάθετε περισσότερα σχετικά με τις τεχνικές λεπτομέρειες του αλγόριθμου DreamFusion.
Ας ελπίσουμε ότι αυτή η τεχνολογία θα βελτιωθεί για να δημιουργήσει τελικά φωτορεαλιστικά τρισδιάστατα μοντέλα. Φανταστείτε ολόκληρα βιντεοπαιχνίδια ή προσομοιώσεις που χρησιμοποιούν περιβάλλοντα που δημιουργούνται από AI. Θα μπορούσε να μειώσει το εμπόδιο εισόδου για τους προγραμματιστές βιντεοπαιχνιδιών να δημιουργήσουν καθηλωτικούς τρισδιάστατους κόσμους!
Τι ρόλο πιστεύετε ότι θα παίξουν στο μέλλον τα μοντέλα μετατροπής κειμένου σε 3D;
Αφήστε μια απάντηση