Μπορείτε να χρησιμοποιήσετε το AI για να δημιουργήσετε ένα νέο δίσκο από τον αγαπημένο σας καλλιτέχνη;
Πρόσφατες ανακαλύψεις στη μηχανική μάθηση έδειξαν ότι τα μοντέλα είναι πλέον ικανά να κατανοούν πολύπλοκα δεδομένα όπως κείμενο και εικόνες. Το Jukebox του OpenAI αποδεικνύει ότι ακόμη και η μουσική μπορεί να μοντελοποιηθεί με ακρίβεια από ένα νευρωνικό δίκτυο.
Η μουσική είναι ένα σύνθετο αντικείμενο στο μοντέλο. Πρέπει να λάβετε υπόψη τόσο απλά χαρακτηριστικά, όπως το τέμπο, την ένταση και τον τόνο, όσο και πιο σύνθετα χαρακτηριστικά, όπως τους στίχους, τα όργανα και τη μουσική δομή.
Χρησιμοποιώντας προχωρημένους μάθηση μηχανής τεχνικές, το OpenAI βρήκε έναν τρόπο να μετατρέψει τον ακατέργαστο ήχο σε μια αναπαράσταση που μπορούν να χρησιμοποιήσουν άλλα μοντέλα.
Αυτό το άρθρο θα εξηγήσει τι μπορεί να κάνει το Jukebox, πώς λειτουργεί και τους τρέχοντες περιορισμούς της τεχνολογίας.
Τι είναι το Jukebox AI;
Τζουκ μποξ είναι ένα μοντέλο νευρωνικού δικτύου από το OpenAI που μπορεί να δημιουργήσει μουσική με το τραγούδι. Το μοντέλο μπορεί να παράγει μουσική σε διάφορα είδη και στυλ καλλιτεχνών.
Για παράδειγμα, το Jukebox μπορεί να παράγει ένα ροκ τραγούδι στο στυλ του Έλβις Πρίσλεϋ ή μια χιπ χοπ μελωδία στο στυλ του Κάνιε Γουέστ. Μπορείτε να επισκεφθείτε αυτό για να εξερευνήσετε πόσο αποτελεσματικό είναι το μοντέλο στην αποτύπωση του ήχου των αγαπημένων σας μουσικών καλλιτεχνών και ειδών.
Το μοντέλο απαιτεί ένα είδος, καλλιτέχνη και στίχους ως στοιχεία. Αυτή η είσοδος καθοδηγεί ένα μοντέλο εκπαιδευμένο σε εκατομμύρια καλλιτέχνες και δεδομένα στιχουργίας.
Πώς λειτουργεί το Jukebox;
Ας δούμε πώς το Jukebox καταφέρνει να δημιουργήσει πρωτότυπο ακατέργαστο ήχο από ένα μοντέλο εκπαιδευμένο σε εκατομμύρια τραγούδια.
Διαδικασία κωδικοποίησης
Ενώ ορισμένα μοντέλα παραγωγής μουσικής χρησιμοποιούν δεδομένα εκπαίδευσης MIDI, το Jukebox εκπαιδεύεται στο πραγματικό ακατέργαστο αρχείο ήχου. Για να συμπιέσει τον ήχο σε ένα διακριτό χώρο, το Jukebox χρησιμοποιεί μια προσέγγιση αυτόματης κωδικοποίησης γνωστή ως VQ-VAE.
VQ-VAE σημαίνει Vector Quantized Variational Autoencoder, που μπορεί να ακούγεται λίγο περίπλοκο, οπότε ας το αναλύσουμε.
Αρχικά, ας προσπαθήσουμε να καταλάβουμε τι θέλουμε να κάνουμε εδώ. Σε σύγκριση με τους στίχους ή τις παρτιτούρες, ένα ακατέργαστο αρχείο ήχου είναι πολύ πιο περίπλοκο. Αν θέλουμε το μοντέλο μας να «μάθει» από τραγούδια, θα πρέπει να το μετατρέψουμε σε μια πιο συμπιεσμένη και απλοποιημένη αναπαράσταση. Σε μάθηση μηχανής, ονομάζουμε αυτή την υποκείμενη αναπαράσταση α λανθάνον χώρο.
An αυτόματος κωδικοποιητής είναι μια τεχνική μάθησης χωρίς επίβλεψη που χρησιμοποιεί α νευρικό σύστημα για να βρείτε μη γραμμικές λανθάνουσες αναπαραστάσεις για μια δεδομένη κατανομή δεδομένων. Ο αυτόματος κωδικοποιητής αποτελείται από δύο μέρη: έναν κωδικοποιητή και έναν αποκωδικοποιητή.
Η κωδικοποιητή προσπαθεί να βρει τον λανθάνοντα χώρο από ένα σύνολο ακατέργαστων δεδομένων ενώ το αποκωδικοποιητή χρησιμοποιεί τη λανθάνουσα αναπαράσταση για να προσπαθήσει να την ανακατασκευάσει ξανά στην αρχική της μορφή. Ο αυτόματος κωδικοποιητής ουσιαστικά μαθαίνει πώς να συμπιέζει τα ακατέργαστα δεδομένα με τέτοιο τρόπο που ελαχιστοποιεί το σφάλμα ανακατασκευής.
Τώρα που ξέρουμε τι κάνει ένας αυτόματος κωδικοποιητής, ας προσπαθήσουμε να καταλάβουμε τι εννοούμε με τον όρο "μεταβλητός" αυτόματος κωδικοποιητής. Σε σύγκριση με τους τυπικούς αυτόματους κωδικοποιητές, οι αυτοκωδικοποιητές παραλλαγών προσθέτουν ένα πριν στον λανθάνοντα χώρο.
Χωρίς να βουτήξετε στα μαθηματικά, η προσθήκη ενός πιθανολογικού προηγουμένου διατηρεί τη λανθάνουσα κατανομή στενά συμπιεσμένη. Η κύρια διαφορά μεταξύ ενός VAE και ενός VQ-VAE είναι ότι το τελευταίο χρησιμοποιεί μια διακριτή λανθάνουσα αναπαράσταση και όχι μια συνεχή.
Κάθε επίπεδο VQ-VAE κωδικοποιεί ανεξάρτητα την είσοδο. Η κωδικοποίηση κάτω επιπέδου παράγει την ανακατασκευή υψηλότερης ποιότητας. Η κωδικοποίηση ανώτατου επιπέδου διατηρεί βασικές μουσικές πληροφορίες.
Χρήση μετασχηματιστών
Τώρα που έχουμε τους κωδικούς μουσικής κωδικοποιημένους από το VQ-VAE, μπορούμε να το προσπαθήσουμε παράγουν μουσική σε αυτόν τον συμπιεσμένο διακριτό χώρο.
Χρήσεις Jukebox αυτοπαλινδρομικοί μετασχηματιστές για να δημιουργήσετε τον ήχο εξόδου. Οι μετασχηματιστές είναι ένας τύπος νευρωνικού δικτύου που λειτουργεί καλύτερα με δεδομένα αλληλουχίας. Δεδομένης μιας ακολουθίας διακριτικών, ένα μοντέλο μετασχηματιστή θα προσπαθήσει να προβλέψει το επόμενο διακριτικό.
Το Jukebox χρησιμοποιεί μια απλοποιημένη παραλλαγή των Sparse Transformers. Μόλις εκπαιδευτούν όλα τα προηγούμενα μοντέλα, ο μετασχηματιστής δημιουργεί συμπιεσμένους κωδικούς που στη συνέχεια αποκωδικοποιούνται ξανά σε ακατέργαστο ήχο χρησιμοποιώντας τον αποκωδικοποιητή VQ-VAE.
Καλλιτέχνης και Είδος Κλιματισμός στο Jukebox
Το μοντέλο παραγωγής του Jukebox γίνεται πιο ελεγχόμενο παρέχοντας πρόσθετα σήματα υπό όρους κατά τη διάρκεια του βήματος εκπαίδευσης.
Τα πρώτα μοντέλα παρέχονται από καλλιτέχνες και ετικέτες είδους για κάθε τραγούδι. Αυτό μειώνει την εντροπία της πρόβλεψης ήχου και επιτρέπει στο μοντέλο να επιτύχει καλύτερη ποιότητα. Οι ετικέτες μας επιτρέπουν επίσης να κατευθύνουμε το μοντέλο με ένα συγκεκριμένο στυλ.
Εκτός από τον καλλιτέχνη και το είδος, προστίθενται σήματα χρονισμού κατά τη διάρκεια του χρόνου εκπαίδευσης. Αυτά τα σήματα περιλαμβάνουν τη διάρκεια του τραγουδιού, την ώρα έναρξης ενός συγκεκριμένου δείγματος και το τμήμα του τραγουδιού που έχει παρέλθει. Αυτές οι πρόσθετες πληροφορίες βοηθούν το μοντέλο να κατανοήσει τα ηχητικά μοτίβα που βασίζονται στη συνολική δομή.
Για παράδειγμα, το μοντέλο μπορεί να μάθει ότι το χειροκρότημα για ζωντανή μουσική συμβαίνει στο τέλος ενός τραγουδιού. Το μοντέλο μπορεί επίσης να μάθει, για παράδειγμα, ότι ορισμένα είδη έχουν μεγαλύτερες ενότητες οργάνων από άλλα.
στίχοι
Τα ρυθμισμένα μοντέλα που αναφέρονται στην προηγούμενη ενότητα είναι ικανά να παράγουν μια ποικιλία τραγουδιστικών φωνών. Ωστόσο, αυτές οι φωνές τείνουν να είναι ασυνάρτητες και μη αναγνωρίσιμες.
Για να ελέγξουν το γενεσιουργό μοντέλο όταν πρόκειται για τη δημιουργία στίχων, οι ερευνητές παρέχουν περισσότερο πλαίσιο κατά τον χρόνο εκπαίδευσης. Για να βοηθήσουν στη χαρτογράφηση των στιχουργικών δεδομένων με τον χρόνο στον πραγματικό ήχο, οι ερευνητές χρησιμοποίησαν Σπλέτερ να εξάγει φωνητικά και NUS AutoLyrics Align για να λάβετε στοίχιση σε επίπεδο λέξης των στίχων.
Περιορισμοί του μοντέλου Jukebox
Ένας από τους κύριους περιορισμούς του Jukebox είναι η κατανόηση μεγαλύτερων μουσικών δομών. Για παράδειγμα, ένα σύντομο κλιπ 20 δευτερολέπτων της εξόδου μπορεί να ακούγεται εντυπωσιακό, αλλά οι ακροατές θα παρατηρήσουν ότι η τυπική μουσική δομή των επαναλαμβανόμενων ρεφρέν και στίχων απουσιάζει στην τελική έξοδο.
Το μοντέλο αργεί επίσης στην απόδοση. Χρειάζονται περίπου 9 ώρες για την πλήρη απόδοση ενός λεπτού ήχου. Αυτό περιορίζει τον αριθμό των τραγουδιών που μπορούν να δημιουργηθούν και αποτρέπει τη χρήση του μοντέλου σε διαδραστικές εφαρμογές.
Τέλος, οι ερευνητές παρατήρησαν ότι το δείγμα δεδομένων είναι κυρίως στα αγγλικά και εμφανίζει κυρίως δυτικές μουσικές συμβάσεις. Οι ερευνητές της τεχνητής νοημοσύνης μπορούν να εστιάσουν τη μελλοντική τους έρευνα στη δημιουργία μουσικής σε άλλες γλώσσες και σε μη δυτικά στυλ μουσικής.
Συμπέρασμα
Το έργο Jukebox υπογραμμίζει την αυξανόμενη ικανότητα των μοντέλων μηχανικής εκμάθησης να δημιουργούν ακριβείς λανθάνουσες αναπαραστάσεις περίπλοκων δεδομένων όπως ο ακατέργαστος ήχος. Παρόμοιες ανακαλύψεις συμβαίνουν στο κείμενο, όπως φαίνεται σε έργα όπως GPT-3, και εικόνες, όπως φαίνεται στο OpenAI's DALL-E2.
Ενώ η έρευνα σε αυτόν τον χώρο ήταν εντυπωσιακή, εξακολουθούν να υπάρχουν ανησυχίες σχετικά με τα δικαιώματα πνευματικής ιδιοκτησίας και τον αντίκτυπο που μπορεί να έχουν αυτά τα μοντέλα στις δημιουργικές βιομηχανίες στο σύνολό τους. Ερευνητές και δημιουργικοί θα πρέπει να συνεχίσουν να συνεργάζονται στενά για να διασφαλίσουν ότι αυτά τα μοντέλα μπορούν να συνεχίσουν να βελτιώνονται.
Τα μελλοντικά μοντέλα παραγωγής μουσικής ενδέχεται σύντομα να λειτουργούν ως εργαλείο για μουσικούς ή ως εφαρμογή για δημιουργικά που χρειάζονται μια προσαρμοσμένη μουσική για έργα.
Αφήστε μια απάντηση