Η Google ανακοίνωσε το MusicLM, την τεχνητή νοημοσύνη που δημιουργεί μουσική από τις λέξεις που πληκτρολογείτε, όπως το DALL-E 2. Είναι ένα μοντέλο γλώσσας που δημιουργήθηκε από την Google Research. Άλλωστε το έχουν σχεδιάσει αποκλειστικά για μουσική δημιουργία.
Επίσης, έχει εκπαιδευτεί σε ένα τεράστιο σύνολο δεδομένων αρχείων μουσικής και μπορεί να παράγει μουσική σε μια σειρά από στυλ και μορφές. Αν σας ενδιαφέρει η μουσική? τότε θα πρέπει να ελέγξετε τι θα προσφέρει η MusicLM.
Με το MusicLM παράγετε μουσική σε ορισμένες τεχνικές και μορφές. Για παράδειγμα, μπορείτε να δημιουργήσετε κομμάτια πιάνου, ρυθμούς ντραμς και μελωδίες για στίχους.
Επίσης, μπορείτε να ρυθμίσετε με ακρίβεια ορισμένα στυλ ή να συμπεριλάβετε στοιχεία εισόδου που παρέχονται από το χρήστη. Προορίζεται να παράγει μουσική που είναι αρμονικά και ρυθμικά συνεκτική. Λοιπόν, ας βουτήξουμε και ας δούμε τι είναι το MusicLM.
Προηγούμενες Προσπάθειες
Το MusicLM δεν είναι το πρώτο μουσικό σύστημα που δημιουργήθηκε από AI. Riffusion, Dance Diffusion, AudioML της Google και OpenAI Τζουκ μποξ είναι παραδείγματα συγκρίσιμων προσεγγίσεων. Ωστόσο, αυτά τα προηγούμενα συστήματα περιορίζονταν από τεχνολογικούς περιορισμούς.
Επίσης, η έλλειψη δεδομένων προπόνησης καθιστούσε δύσκολη τη σύνθεση μελωδιών υψηλής ποιότητας. Ωστόσο, το MusicLM έχει την ικανότητα να δημιουργεί μουσική με μεγαλύτερο επίπεδο πολυπλοκότητας και ρεαλισμού.
Επισκόπηση MusicLM
Το MusicLM μαθαίνει τη δομή και το στυλ της μουσικής. Ως εκ τούτου, εκπαιδεύεται σε ένα τεράστιο σύνολο δεδομένων MIDI και συμβολικών μουσικών αρχείων. Όπως και τα παρόμοια προγράμματά του, το MusicLM είναι χτισμένο στην αρχιτεκτονική του Transformer.
Χρησιμοποιώντας τεχνικές αυτοπροσοχής για επικέντρωση σε συγκεκριμένα στοιχεία εισόδου, η αρχιτεκτονική μετασχηματιστή της MusicLM χρησιμοποιείται για την εξαγωγή της δομής και του στυλ της μουσικής από ένα μεγάλο σύνολο δεδομένων. Ως αποτέλεσμα, μπορείτε να δημιουργήσετε αρμονικά και ρυθμικά συνεκτική μουσική.
Και, αυτή η μουσική μπορεί να μιμηθεί την οργάνωση της εισόδου του χρήστη. Ως εκ τούτου, θα μπορείτε να έχετε το μουσικό αποτέλεσμα που περιγράφετε συγκεκριμένα στο πρόγραμμα.
Η επιτυχία του προηγούμενου γλωσσικά μοντέλα, όπως το GPT-2 και το GPT-3, που έχουν αποδείξει την ικανότητά τους να δημιουργούν συνεκτική και ευχάριστη γραφή, ενέπνευσαν το MusicLM. Το MusicLM, από την άλλη, είναι το πρώτο μοντέλο γλώσσας που κατασκευάστηκε αποκλειστικά για τη μουσική γενιά.
Και, πιστεύουμε ότι θα θεωρηθεί ως ένα από τα πιο εξελιγμένα μοντέλα.
Πώς λειτουργεί;
Το DALL-E 2 και το MusicLM της Google τεχνητή νοημοσύνη μοιράζονται πολλές δομικές ομοιότητες. Αυτή τη φορά, όμως, η γραφή σας μεταφέρεται μουσικά παρά οπτικά. Σε αυτό το σημείο, μπορείτε είτε να κατασκευάσετε πλήρως ένα ολόκληρο κομμάτι. Επίσης, μπορείτε να δημιουργήσετε ρυθμό χρησιμοποιώντας μόνο ένα όργανο.
Μπορείτε να δείτε πολλά δείγματα μελετών που δημιουργήθηκαν από την ομάδα AI της Google στη σελίδα Github του MusicLM. Παρόλο που η τεχνητή νοημοσύνη βρίσκεται ακόμα σε στάδιο έρευνας και ανάπτυξης, οι ήχοι που μπορεί να κάνει είναι υψηλής ανάλυσης. Επίσης, υπήρξαν προτάσεις, όπως η ενσωμάτωση αυτού του AI με το ChatGPT. Αυτή η ενσωμάτωση θα μπορούσε να οδηγήσει σε πιο περίπλοκη και δημιουργική μουσική.
Από το βουητό μέχρι τις μελωδίες
Το MusicLM συνδυάζει τέσσερα διαφορετικά μοντέλα AI: MuLan, AudioLM, w2v-BERT και Soundstream. Αν και καθένα από αυτά τα μοντέλα έχει ένα σύνολο διακριτικών δυνατοτήτων. Ωστόσο, όταν ενσωματώθηκαν, είχαν ως αποτέλεσμα το MusicLM!
Μουσικοί και επαγγελματίες του κλάδου έχουν λάβει υπόψη την ικανότητα του MusicLM να μεταμορφώνει ακόμη και τα πιο βασικά βουητά και μουρμουρητά σε ολόκληρα κομμάτια. Συνδυάζοντας με το ChatGPT, μπορεί να παράγει μοναδική μουσική.
Μπορείτε να ακούσετε και να εξερευνήσετε τη μουσική και τους ήχους που δημιουργούνται από το MusicLM σε αυτό . Αλλά, να έχετε κατά νου ότι αυτή τη στιγμή βρίσκεται σε φάση δοκιμών. Είναι προφανές ότι η MusicLM έχει τη δυνατότητα να μεταμορφώσει πλήρως τη μουσική επιχείρηση καθώς αναπτύσσεται η τεχνολογία.
Μουσική που δημιουργείται από AI με ανθρώπινες αποχρώσεις
Για να παράγει τραγούδια που έχουν νόημα με βάση λεπτομερείς περιγραφές, το MusicLM εκπαιδεύτηκε σε ένα μεγάλο σύνολο δεδομένων 280,000 ωρών μουσικής. Για παράδειγμα, μπορείτε να δημιουργήσετε «μια μελωδική dubstep μελωδία με βαθύ μπάσο και εκλεπτυσμένους ρυθμούς ντραμς». Ή, θα μπορούσατε να το ζητήσετε για να δημιουργήσει «ένα δελεαστικό ποπ τραγούδι με ένα σαγηνευτικό riff κιθάρας και έναν δυνατό τραγουδιστή». Η φαντασία σας είναι το όριο σε αυτή την περίπτωση.
Τα τραγούδια που παράγονται μοιάζουν με αυτά που συνέθεσαν ανθρώπινοι μουσικοί. Τα δείγματα της MusicLM είναι εξαιρετικά εκπληκτικά. Είναι αλήθεια, ειδικά δεδομένου ότι δεν εμπλέκεται άνθρωπος στη διαδικασία σύνθεσης. Το MusicLM μπορεί να επαναλάβει διαφοροποιημένες πτυχές, όπως μουσικά riff, μελωδίες και συναισθήματα. Επιπλέον, λειτουργεί ακόμη και όταν δίνονται περίπλοκες και σαφείς προδιαγραφές.
Σημαντικά χαρακτηριστικά
Λεζάντα ζωγραφικής Conditioning
Το Painting Caption Conditioning είναι μια λειτουργία MusicLM. Μπορείτε να παράγετε μουσική με βάση μια κειμενική περιγραφή ή "λεζάντα" ενός πίνακα. Αυτό σημαίνει ότι το MusicLM είναι ικανό να δημιουργεί μουσική που αποτυπώνει τα συναισθήματα, τις διαθέσεις και τις ιδέες που εκφράζονται σε μια εικόνα. Αυτή η δυνατότητα είναι πολύ χρήσιμη για τη δημιουργία μουσικής για ταινίες, βιντεοπαιχνίδια, και κάθε είδους οπτικά μέσα.
Λειτουργία Story
Η λειτουργία Story Mode λαμβάνει ένα κείμενο ιστορίας ως είσοδο. Ως εκ τούτου, δημιουργεί συνοδευτική μουσική υπόκρουση. Οι χρήστες μπορούν να χρησιμοποιήσουν αυτή τη λειτουργία για να δημιουργήσουν ένα soundtrack για ένα παραμύθι, ένα βιντεοπαιχνίδι ή μια ταινία απεικονίζοντας το σενάριο ή τον συναισθηματικό τόνο.
Το Story Mode είναι ένα εύχρηστο εργαλείο για καλλιτέχνες πολυμέσων. Έτσι, μπορεί να δημιουργήσει ένα ευρύ φάσμα μουσικών στυλ και οργάνων. Η λειτουργία Tale Mode της MusicLM μπορεί να αυξήσει τον συναισθηματικό αντίκτυπο μιας σκηνής. Έτσι, οι θεατές μπορούν να έχουν έναν επιπλέον βαθμό βύθισης στην ιστορία.
Επίπεδο εμπειρίας μουσικού
Μπορείτε να προσαρμόσετε τη δυσκολία της μουσικής που δημιουργείται. Οι χρήστες μπορούν να επιλέξουν ανάμεσα σε τρία επίπεδα με βάση το επίπεδο δεξιοτήτων τους. Επίσης, μπορούν να καθορίσουν τον προτιμώμενο βαθμό πολυπλοκότητας: αρχάριος, μεσαίος ή προχωρημένος.
Αυτή η δυνατότητα σας βοηθά αν έχετε λίγη μουσική εμπειρία και θέλετε να πειραματιστείτε με νέες συνθέσεις. Ωστόσο, εάν είστε έμπειρος μουσικός, μπορείτε να δημιουργήσετε εκλεπτυσμένη και λεπτή μουσική. Στόχος της MusicLM με αυτήν τη δυνατότητα είναι να προσφέρει μια προσβάσιμη εμπειρία για όλους τους χρήστες.
Διαφορετικότητα Γενεών
Με τη λειτουργία Generation Diversity, μπορείτε να δημιουργήσετε πολλές εκδόσεις ενός τραγουδιού από την ίδια είσοδο. Και, μπορείτε να έχετε ποικίλο εύρος εξόδων. Αυτό σημαίνει ότι το AI μπορεί να δημιουργήσει πολλές εκδόσεις ενός τραγουδιού.
Εξάλλου, υπάρχουν εναλλακτικές μελωδίες ή προόδους συγχορδιών, διατηρώντας παράλληλα το βασικό ύφος και τη δομή του τραγουδιού. Αυτή η δυνατότητα βοηθά τη μουσική δημιουργία του AI να είναι πιο δημιουργική. Ως εκ τούτου, κάνει τη μουσική δημιουργία πιο ανάλογη με την ανθρώπινη τραγουδοποιία.
Πιθανοί περιορισμοί του MusicLM
Η Google δεν έχει καταστήσει ακόμη το MusicLM διαθέσιμο στο ευρύ κοινό, καθώς βρίσκεται ακόμη σε εξέλιξη. Ως εκ τούτου, δεν μπορείτε ακόμη να δώσετε συγκεκριμένα δείγματα των ειδών μουσικής που μπορεί να παράγει η MusicLM. Επιπλέον, είναι ακόμα λίγο άγνωστο ποιοι περιορισμοί θα μπορούσε να έχει το MusicLM.
Καθώς η τεχνολογία βρίσκεται ακόμη στα αρχικά της στάδια, θα μπορούσε να έχει ορισμένους περιορισμούς στο διαμέτρημα της μουσικής που παράγεται ή στην ικανότητά της να χειρίζεται συγκεκριμένες εισόδους.
Η παραμορφωμένη ποιότητα των παραγόμενων δειγμάτων είναι ένα από τα βασικά μειονεκτήματα. Αυτό είναι ένα απαραίτητο υποπροϊόν της διαδικασίας εκπαίδευσης που χρησιμοποιείται για την ανάπτυξη του MusicLM.
Ένα άλλο μειονέκτημα είναι ότι, παρά την τεχνική ικανότητα της MusicLM να κατασκευάζει φωνητικά. Αυτό περιλαμβάνει τραγούδια χορωδίας. Οι «στίχοι» που παράγει η MusicLM μερικές φορές φαίνονται σαν ασυναρτησίες. Επιπλέον, μπορεί να είναι δύσκολο να κατανοηθούν. Ωστόσο, το MusicLM βρίσκεται ακόμη σε ανάπτυξη και αυτά τα ζητήματα μπορούν να βελτιωθούν.
Τελικές παρατηρήσεις
Τέλος, πιστεύουμε ότι η τεχνολογία στην οποία βασίζεται το Google MusicLM είναι ενδιαφέρουσα και συναρπαστική. Είναι εκπληκτικό ότι μια τεχνητή νοημοσύνη μπορεί να κάνει μουσική σε διάφορα στυλ, με υψηλότερο επίπεδο ρεαλισμού. Το MusicLM έχει τη δυνατότητα να αλλάξει τη μουσική επιχείρηση. Και, είμαστε ενθουσιασμένοι που παρακολουθούμε πώς εξελίσσεται αυτή η τεχνολογία.
Αφήστε μια απάντηση