Τα μεγάλα νευρωνικά δίκτυα που έχουν εκπαιδευτεί για την αναγνώριση και τη δημιουργία γλωσσών έχουν επιδείξει εξαιρετικά αποτελέσματα σε μια ποικιλία εργασιών τα τελευταία χρόνια. Το GPT-3 απέδειξε ότι τα μεγάλα γλωσσικά μοντέλα (LLM) θα μπορούσαν να χρησιμοποιηθούν για εκμάθηση λίγων βολών και να επιτύχουν εξαιρετικά αποτελέσματα χωρίς να απαιτούνται εκτεταμένα δεδομένα για συγκεκριμένες εργασίες ή αλλαγή παραμέτρων του μοντέλου.
Η Google, το τεχνολογικό μεγαθήριο της Silicon Valley, εισήγαγε το PaLM, ή το Μοντέλο Γλωσσών Pathways, στην παγκόσμια βιομηχανία τεχνολογίας ως το μοντέλο επόμενης γενιάς στη γλώσσα AI. Η Google έχει ενσωματώσει ένα νέο τεχνητή νοημοσύνη αρχιτεκτονική στο PaLM με στρατηγικούς στόχους για τη βελτίωση της ποιότητας του μοντέλου της γλώσσας AI.
Σε αυτήν την ανάρτηση, θα εξετάσουμε λεπτομερώς τον αλγόριθμο Palm, συμπεριλαμβανομένων των παραμέτρων που χρησιμοποιούνται για την εκπαίδευσή του, το πρόβλημα που επιλύει και πολλά άλλα.
Τι είναι Ο αλγόριθμος PaLM της Google?
Το μοντέλο γλώσσας Pathways είναι αυτό Παλάμη σημαίνει. Αυτός είναι ένας νέος αλγόριθμος που αναπτύχθηκε από την Google προκειμένου να ενισχύσει την αρχιτεκτονική του Pathways AI. Ο κύριος στόχος της δομής είναι να κάνει ένα εκατομμύριο ξεχωριστές δραστηριότητες ταυτόχρονα.
Αυτά περιλαμβάνουν τα πάντα, από την αποκρυπτογράφηση πολύπλοκων δεδομένων έως την απαγωγική συλλογιστική. Το PaLM έχει την ικανότητα να ξεπερνά την τρέχουσα τεχνολογία αιχμής της τεχνητής νοημοσύνης καθώς και τους ανθρώπους σε γλωσσικές και συλλογιστικές εργασίες.
Αυτό περιλαμβάνει το Few-Shot Learning, το οποίο μιμείται τον τρόπο με τον οποίο οι άνθρωποι μαθαίνουν νέα πράγματα και συνδυάζουν διαφορετικά κομμάτια γνώσης για να αντιμετωπίσουν νέες προκλήσεις που δεν έχουν ξαναδεί, με το πλεονέκτημα μιας μηχανής που μπορεί να χρησιμοποιήσει όλες τις γνώσεις της για την επίλυση νέων προκλήσεων. Ένα παράδειγμα αυτής της ικανότητας στο PaLM είναι η ικανότητά του να εξηγεί ένα αστείο που δεν έχει ξανακούσει.
Το PaLM επέδειξε πολλές πρωτοποριακές δεξιότητες σε μια ποικιλία απαιτητικών εργασιών, όπως η κατανόηση και η δημιουργία γλώσσας, δραστηριότητες που σχετίζονται με τον αριθμητικό κώδικα πολλαπλών βημάτων, η κοινή λογική, η μετάφραση και πολλά άλλα.
Έχει αποδείξει την ικανότητά του να επιλύει περίπλοκα ζητήματα χρησιμοποιώντας πολύγλωσσα σύνολα NLP. Το PaLM μπορεί να χρησιμοποιηθεί από την παγκόσμια αγορά τεχνολογίας για να διαφοροποιήσει την αιτία και το αποτέλεσμα, τους εννοιολογικούς συνδυασμούς, τα διαφορετικά παιχνίδια και πολλά άλλα πράγματα.
Μπορεί επίσης να δημιουργήσει σε βάθος εξηγήσεις για πολλά περιβάλλοντα χρησιμοποιώντας λογικά συμπεράσματα πολλαπλών βημάτων, βαθιά γλώσσα, παγκόσμια γνώση και άλλες τεχνικές.
Πώς ανέπτυξε η Google τον αλγόριθμο PaLM;
Για την πρωτοποριακή απόδοση της Google στο PaLM, οι διαδρομές έχουν προγραμματιστεί να κλιμακωθούν έως και 540 δισεκατομμύρια παραμέτρους. Αναγνωρίζεται ως το μοναδικό μοντέλο που μπορεί να γενικεύσει αποτελεσματικά και αποτελεσματικά σε πολλούς τομείς. Το Pathways στη Google είναι αφιερωμένο στην ανάπτυξη κατανεμημένων υπολογιστών για επιταχυντές.
Το PaLM είναι ένα μοντέλο μετασχηματιστή μόνο με αποκωδικοποιητή που έχει εκπαιδευτεί χρησιμοποιώντας το σύστημα Pathways. Σύμφωνα με την Google, το PaLM έχει επιτύχει επιτυχώς κορυφαία απόδοση σε λίγες λήψεις σε πολλούς φόρτους εργασίας. Το PaLM χρησιμοποίησε το σύστημα Pathways για να επεκτείνει την εκπαίδευση στη μεγαλύτερη διαμόρφωση συστήματος που βασίζεται σε TPU, γνωστή ως τσιπ 6144 για πρώτη φορά.
Ένα σύνολο δεδομένων εκπαίδευσης για το μοντέλο της γλώσσας AI αποτελείται από έναν συνδυασμό αγγλικών και άλλων πολύγλωσσων συνόλων δεδομένων. Με λεξιλόγιο "χωρίς απώλειες", περιέχει περιεχόμενο ιστού υψηλής ποιότητας, συζητήσεις, βιβλία, κώδικα GitHub, Wikipedia και πολλά άλλα. Το λεξιλόγιο χωρίς απώλειες αναγνωρίζεται για τη διατήρηση του κενού διαστήματος και τη διάσπαση χαρακτήρων Unicode που δεν περιλαμβάνονται στο λεξιλόγιο σε byte.
Το PaLM αναπτύχθηκε από την Google και την Pathways χρησιμοποιώντας μια τυπική αρχιτεκτονική μοντέλου μετασχηματιστή και μια διαμόρφωση αποκωδικοποιητή που περιελάμβανε ενεργοποίηση SwiGLU, παράλληλα επίπεδα, ενσωματώσεις RoPE, ενσωματώσεις κοινής εισόδου-εξόδου, προσοχή πολλαπλών ερωτημάτων και χωρίς προκαταλήψεις ή λεξιλόγιο. Το PaLM, από την άλλη πλευρά, είναι έτοιμο να προσφέρει μια σταθερή βάση για το μοντέλο γλώσσας AI της Google και της Pathways.
Παράμετροι που χρησιμοποιούνται για την εκπαίδευση του PaLM
Πέρυσι, η Google κυκλοφόρησε το Pathways, ένα μεμονωμένο μοντέλο που μπορεί να εκπαιδευτεί να κάνει χιλιάδες, αν όχι εκατομμύρια πράγματα, που ονομάζεται «αρχιτεκτονική τεχνητής νοημοσύνης επόμενης γενιάς», καθώς μπορεί να ξεπεράσει τους περιορισμούς των υπαρχόντων μοντέλων να εκπαιδεύονται να κάνουν μόνο ένα πράγμα. Αντί να επεκτείνουν τις δυνατότητες των τρεχόντων μοντέλων, τα νέα μοντέλα κατασκευάζονται συχνά από κάτω προς τα πάνω για να ολοκληρώσουν μία και μόνο εργασία.
Ως αποτέλεσμα, έχουν δημιουργήσει δεκάδες χιλιάδες μοντέλα για δεκάδες χιλιάδες διαφορετικές δραστηριότητες. Αυτή είναι μια χρονοβόρα και απαιτητική εργασία.
Η Google απέδειξε μέσω του Pathways ότι ένα μεμονωμένο μοντέλο θα μπορούσε να χειριστεί μια ποικιλία δραστηριοτήτων και να αξιοποιήσει και να συνδυάσει τρέχοντα ταλέντα για να μάθει νέες εργασίες πιο γρήγορα και αποτελεσματικά.
Τα πολυτροπικά μοντέλα που περιλαμβάνουν την όραση, τη γλωσσική κατανόηση και την ακουστική επεξεργασία ταυτόχρονα μπορούν να ενεργοποιηθούν μέσω μονοπατιών. Το Pathways Language Model (PaLM) επιτρέπει την εκπαίδευση ενός μόνο μοντέλου σε πολυάριθμα TPU v4 Pods χάρη στο μοντέλο παραμέτρων 540 δισεκατομμυρίων.
Το PaLM, ένα πυκνό μοντέλο Transformer μόνο με αποκωδικοποιητή, ξεπερνά τις επιδόσεις τελευταίας τεχνολογίας σε λίγες λήψεις σε ένα ευρύ φάσμα φόρτων εργασίας. Το PaLM εκπαιδεύεται σε δύο TPU v4 Pods που συνδέονται μέσω δικτύου κέντρου δεδομένων (DCN).
Εκμεταλλεύεται τον παραλληλισμό τόσο μοντέλων όσο και δεδομένων. Οι ερευνητές χρησιμοποίησαν 3072 επεξεργαστές TPU v4 σε κάθε Pod για PaLM, οι οποίοι ήταν συνδεδεμένοι με 768 κεντρικούς υπολογιστές. Σύμφωνα με τους ερευνητές, αυτή είναι η μεγαλύτερη διαμόρφωση TPU που έχει αποκαλυφθεί ακόμα, επιτρέποντάς τους να κλιμακώσουν την εκπαίδευση χωρίς να χρησιμοποιούν παραλληλισμό αγωγών.
Η επένδυση σωλήνων είναι η διαδικασία συλλογής οδηγιών από την CPU μέσω ενός αγωγού γενικά. Τα στρώματα του μοντέλου χωρίζονται σε φάσεις που μπορούν να επεξεργαστούν παράλληλα μέσω του παραλληλισμού του μοντέλου αγωγών (ή του παραλληλισμού αγωγών).
Η μνήμη ενεργοποίησης αποστέλλεται στο επόμενο βήμα, όταν ένα στάδιο ολοκληρώσει το πέρασμα προς τα εμπρός για μια μικρο-παρτίδα. Οι διαβαθμίσεις στέλνονται στη συνέχεια προς τα πίσω όταν το επόμενο στάδιο ολοκληρώσει τη διάδοσή του προς τα πίσω.
Δυνατότητες ανακάλυψης PaLM
Το PaLM εμφανίζει πρωτοποριακές ικανότητες σε μια σειρά από δύσκολες εργασίες. Ακολουθούν αρκετά παραδείγματα:
1. Δημιουργία και κατανόηση γλώσσας
Το PaLM δοκιμάστηκε σε 29 διαφορετικές εργασίες NLP στα αγγλικά.
Σε λίγες βολές, το PaLM 540B ξεπέρασε τα προηγούμενα μεγάλα μοντέλα όπως τα GLaM, GPT-3, Megatron-Turing NLG, Gopher, Chinchilla και LaMDA σε 28 από 29 εργασίες, συμπεριλαμβανομένων εργασιών απάντησης ερωτήσεων παραλλαγής κλειστού βιβλίου ανοιχτού τομέα, cloze και tasks completion, common tasks. εργασίες λογικής λογικής, εργασίες SuperGLUE και φυσικό συμπέρασμα.
Σε πολλές εργασίες BIG-bench, το PaLM επιδεικνύει εξαιρετικές δεξιότητες διερμηνείας και δημιουργίας φυσικής γλώσσας. Για παράδειγμα, το μοντέλο μπορεί να διακρίνει μεταξύ αιτίας και αποτελέσματος, να κατανοήσει εννοιολογικούς συνδυασμούς σε ορισμένες καταστάσεις και ακόμη και να μαντέψει την ταινία από ένα emoji. Παρόλο που μόλις το 22% του εκπαιδευτικού υλικού δεν είναι Αγγλικά, το PaLM έχει καλή απόδοση σε πολύγλωσσα σημεία αναφοράς NLP, συμπεριλαμβανομένης της μετάφρασης, εκτός από τα αγγλικά καθήκοντα NLP.
2. Συλλογιστική
Το PaLM συνδυάζει το μέγεθος του μοντέλου με την αλυσίδα σκέψης που προτρέπει να επιδείξει πρωτοποριακές δεξιότητες σε προκλήσεις συλλογισμού που απαιτούν αριθμητική ή κοινή λογική συλλογιστική πολλαπλών βημάτων.
Τα προηγούμενα LLM, όπως το Gopher, επωφελήθηκαν λιγότερο από το μέγεθος του μοντέλου όσον αφορά τη βελτίωση της απόδοσης. Το PaLM 540B με προτροπή αλυσίδας σκέψης τα πήγε καλά σε τρία σύνολα δεδομένων αριθμητικής και δύο κοινών νοημάτων.
Το PaLM υπερτερεί της προηγούμενης καλύτερης βαθμολογίας 55%, η οποία λήφθηκε ρυθμίζοντας το μοντέλο GPT-3 175B με ένα σετ εκπαίδευσης 7500 προβλημάτων και συνδυάζοντάς το με μια εξωτερική αριθμομηχανή και επαληθευτή για να λύσει το 58 τοις εκατό των προβλημάτων στο GSM8K, ένα σημείο αναφοράς χιλιάδων δύσκολων ερωτήσεων μαθηματικών στο επίπεδο του 8ου δημοτικού.
Αυτή η νέα βαθμολογία είναι ιδιαίτερα αξιοσημείωτη καθώς πλησιάζει το 60% του μέσου όρου των εμποδίων που αντιμετωπίζουν τα παιδιά ηλικίας 9-12 ετών. Μπορεί επίσης να απαντήσει σε πρωτότυπα αστεία που δεν είναι διαθέσιμα στο διαδίκτυο.
3. Δημιουργία Κώδικα
Τα LLM έχουν επίσης αποδειχθεί ότι έχουν καλή απόδοση σε εργασίες κωδικοποίησης, συμπεριλαμβανομένης της δημιουργίας κώδικα από μια περιγραφή φυσικής γλώσσας (κείμενο σε κώδικα), τη μετάφραση κώδικα μεταξύ γλωσσών και την επίλυση σφαλμάτων μεταγλώττισης. Παρά το γεγονός ότι έχει μόνο 5% κωδικό στο σύνολο δεδομένων πριν από την εκπαίδευση, το PaLM 540B αποδίδει καλά τόσο σε εργασίες κωδικοποίησης όσο και σε εργασίες φυσικής γλώσσας σε ένα μόνο μοντέλο.
Η απόδοσή του σε λίγες λήψεις είναι απίστευτη, καθώς ταιριάζει με τον τελειοποιημένο Codex 12B ενώ προπονείται με 50 φορές λιγότερο κώδικα Python. Αυτό το εύρημα υποστηρίζει με προηγούμενα ευρήματα ότι τα μεγαλύτερα μοντέλα μπορούν να είναι πιο αποδοτικά ως προς τα δείγματα από τα μικρότερα μοντέλα, επειδή μπορούν να μεταφέρουν πιο αποτελεσματικά τη μάθηση από πολλά γλώσσες προγραμματισμού και δεδομένα απλής γλώσσας.
Συμπέρασμα
Το PaLM δείχνει την ικανότητα του συστήματος Pathways να κλιμακώνεται σε χιλιάδες επεξεργαστές επιτάχυνσης σε δύο TPU v4 Pods εκπαιδεύοντας αποτελεσματικά ένα μοντέλο παραμέτρων 540 δισεκατομμυρίων με μια καλά μελετημένη, καλά καθιερωμένη συνταγή ενός μοντέλου Transformer με πυκνό αποκωδικοποιητή μόνο.
Επιτυγχάνει πρωτοποριακή απόδοση σε λίγες λήψεις σε μια σειρά προκλήσεων επεξεργασίας, συλλογισμού και κωδικοποίησης φυσικής γλώσσας, ωθώντας τα όρια της κλίμακας του μοντέλου.
Αφήστε μια απάντηση