Ολόκληρη η Εκπαιδευτική Διαδικασία του ChatGPT Explained

Πίνακας περιεχομένων[Κρύβω][Προβολή]

Γενετική Προκατάρτιση+-
- Το ζήτημα της ευθυγράμμισης
Εποπτευόμενος συντονισμός+-
- Περιορισμοί εποπτείας: Μετατόπιση διανομής
Με βάση τις προτιμήσεις, επιβράβευση μάθησης
Τι κρατά το μέλλον;

Το ChatGPT είναι ένα αξιόλογο μοντέλο γλώσσας τεχνητής νοημοσύνης. Όλοι το χρησιμοποιούμε για να μας βοηθήσει σε διάφορες εργασίες.

Έχετε αναρωτηθεί ποτέ πώς εκπαιδεύτηκε για να παράγει απαντήσεις που μοιάζουν τόσο ανθρώπινες; Σε αυτό το άρθρο, θα εξετάσουμε την εκπαίδευση του ChatGPT.

Θα εξηγήσουμε πώς έχει εξελιχθεί σε ένα από τα πιο σημαντικά γλωσσικά μοντέλα. Καθώς εξερευνούμε τον συναρπαστικό κόσμο του ChatGPT, ελάτε σε ένα ταξίδι ανακάλυψης.

Επισκόπηση της Εκπαίδευσης

Το ChatGPT είναι ένα μοντέλο επεξεργασίας φυσικής γλώσσας.

Με το ChatGPT, μπορούμε να συμμετάσχουμε σε διαδραστικούς διαλόγους και ανθρώπινες συζητήσεις. Χρησιμοποιεί μια προσέγγιση παρόμοια με αυτή του Καθοδήγηση GPT, το οποίο είναι ένα μοντέλο γλώσσας αιχμής. Αναπτύχθηκε λίγο πριν το ChatGPT.

Χρησιμοποιεί μια πιο ελκυστική μέθοδο. Αυτό επιτρέπει φυσικές αλληλεπιδράσεις με τους χρήστες. Έτσι, είναι ένα τέλειο εργαλείο για μια ποικιλία εφαρμογών όπως chatbots και εικονικούς βοηθούς.

Η διαδικασία εκπαίδευσης του ChatGPT είναι μια διαδικασία πολλαπλών σταδίων. Η Generative Pretraining είναι το πρώτο βήμα στην εκπαίδευση του ChatGPT.

Σε αυτή τη φάση, το μοντέλο εκπαιδεύεται χρησιμοποιώντας ένα μεγάλο σύνολο δεδομένων κειμένου. Στη συνέχεια, το μοντέλο ανακαλύπτει τους στατιστικούς συσχετισμούς και τα μοτίβα που βρίσκονται στη φυσική γλώσσα. Έτσι, μπορούμε να έχουμε μια γραμματικά ακριβή και συνεκτική απάντηση.

Στη συνέχεια ακολουθούμε ένα βήμα εποπτευόμενης μικρορύθμισης. Σε αυτό το μέρος, το μοντέλο εκπαιδεύεται σε μια συγκεκριμένη εργασία. Για παράδειγμα, μπορεί να εκτελέσει μετάφραση γλώσσας ή απάντηση ερωτήσεων.

Τέλος, το ChatGPT χρησιμοποιεί εκμάθηση ανταμοιβής από την ανθρώπινη ανατροφοδότηση.

Τώρα, ας εξετάσουμε αυτά τα βήματα.

Γενετική Προκατάρτιση

Το αρχικό επίπεδο εκπαίδευσης είναι η Generative Pretraining. Είναι μια κοινή μέθοδος για την εκπαίδευση μοντέλων γλώσσας. Για τη δημιουργία ακολουθιών διακριτικών, η μέθοδος εφαρμόζει το «παράδειγμα πρόβλεψης επόμενου βήματος».

Τι σημαίνει?

Κάθε διακριτικό είναι μια μοναδική μεταβλητή. Αντιπροσωπεύουν μια λέξη ή ένα μέρος μιας λέξης. Το μοντέλο προσπαθεί να προσδιορίσει ποια λέξη είναι πιο πιθανό να έρθει στη συνέχεια, δεδομένων των λέξεων πριν από αυτήν. Χρησιμοποιεί την κατανομή πιθανοτήτων σε όλους τους όρους της ακολουθίας του.

Ο σκοπός των μοντέλων γλώσσας είναι να κατασκευάζουν αλληλουχίες διακριτικών. Αυτές οι ακολουθίες πρέπει να αντιπροσωπεύουν τα πρότυπα και τις δομές της ανθρώπινης γλώσσας. Αυτό είναι δυνατό με μοντέλα εκπαίδευσης σε τεράστιες ποσότητες δεδομένων κειμένου.

Στη συνέχεια, αυτά τα δεδομένα χρησιμοποιούνται για την κατανόηση του τρόπου κατανομής των λέξεων στη γλώσσα.

Κατά τη διάρκεια της εκπαίδευσης, το μοντέλο αλλάζει τις παραμέτρους κατανομής πιθανοτήτων.

Και, προσπαθεί να μειώσει τη διαφορά μεταξύ της αναμενόμενης και της πραγματικής κατανομής των λέξεων σε ένα κείμενο. Αυτό είναι δυνατό με τη χρήση μιας συνάρτησης απώλειας. Η συνάρτηση απώλειας υπολογίζει τη διαφορά μεταξύ της αναμενόμενης και της πραγματικής κατανομής.

Επεξεργασία φυσικής γλώσσας και όραση υπολογιστή είναι ένας από τους τομείς στους οποίους χρησιμοποιούμε την Generative Pretraining.

Openai 2

Το ζήτημα της ευθυγράμμισης

Το πρόβλημα ευθυγράμμισης είναι μία από τις δυσκολίες στη Γενετική Προκατάρτιση. Αυτό αναφέρεται στη δυσκολία αντιστοίχισης της κατανομής πιθανοτήτων του μοντέλου με την κατανομή των πραγματικών δεδομένων.
Με άλλα λόγια, οι απαντήσεις που δημιουργούνται από το μοντέλο θα πρέπει να είναι πιο ανθρώπινες.

Το μοντέλο μπορεί περιστασιακά να παρέχει απροσδόκητες ή ακατάλληλες απαντήσεις. Και, αυτό μπορεί να οφείλεται σε ποικίλες αιτίες, όπως μεροληψία δεδομένων εκπαίδευσης ή έλλειψη επίγνωσης του πλαισίου του μοντέλου. Το πρόβλημα της ευθυγράμμισης πρέπει να αντιμετωπιστεί για να βελτιωθεί η ποιότητα των γλωσσικών μοντέλων.

Για να ξεπεραστεί αυτό το πρόβλημα, μοντέλα γλώσσας όπως το ChatGPT χρησιμοποιούν τεχνικές λεπτομέρειας.

Εποπτευόμενος συντονισμός

Το δεύτερο μέρος της εκπαίδευσης ChatGPT είναι η εποπτευόμενη λεπτομέρεια. Οι ανθρώπινοι προγραμματιστές συμμετέχουν σε διαλόγους σε αυτό το σημείο, ενεργώντας τόσο ως ανθρώπινος χρήστης όσο και ως chatbot.

Αυτές οι συνομιλίες καταγράφονται και συγκεντρώνονται σε ένα σύνολο δεδομένων. Κάθε δείγμα εκπαίδευσης περιλαμβάνει ένα ξεχωριστό ιστορικό συνομιλιών που ταιριάζει με την επόμενη απάντηση του ανθρώπινου προγραμματιστή που λειτουργεί ως «chatbot».

Ο σκοπός της εποπτευόμενης μικρορύθμισης είναι να μεγιστοποιήσει την πιθανότητα που αποδίδεται στην ακολουθία των διακριτικών στη σχετική απάντηση από το μοντέλο. Αυτή η μέθοδος είναι γνωστή ως «μάθηση μίμησης» ή «κλωνοποίηση συμπεριφοράς».

Με αυτόν τον τρόπο το μοντέλο μπορεί να μάθει να παρέχει πιο φυσικές και συνεκτικές απαντήσεις. Αντιγράφει τις απαντήσεις που δόθηκαν από ανθρώπινους εργολάβους.

Η εποπτευόμενη λεπτομέρεια είναι όπου το μοντέλο γλώσσας μπορεί να προσαρμοστεί για μια συγκεκριμένη εργασία.

Ας δώσουμε ένα παράδειγμα. Ας υποθέσουμε ότι θέλουμε να διδάξουμε ένα chatbot να παρέχει προτάσεις για ταινίες. Θα εκπαιδεύαμε το μοντέλο γλώσσας να προβλέπει βαθμολογίες ταινιών με βάση τις περιγραφές ταινιών. Και, θα χρησιμοποιούσαμε ένα σύνολο δεδομένων περιγραφών και αξιολογήσεων ταινιών.

Ο αλγόριθμος θα υπολόγιζε τελικά ποιες πτυχές μιας ταινίας αντιστοιχούσαν σε υψηλές ή κακές βαθμολογίες.

Αφού εκπαιδευτεί, θα μπορούσαμε να χρησιμοποιήσουμε το μοντέλο μας για να προτείνουμε ταινίες σε ανθρώπινους χρήστες. Οι χρήστες μπορούν να περιγράψουν μια ταινία που τους αρέσει και το chatbot θα χρησιμοποιούσε το εκλεπτυσμένο μοντέλο γλώσσας για να προτείνει περισσότερες ταινίες που είναι συγκρίσιμες με αυτό.

Περιορισμοί εποπτείας: Μετατόπιση διανομής

Η εποπτευόμενη τελειοποίηση είναι η διδασκαλία ενός γλωσσικού μοντέλου για την εκτέλεση ενός καθορισμένου στόχου. Αυτό είναι δυνατό τροφοδοτώντας το μοντέλο a σύνολο δεδομένων και μετά εκπαιδεύστε το να κάνει προβλέψεις. Αυτό το σύστημα, ωστόσο, έχει όρια γνωστά ως «περιορισμοί επίβλεψης».

Ένας από αυτούς τους περιορισμούς είναι η «μετατόπιση διανομής». Αναφέρεται στην πιθανότητα τα δεδομένα εκπαίδευσης να μην αντικατοπτρίζουν με ακρίβεια την πραγματική κατανομή των εισροών που θα συναντούσε το μοντέλο.

Ας δούμε το παράδειγμα από προηγουμένως. Στο παράδειγμα πρότασης ταινίας, το σύνολο δεδομένων που χρησιμοποιείται για την εκπαίδευση του μοντέλου ενδέχεται να μην αντικατοπτρίζει με ακρίβεια την ποικιλία των ταινιών και τις προτιμήσεις των χρηστών που θα συναντούσε το chatbot. Το chatbot μπορεί να μην αποδίδει τόσο καλά όσο θα θέλαμε.

Ως αποτέλεσμα, συναντά εισροές που είναι διαφορετικές από αυτές που παρατήρησε κατά τη διάρκεια της προπόνησης.

Για την εποπτευόμενη μάθηση, όταν το μοντέλο εκπαιδεύεται μόνο σε ένα δεδομένο σύνολο περιπτώσεων, προκύπτει αυτό το πρόβλημα.

Επιπλέον, το μοντέλο μπορεί να αποδώσει καλύτερα ενόψει μιας αλλαγής διανομής εάν χρησιμοποιηθεί ενισχυτική μάθηση για να το βοηθήσει να προσαρμοστεί σε νέα πλαίσια και να μάθει από τα λάθη του.

Με βάση τις προτιμήσεις, επιβράβευση μάθησης

Η εκμάθηση ανταμοιβής είναι το τρίτο στάδιο εκπαίδευσης για την ανάπτυξη ενός chatbot. Στη μάθηση ανταμοιβής, το μοντέλο διδάσκεται να μεγιστοποιεί ένα σήμα ανταμοιβής.

Είναι μια βαθμολογία που δείχνει πόσο αποτελεσματικά το μοντέλο ολοκληρώνει τη δουλειά. Το σήμα ανταμοιβής βασίζεται σε πληροφορίες από άτομα που αξιολογούν ή αξιολογούν τις απαντήσεις του μοντέλου.

Η εκμάθηση ανταμοιβής στοχεύει στην ανάπτυξη ενός chatbot που παράγει απαντήσεις υψηλής ποιότητας που προτιμούν οι άνθρωποι. Για να γίνει αυτό, μια τεχνική μηχανικής μάθησης που ονομάζεται ενισχυτική μάθηση—η οποία περιλαμβάνει μάθηση από την ανατροφοδότηση με τη μορφή ανταμοιβών—χρησιμοποιείται για την εκπαίδευση του μοντέλου.

Το chatbot απαντά στις ερωτήσεις των χρηστών, για παράδειγμα, ανάλογα με την τρέχουσα κατανόηση της εργασίας, η οποία του παρέχεται κατά τη διάρκεια της εκμάθησης ανταμοιβής. Στη συνέχεια δίνεται ένα σήμα ανταμοιβής με βάση το πόσο αποτελεσματικά αποδίδει το chatbot όταν οι απαντήσεις έχουν αξιολογηθεί από ανθρώπινους κριτές.

Αυτό το σήμα ανταμοιβής χρησιμοποιείται από το chatbot για να τροποποιήσει τις ρυθμίσεις του. Και, βελτιώνει την απόδοση της εργασίας.

Μερικοί περιορισμοί στη μάθηση ανταμοιβής

Ένα μειονέκτημα της εκμάθησης ανταμοιβής είναι ότι η ανατροφοδότηση για τις απαντήσεις του chatbot μπορεί να μην έρχεται για κάποιο χρονικό διάστημα, καθώς το σήμα ανταμοιβής μπορεί να είναι αραιό και καθυστερημένο. Ως αποτέλεσμα, μπορεί να είναι δύσκολο να εκπαιδεύσετε με επιτυχία το chatbot επειδή ενδέχεται να μην λάβει σχόλια για συγκεκριμένες απαντήσεις παρά πολύ αργότερα.

Ένα άλλο ζήτημα είναι ότι οι ανθρώπινοι κριτές μπορεί να έχουν ποικίλες απόψεις ή ερμηνείες για το τι κάνει μια επιτυχημένη απάντηση, κάτι που μπορεί να οδηγήσει σε μεροληψία στο σήμα ανταμοιβής. Για να μειωθεί αυτό, χρησιμοποιείται συχνά από αρκετούς κριτές για να παραδώσει ένα πιο αξιόπιστο σήμα ανταμοιβής.

Τι κρατά το μέλλον;

Υπάρχουν πολλά πιθανά μελλοντικά βήματα για περαιτέρω βελτίωση της απόδοσης του ChatGPT.

Για να αυξηθεί η κατανόηση του μοντέλου, μια πιθανή μελλοντική διαδρομή είναι η συμπερίληψη περισσότερων συνόλων δεδομένων εκπαίδευσης και πηγών δεδομένων. Είναι επίσης δυνατή η ενίσχυση της ικανότητας του μοντέλου να κατανοεί και να λαμβάνει υπόψη μη κειμενικά δεδομένα.

Για παράδειγμα, τα γλωσσικά μοντέλα θα μπορούσαν να κατανοήσουν εικόνες ή ήχους.

Με την ενσωμάτωση συγκεκριμένων τεχνικών εκπαίδευσης, το ChatGPT μπορεί επίσης να βελτιωθεί για ορισμένες εργασίες. Για παράδειγμα, μπορεί να αποδώσει Ανάλυση συναίσθημα ή παραγωγή φυσικής γλώσσας. Συμπερασματικά, το ChatGPT και τα σχετικά μοντέλα γλώσσας υπόσχονται πολλά για πρόοδο.

Επεξήγηση ολόκληρης της εκπαιδευτικής διαδικασίας του ChatGPT

Επισκόπηση της Εκπαίδευσης

Γενετική Προκατάρτιση

Το ζήτημα της ευθυγράμμισης

Εποπτευόμενος συντονισμός

Περιορισμοί εποπτείας: Μετατόπιση διανομής

Με βάση τις προτιμήσεις, επιβράβευση μάθησης

Μερικοί περιορισμοί στη μάθηση ανταμοιβής

Τι κρατά το μέλλον;

Σχετικα İlke Candan Bengi

Περισσότερα άρθρα στο HashDork:

20 Κορυφαίες Καριέρες απόδειξης AI

Τι είναι τα Data Drifts και πώς επηρεάζουν τα μοντέλα ML;

Πώς να μειώσετε τις ψευδαισθήσεις στο AI σας

Αυτό το μελλοντικό ενημερωτικό δελτίο τεχνολογίας δεν είναι χάλια

Επεξήγηση ολόκληρης της εκπαιδευτικής διαδικασίας του ChatGPT

Επισκόπηση της Εκπαίδευσης

Γενετική Προκατάρτιση

Το ζήτημα της ευθυγράμμισης

Εποπτευόμενος συντονισμός

Περιορισμοί εποπτείας: Μετατόπιση διανομής

Με βάση τις προτιμήσεις, επιβράβευση μάθησης

Μερικοί περιορισμοί στη μάθηση ανταμοιβής

Τι κρατά το μέλλον;

Σχετικα İlke Candan Bengi

Περισσότερα άρθρα στο HashDork:

20 Κορυφαίες Καριέρες απόδειξης AI

Τι είναι τα Data Drifts και πώς επηρεάζουν τα μοντέλα ML;

Πώς να μειώσετε τις ψευδαισθήσεις στο AI σας

10 καλύτερα εργαλεία τεχνητής νοημοσύνης για μέσα κοινωνικής δικτύωσης

Αλληλεπιδράσεις Reader

Αφήστε μια απάντηση Ακύρωση απάντησης

Αυτό το μελλοντικό ενημερωτικό δελτίο τεχνολογίας δεν είναι χάλια