Πίνακας περιεχομένων[Κρύβω][Προβολή]
Τα μοντέλα μεγάλων γλωσσών είναι μερικές από τις πιο εντυπωσιακές πρόσφατες εξελίξεις στον τομέα του προγραμματισμού φυσικής γλώσσας και των νευρωνικών δικτύων.
Το GPT-3 του OpenAI ξεχωρίζει ως ένα από τα μοντέλα με τις καλύτερες επιδόσεις. Το αποτέλεσμα του μοντέλου συχνά δεν διακρίνεται από το κείμενο που προέρχεται από ανθρώπους.
Ωστόσο, το GPT-3 εξακολουθεί να είναι ένα μοντέλο κλειστού κώδικα. Αν και είναι απίστευτα ισχυρό, υπάρχουν ορισμένοι περιορισμοί που μπορεί να το καταστήσουν ακατάλληλο για ορισμένες περιπτώσεις χρήσης.
Σε αυτό το άρθρο, θα δούμε μερικά μεγάλα γλωσσικά μοντέλα που μπορεί να ανταγωνιστεί την ακατέργαστη απόδοση του GPT-3.
Γιατί να αναζητήσετε μια εναλλακτική λύση OpenAI GPT-3;
Το μοντέλο GPT-3 του OpenAI χρησιμοποιεί προηγμένες βαθιά μάθηση μοντέλα για την παραγωγή ανθρώπινου κειμένου. Είναι το μοντέλο πρόβλεψης γλώσσας τρίτης γενιάς από το ερευνητικό εργαστήριο του OpenAI.
Το μοντέλο κυκλοφόρησε αρχικά ως κλειστή beta πριν το OpenAI ανοίξει τελικά το API στο κοινό στα τέλη του 2021.
Επί του παρόντος, το GPT-3 διαθέτει τέσσερα βασικά μοντέλα από τα οποία μπορείτε να επιλέξετε. Το Ada, το φθηνότερο και ταχύτερο μοντέλο κοστίζει μόνο 0.0004 $ ανά 1000 μάρκες. Το πιο ισχυρό μοντέλο του OpenAI, το Davinci, κοστίζει 0.02 $ ανά 1000 μάρκες, ή περίπου 50 φορές πιο ακριβό.
Το OpenAI απαιτεί επίσης από τον προγραμματιστή να ακολουθεί το δικό του οδηγίες χρήσης. Ο προγραμματιστής θα παρέχει επίσης ένα περιορισμένο όριο χρήσης που μπορεί να αυξηθεί μόλις εγκριθεί η εφαρμογή του προγραμματιστή μέσω μιας διαδικασίας μη αυτόματου ελέγχου.
Ενώ η έξοδος GPT-3 είναι γνωστή για την υψηλή ποιότητα εξόδου της, δεν είναι το μόνο μοντέλο πρόβλεψης γλώσσας που μπορείτε να χρησιμοποιήσετε.
Ας δούμε μερικά ανταγωνιστικά μοντέλα που μπορείτε να χρησιμοποιήσετε ως εναλλακτική στο GPT-3.
1. GPT-J
Το GPT-J είναι ένα μοντέλο γλώσσας ανοιχτού κώδικα από την ομάδα Eleuther AI.
Η απόδοση μηδενικής λήψης είναι περίπου στο ίδιο επίπεδο με το GPT-3 και είναι πολύ πιο κοντά σε απόδοση από πολλές άλλες υλοποιήσεις GPT.
Το μοντέλο παραγωγής 6 δισεκατομμυρίων παραμέτρων αυτοπαλίνδρομου κειμένου έχει εκπαιδευτεί σε ένα σύνολο δεδομένων γνωστό ως «The Pile».
Ο σωρός είναι στην πραγματικότητα ένας συνδυασμός 22 μικρότερων συνόλων δεδομένων συνδυασμένων μαζί. Έχει συνδυασμένο μέγεθος αρχείου 825 GiB και έχει παρατηρηθεί ότι δίνει μεγαλύτερη έμφαση σε ακαδημαϊκές και επαγγελματικές πηγές.
Μπορείτε να δοκιμάσετε μόνοι σας το μοντέλο μέσω αυτού δωρεάν εφαρμογή web.
Μπόρεσα να δοκιμάσω το μοντέλο με μια απλή προτροπή. Το GPT-J πέτυχε να απαριθμήσει τους «καλύτερους τρόπους εκμάθησης μιας νέας γλώσσας σήμερα».
Ωστόσο, η απόδοση είναι κάπως ανεπαρκής όταν προσπάθησα να του ρωτήσω να εξηγήσει τι ήταν ένα μοντέλο παραγωγής αυτοπαλινδρομικού κειμένου.
Ενώ η έξοδος είχε νόημα, στην πραγματικότητα δεν απάντησε στην προτροπή με ουσιαστικό τρόπο.
Τιμοκατάλογος
Δεδομένου ότι το GPT-J είναι ένα μοντέλο ανοιχτού κώδικα, θα μπορούσατε να εκτελέσετε μόνοι σας το δικό σας παράδειγμα. Σύμφωνα με την επίσημο αποθετήριο, το μοντέλο έχει σχεδιαστεί για να λειτουργεί σε μονάδα επεξεργασίας τανυστή (TPU). Αν και είναι βέλτιστη, αυτή μπορεί να μην είναι η πιο οικονομική επιλογή αφού είναι η φθηνότερη της Google κόστος των TPU cloud περίπου 4.50 $/ώρα.
Μπορεί να είναι λιγότερο δαπανηρό μακροπρόθεσμα να χρησιμοποιήσετε τη δική σας GPU ή να νοικιάσετε έναν αποκλειστικό διακομιστή GPU μέσω υπηρεσιών όπως Βαστ.αι or FluidStack.
2. Jurassic-1
Το Jurassic-1 είναι ένα μοντέλο γλώσσας που κυκλοφόρησε από την AI21 Labs, μια ισραηλινή εταιρεία τεχνητής νοημοσύνης που ειδικεύεται στο NLP. Όπως το OpenAI, προσφέρουν επίσης ένα API που σας επιτρέπει να έχετε πρόσβαση στο μοντέλο γλώσσας τους.
Μπορείτε να δημιουργήσετε έναν λογαριασμό σε αυτούς για να αποκτήσετε πρόσβαση σε μια διαδικτυακή εφαρμογή παιδικής χαράς για να δοκιμάσετε μόνοι σας το μοντέλο.
Το AI21 Studio περιλαμβάνει επίσης μια λειτουργία όπου μπορείτε να εκπαιδεύσετε και να αναζητήσετε τις δικές σας προσαρμοσμένες εκδόσεις των μοντέλων Jurassic-1. Σύμφωνα με έναν επίσημη θέση blog, τα προσαρμοσμένα μοντέλα με μόλις πενήντα παραδείγματα μπορούν να ξεπεράσουν την απόδοση της άμεσης τεχνολογίας χρησιμοποιώντας το αρχικό μοντέλο.
Τιμοκατάλογος
Προσφέρουν ευέλικτη τιμολόγηση με βάση τη χρήση για καθένα από τα τρία βασικά μοντέλα τους. Για παράδειγμα, χρεώνουν 0.25 $ για κάθε 1000 μάρκες που δημιουργούνται από το μοντέλο. Κατά μέσο όρο, κάθε διακριτικό είναι περίπου 1 λέξη ή έξι χαρακτήρες.
Αυτό σημαίνει ότι μπορείτε να χρησιμοποιήσετε το καλύτερο μοντέλο του AI21 για να δημιουργήσετε ένα έγγραφο 4000 λέξεων μόνο με 1 $. Ωστόσο, ένα πράγμα που πρέπει να θυμάστε είναι ότι πρέπει να πληρώνετε τουλάχιστον 29 $ κάθε μήνα για να χρησιμοποιήσετε το μοντέλο.
3. TextSynth
Το TextSynth είναι μια άλλη υπηρεσία web NLP που μπορείτε να χρησιμοποιήσετε για να δημιουργήσετε κείμενο. Σε αντίθεση με τα προηγούμενα δύο παραδείγματα, το TextSynth δεν είναι αυτόνομο μοντέλο. Η υπηρεσία λειτουργεί δίνοντας στον χρήστη πρόσβαση σε διάφορα άλλα μοντέλα μεγάλων γλωσσών ανοιχτού κώδικα όπως GPT-NeoX, M2M100 και ακόμη και GPT-J.
Οι προγραμματιστές μπορούν να χρησιμοποιήσουν το δικό τους REST API να ενσωματώσουν τα γλωσσικά μοντέλα στις δικές τους εφαρμογές. Μπορείτε να δοκιμάσετε να ελέγξετε τα δωρεάν τους σελίδα παιδικής χαράς για να δείτε πώς αποδίδει κάθε διαθέσιμο μοντέλο.
Τιμοκατάλογος
Το δωρεάν σχέδιό τους σάς δίνει πρόσβαση σε όλα τα μοντέλα γλώσσας τους με ορισμένα όρια τιμών. Η υπηρεσία περιορίζει κάθε αίτημα σε μήκος 200 μάρκες.
Το τυπικό σχέδιο καταργεί τον περιορισμό στον αριθμό των κουπονιών που δημιουργούνται. Το μοντέλο τιμολόγησης βασίζεται στην πίστωση για την αποφυγή απροσδόκητων εξόδων. Ο ελάχιστος αριθμός πιστώσεων για αγορά είναι 20 $. Οι πιστώσεις που δεν χρησιμοποιήθηκαν είναι άκυρες μετά από ένα έτος.
Η τιμή κάθε αιτήματος βασίζεται στον αριθμό των εισερχόμενων και δημιουργούμενων διακριτικών. Με βάση τον πίνακα στον επίσημο ιστότοπο τους, μπορείτε να περιμένετε να πληρώσετε περίπου 0.75 $ έως 1.25 $ για τη χρήση των φθηνότερων μοντέλων τους.
Συμπέρασμα
Ας ελπίσουμε ότι αυτό το άρθρο μπορεί να σας βοηθήσει να βρείτε ένα προσιτό και αποτελεσματικό μοντέλο γλώσσας που μπορείτε να χρησιμοποιήσετε ως OpenAI GPT-3 εναλλακτική.
Τα μεγάλα μοντέλα γλώσσας είναι πολύ ισχυρά και μπορούν να χρησιμοποιηθούν για μια ποικιλία εργασιών. Μπορούν να χρησιμοποιηθούν για τη δημιουργία κειμένου, τη μετάφραση μεταξύ γλωσσών και την κατανόηση και την απόκριση στη φυσική γλώσσα.
Με βάση την έρευνά μου στο χώρο και τις δοκιμές που έχω πραγματοποιήσει, το GPT-3 εξακολουθεί να έχει καλύτερη απόδοση από κάθε άλλο μεγάλο γλωσσικό μοντέλο Προσπάθησα. Ωστόσο, αυτό θα μπορούσε να αλλάξει στο μέλλον καθώς οι ερευνητές αναπτύσσουν και κυκλοφορούν νέα μοντέλα.
Οι ερευνητές της Google, του Facebook και άλλων εργαστηρίων τεχνητής νοημοσύνης θα συνεχίσουν να εργάζονται για την προώθηση των δικών τους LMM. Είναι σίγουρα πιθανό μια από αυτές τις ομάδες AI να βγει με ένα μοντέλο ανώτερο από το GPT-3.
Αφήστε μια απάντηση