Είμαστε πιθανότατα μόλις στην αρχή μιας νέας γενετικής επανάστασης AI.
Η γενετική τεχνητή νοημοσύνη αναφέρεται σε αλγόριθμους και μοντέλα που είναι ικανά να δημιουργούν περιεχόμενο. Η έξοδος τέτοιων μοντέλων περιλαμβάνει κείμενο, ήχο και εικόνες που συχνά μπορεί να θεωρηθούν εσφαλμένα ως πραγματική ανθρώπινη έξοδο.
Εφαρμογές όπως ChatGPT έχουν δείξει ότι η γενετική τεχνητή νοημοσύνη δεν είναι απλή καινοτομία. Η τεχνητή νοημοσύνη είναι πλέον σε θέση να ακολουθεί λεπτομερείς οδηγίες και φαίνεται να έχει βαθιά κατανόηση του πώς λειτουργεί ο κόσμος.
Πώς φτάσαμε όμως σε αυτό το σημείο; Σε αυτόν τον οδηγό, θα δούμε μερικές από τις βασικές ανακαλύψεις στην έρευνα της τεχνητής νοημοσύνης που άνοιξαν το δρόμο για αυτήν τη νέα και συναρπαστική επανάσταση παραγωγής τεχνητής νοημοσύνης.
Η άνοδος των νευρωνικών δικτύων
Μπορείτε να εντοπίσετε την προέλευση της σύγχρονης τεχνητής νοημοσύνης στην έρευνα για βαθιά μάθηση και νευρωνικά δίκτυα στο 2012.
Εκείνη τη χρονιά, ο Alex Krizhevsky και η ομάδα του από το Πανεπιστήμιο του Τορόντο μπόρεσαν να επιτύχουν έναν αλγόριθμο υψηλής ακρίβειας που μπορεί να ταξινομήσει αντικείμενα.
Η υπερσύγχρονο νευρωνικό δίκτυο, γνωστό πλέον ως AlexNet, ήταν σε θέση να ταξινομήσει αντικείμενα στην οπτική βάση δεδομένων ImageNet με πολύ χαμηλότερο ποσοστό σφάλματος από το δεύτερο.
Νευρωνικά δίκτυα είναι αλγόριθμοι που χρησιμοποιούν ένα δίκτυο μαθηματικών συναρτήσεων για να μάθουν μια συγκεκριμένη συμπεριφορά με βάση κάποια δεδομένα εκπαίδευσης. Για παράδειγμα, μπορείτε να τροφοδοτήσετε ιατρικά δεδομένα σε ένα νευρωνικό δίκτυο προκειμένου να εκπαιδεύσετε το μοντέλο να διαγνώσει μια ασθένεια όπως ο καρκίνος.
Η ελπίδα είναι ότι το νευρωνικό δίκτυο βρίσκει σιγά-σιγά μοτίβα στα δεδομένα και γίνεται πιο ακριβές όταν δίνονται νέα δεδομένα.
Το AlexNet ήταν μια πρωτοποριακή εφαρμογή του α συνελικτικό νευρωνικό δίκτυο ή CNN. Η λέξη-κλειδί "συνεκτική" αναφέρεται στην προσθήκη συνελικτικών επιπέδων που δίνει μεγαλύτερη έμφαση σε δεδομένα που είναι πιο κοντά μεταξύ τους.
Ενώ τα CNN ήταν ήδη μια ιδέα στη δεκαετία του 1980, άρχισαν να κερδίζουν δημοτικότητα μόνο στις αρχές της δεκαετίας του 2010, όταν η τελευταία τεχνολογία GPU ώθησε την τεχνολογία σε νέα ύψη.
Η επιτυχία των CNN στον τομέα του όραση υπολογιστή οδήγησε σε μεγαλύτερο ενδιαφέρον για την έρευνα των νευρωνικών δικτύων.
Τεχνολογικοί γίγαντες όπως η Google και το Facebook αποφάσισαν να κυκλοφορήσουν τα δικά τους πλαίσια AI στο κοινό. API υψηλού επιπέδου όπως Keras έδωσε στους χρήστες μια φιλική προς το χρήστη διεπαφή για να πειραματιστούν με βαθιά νευρωνικά δίκτυα.
Τα CNN ήταν εξαιρετικά στην αναγνώριση εικόνων και στην ανάλυση βίντεο, αλλά αντιμετώπιζαν προβλήματα όταν πρόκειται για την επίλυση προβλημάτων που βασίζονται στη γλώσσα. Αυτός ο περιορισμός στην επεξεργασία της φυσικής γλώσσας μπορεί να υπάρχει επειδή το πώς οι εικόνες και το κείμενο είναι στην πραγματικότητα θεμελιωδώς διαφορετικά προβλήματα.
Για παράδειγμα, εάν έχετε ένα μοντέλο που ταξινομεί εάν μια εικόνα περιέχει φανάρι, το εν λόγω φανάρι μπορεί να εμφανιστεί οπουδήποτε στην εικόνα. Ωστόσο, αυτό το είδος επιείκειας δεν λειτουργεί καλά στη γλώσσα. Η πρόταση "Ο Μπομπ έφαγε ψάρι" και "Το ψάρι έφαγε τον Μπομπ" έχουν πολύ διαφορετικές έννοιες παρά τη χρήση των ίδιων λέξεων.
Είχε καταστεί σαφές ότι οι ερευνητές έπρεπε να βρουν μια νέα προσέγγιση για την επίλυση προβλημάτων που αφορούν την ανθρώπινη γλώσσα.
Οι μετασχηματιστές αλλάζουν τα πάντα
Στο 2017, α ερευνητική εργασία με τίτλο «Attention Is All You Need» πρότεινε έναν νέο τύπο δικτύου: το Transformer.
Ενώ τα CNN λειτουργούν φιλτράροντας επανειλημμένα μικρά τμήματα μιας εικόνας, οι μετασχηματιστές συνδέουν κάθε στοιχείο στα δεδομένα με κάθε άλλο στοιχείο. Οι ερευνητές αποκαλούν αυτή τη διαδικασία «αυτοπροσοχή».
Όταν προσπαθείτε να αναλύσετε προτάσεις, τα CNN και οι μετασχηματιστές λειτουργούν πολύ διαφορετικά. Ενώ ένα CNN θα επικεντρωθεί στο σχηματισμό συνδέσεων με λέξεις που βρίσκονται η μία κοντά στην άλλη, ένας μετασχηματιστής θα δημιουργήσει συνδέσεις μεταξύ κάθε λέξης σε μια πρόταση.
Η διαδικασία της αυτοπροσοχής είναι αναπόσπαστο μέρος της κατανόησης της ανθρώπινης γλώσσας. Κάνοντας σμίκρυνση και κοιτάζοντας πώς ταιριάζει ολόκληρη η πρόταση μαζί, οι μηχανές μπορούν να κατανοήσουν καλύτερα τη δομή της πρότασης.
Μόλις κυκλοφόρησαν τα πρώτα μοντέλα μετασχηματιστών, οι ερευνητές χρησιμοποίησαν σύντομα τη νέα αρχιτεκτονική για να επωφεληθούν από τον απίστευτο όγκο δεδομένων κειμένου που βρέθηκαν στο Διαδίκτυο.
GPT-3 και το Διαδίκτυο
Το 2020, το OpenAI's GPT-3 Το μοντέλο έδειξε πόσο αποτελεσματικοί μπορούν να είναι οι μετασχηματιστές. Το GPT-3 ήταν σε θέση να εξάγει κείμενο που φαίνεται σχεδόν αδιάκριτο από έναν άνθρωπο. Μέρος αυτού που έκανε το GPT-3 τόσο ισχυρό ήταν ο όγκος των δεδομένων εκπαίδευσης που χρησιμοποιήθηκαν. Το μεγαλύτερο μέρος του συνόλου δεδομένων προεκπαίδευσης του μοντέλου προέρχεται από ένα σύνολο δεδομένων που είναι γνωστό ως Common Crawl το οποίο συνοδεύεται από περισσότερα από 400 δισεκατομμύρια μάρκες.
Ενώ η ικανότητα του GPT-3 να δημιουργεί ρεαλιστικό ανθρώπινο κείμενο ήταν πρωτοποριακή από μόνη της, οι ερευνητές ανακάλυψαν πώς το ίδιο μοντέλο μπορεί να λύσει άλλες εργασίες.
Για παράδειγμα, το ίδιο μοντέλο GPT-3 που μπορείτε να χρησιμοποιήσετε για να δημιουργήσετε ένα tweet μπορεί επίσης να σας βοηθήσει να συνοψίσετε κείμενο, να ξαναγράψετε μια παράγραφο και να ολοκληρώσετε μια ιστορία. Μοντέλα γλώσσας έχουν γίνει τόσο ισχυρά που είναι πλέον ουσιαστικά εργαλεία γενικής χρήσης που ακολουθούν κάθε τύπο εντολής.
Η φύση γενικής χρήσης του GPT-3 επέτρεψε τέτοιες εφαρμογές GitHub Copilot, που επιτρέπει στους προγραμματιστές να δημιουργούν κώδικα εργασίας από απλά αγγλικά.
Μοντέλα διάχυσης: Από το κείμενο στις εικόνες
Η πρόοδος που σημειώθηκε με τους μετασχηματιστές και το NLP άνοιξε επίσης το δρόμο για τη δημιουργία τεχνητής νοημοσύνης σε άλλους τομείς.
Στον τομέα της όρασης υπολογιστών, έχουμε ήδη καλύψει πώς η βαθιά μάθηση επέτρεψε στις μηχανές να κατανοήσουν εικόνες. Ωστόσο, χρειαζόμασταν ακόμα να βρούμε έναν τρόπο ώστε η τεχνητή νοημοσύνη να δημιουργεί εικόνες από μόνη της αντί απλώς να τις ταξινομεί.
Τα μοντέλα δημιουργίας εικόνων όπως το DALL-E 2, το Stable Diffusion και το Midjourney έχουν γίνει δημοφιλή λόγω του τρόπου με τον οποίο μπορούν να μετατρέψουν την εισαγωγή κειμένου σε εικόνες.
Αυτά τα μοντέλα εικόνας βασίζονται σε δύο βασικές πτυχές: ένα μοντέλο που κατανοεί τη σχέση μεταξύ εικόνων και κειμένου και ένα μοντέλο που μπορεί πραγματικά να δημιουργήσει μια εικόνα υψηλής ευκρίνειας που ταιριάζει με την είσοδο.
OpenAI's CLIP Το (Contrastive Language–Image Pre-training) είναι ένα μοντέλο ανοιχτού κώδικα που στοχεύει να λύσει την πρώτη πτυχή. Με δεδομένη μια εικόνα, το μοντέλο CLIP μπορεί να προβλέψει την πιο σχετική περιγραφή κειμένου για τη συγκεκριμένη εικόνα.
Το μοντέλο CLIP λειτουργεί μαθαίνοντας πώς να εξάγετε σημαντικά χαρακτηριστικά εικόνας και να δημιουργείτε μια απλούστερη αναπαράσταση μιας εικόνας.
Όταν οι χρήστες παρέχουν ένα δείγμα εισαγωγής κειμένου στο DALL-E 2, η είσοδος μετατρέπεται σε "ενσωμάτωση εικόνας" χρησιμοποιώντας το μοντέλο CLIP. Ο στόχος τώρα είναι να βρεθεί ένας τρόπος για τη δημιουργία μιας εικόνας που να ταιριάζει με την ενσωμάτωση εικόνας που δημιουργείται.
Οι πιο πρόσφατες γενετικές εικόνες AI χρησιμοποιούν α μοντέλο διάχυσης για να αντιμετωπίσει το έργο της πραγματικής δημιουργίας μιας εικόνας. Τα μοντέλα διάχυσης βασίζονται σε νευρωνικά δίκτυα που ήταν προεκπαιδευμένα για να ξέρουν πώς να αφαιρούν τον πρόσθετο θόρυβο από τις εικόνες.
Κατά τη διάρκεια αυτής της διαδικασίας εκπαίδευσης, το νευρωνικό δίκτυο μπορεί τελικά να μάθει πώς να δημιουργεί μια εικόνα υψηλής ανάλυσης από μια εικόνα τυχαίου θορύβου. Δεδομένου ότι έχουμε ήδη μια αντιστοίχιση κειμένου και εικόνων που παρέχεται από το CLIP, μπορούμε εκπαιδεύστε ένα μοντέλο διάχυσης σε ενσωματώσεις εικόνας CLIP για να δημιουργήσετε μια διαδικασία για τη δημιουργία οποιασδήποτε εικόνας.
Generative AI Revolution: Τι ακολουθεί;
Βρισκόμαστε τώρα σε ένα σημείο όπου οι καινοτομίες στη γενετική τεχνητή νοημοσύνη συμβαίνουν κάθε δύο μέρες. Καθώς γίνεται ευκολότερη και ευκολότερη η δημιουργία διαφορετικών τύπων μέσων με χρήση τεχνητής νοημοσύνης, θα πρέπει να ανησυχούμε για το πώς αυτό θα μπορούσε να επηρεάσει την κοινωνία μας;
Ενώ οι ανησυχίες των μηχανών που αντικαθιστούν τους εργάτες ήταν πάντα στη συζήτηση από την εφεύρεση της ατμομηχανής, φαίνεται ότι αυτή τη φορά είναι λίγο διαφορετικά.
Το Generative AI γίνεται ένα εργαλείο πολλαπλών χρήσεων που μπορεί να διαταράξει τις βιομηχανίες που θεωρήθηκαν ασφαλείς από την εξαγορά της τεχνητής νοημοσύνης.
Θα χρειαστούμε προγραμματιστές εάν το AI μπορεί να αρχίσει να γράφει άψογο κώδικα από μερικές βασικές οδηγίες; Θα προσλάβουν οι άνθρωποι δημιουργικά εάν μπορούν απλώς να χρησιμοποιήσουν ένα παραγωγικό μοντέλο για να παράγουν το αποτέλεσμα που θέλουν φθηνότερα;
Είναι δύσκολο να προβλέψουμε το μέλλον της γενετικής επανάστασης της τεχνητής νοημοσύνης. Αλλά τώρα που άνοιξε το εικονιστικό κουτί της Πανδώρας, ελπίζω ότι η τεχνολογία θα επιτρέψει πιο συναρπαστικές καινοτομίες που μπορούν να αφήσουν θετικό αντίκτυπο στον κόσμο.
Αφήστε μια απάντηση