ჩვენ სავარაუდოდ მხოლოდ ახალი გენერაციული AI რევოლუციის დასაწყისში ვართ.
გენერაციული ხელოვნური ინტელექტი ეხება ალგორითმებს და მოდელებს, რომლებსაც შეუძლიათ შინაარსის შექმნა. ასეთი მოდელების გამომავალი მოიცავს ტექსტს, აუდიოსა და სურათებს, რომლებიც ხშირად შეიძლება შეცდომით ჩაითვალოს რეალურ ადამიანად.
პროგრამები, როგორიცაა ჩატი GPT აჩვენეს, რომ გენერაციული AI არ არის უბრალო სიახლე. AI-ს ახლა შეუძლია დეტალური ინსტრუქციების შესრულება და, როგორც ჩანს, ღრმად ესმის, თუ როგორ მუშაობს სამყარო.
მაგრამ როგორ მივედით აქამდე? ამ სახელმძღვანელოში, ჩვენ განვიხილავთ AI კვლევების რამდენიმე მნიშვნელოვან მიღწევას, რამაც გზა გაუხსნა ამ ახალ და საინტერესო გენერაციულ AI რევოლუციას.
ნერვული ქსელების აღზევება
თანამედროვე ხელოვნური ინტელექტის წარმოშობის კვალდაკვალ შეგიძლიათ კვლევაზე ღრმა სწავლა და ნერვული ქსელები წელს 2012.
იმ წელს ალექს კრიჟევსკიმ და მისმა გუნდმა ტორონტოს უნივერსიტეტიდან შეძლეს მაღალი სიზუსტის ალგორითმის მიღწევა, რომელსაც შეუძლია ობიექტების კლასიფიკაცია.
ის უახლესი ნეირონული ქსელი, რომელიც ახლა ცნობილია AlexNet-ის სახელით, შეძლო ობიექტების კლასიფიკაცია ImageNet-ის ვიზუალურ მონაცემთა ბაზაში შეცდომის გაცილებით დაბალი კოეფიციენტით, ვიდრე მეორე ადგილზე გასულს.
Ნეირონული ქსელები არის ალგორითმები, რომლებიც იყენებენ მათემატიკური ფუნქციების ქსელს, რათა ისწავლონ კონკრეტული ქცევა გარკვეული სასწავლო მონაცემების საფუძველზე. მაგალითად, თქვენ შეგიძლიათ მიაწოდოთ ნერვული ქსელის სამედიცინო მონაცემები, რათა მოამზადოთ მოდელი ისეთი დაავადების დიაგნოსტირებისთვის, როგორიცაა კიბო.
იმედი გვაქვს, რომ ნერვული ქსელი ნელ-ნელა პოულობს მონაცემებს შაბლონებს და უფრო ზუსტი ხდება ახალი მონაცემების მიცემის შემთხვევაში.
AlexNet იყო ა კონვოლუციური ნერვული ქსელი ან CNN-ები. "კონვოლუციური" საკვანძო სიტყვა ეხება კონვოლუციური ფენების დამატებას, რაც უფრო მეტ აქცენტს აკეთებს ერთმანეთთან უფრო ახლოს არსებულ მონაცემებზე.
მიუხედავად იმისა, რომ CNN-ები უკვე იდეა იყო 1980-იან წლებში, მათ პოპულარობის მოპოვება მხოლოდ 2010-იანი წლების დასაწყისში დაიწყეს, როდესაც უახლესმა GPU ტექნოლოგიამ ტექნოლოგია ახალ სიმაღლეებზე აიყვანა.
CNN-ების წარმატება სფეროში კომპიუტერული ხედვა გამოიწვია მეტი ინტერესი ნერვული ქსელების კვლევისადმი.
ტექნიკურმა გიგანტებმა, როგორიცაა Google და Facebook, გადაწყვიტეს გამოექვეყნებინათ საკუთარი AI ჩარჩოები საზოგადოებისთვის. მაღალი დონის API, როგორიცაა კერას მომხმარებლებს მისცა მოსახერხებელი ინტერფეისი ღრმა ნერვული ქსელების ექსპერიმენტებისთვის.
CNN-ები მშვენივრად გამოირჩეოდნენ გამოსახულების ამოცნობაში და ვიდეო ანალიზში, მაგრამ უჭირდათ ენაზე დაფუძნებული პრობლემების გადაჭრა. ეს შეზღუდვა ბუნებრივი ენის დამუშავებაში შეიძლება არსებობდეს, რადგან სურათები და ტექსტი რეალურად ფუნდამენტურად განსხვავებული პრობლემებია.
მაგალითად, თუ თქვენ გაქვთ მოდელი, რომელიც კლასიფიცირებს, შეიცავს თუ არა გამოსახულება შუქნიშანს, მოცემული შუქნიშანი შეიძლება გამოჩნდეს სურათზე ნებისმიერ ადგილას. თუმცა, ამ სახის ლმობიერება ენაში კარგად არ მუშაობს. წინადადებას "ბობმა შეჭამა თევზი" და "თევზმა შეჭამა ბობ" ძალიან განსხვავებული მნიშვნელობა აქვთ, მიუხედავად ერთი და იგივე სიტყვების გამოყენებისა.
ცხადი გახდა, რომ მკვლევარებს სჭირდებოდათ ახალი მიდგომის მოძიება ადამიანის ენასთან დაკავშირებული პრობლემების გადასაჭრელად.
ტრანსფორმატორები ყველაფერს ცვლიან
In 2017, რათა კვლევა სახელწოდებით "ყურადღება არის ყველაფერი რაც თქვენ გჭირდებათ" შემოგვთავაზა ახალი ტიპის ქსელი: ტრანსფორმერი.
მიუხედავად იმისა, რომ CNN-ები მუშაობენ გამოსახულების მცირე ნაწილის განმეორებით გაფილტვრით, ტრანსფორმატორები აკავშირებენ მონაცემთა ყველა ელემენტს ყველა სხვა ელემენტთან. მკვლევარები ამ პროცესს „თვითყურადღებას“ უწოდებენ.
წინადადებების გარჩევისას, CNN და ტრანსფორმატორები ძალიან განსხვავებულად მუშაობენ. მიუხედავად იმისა, რომ CNN ყურადღებას გაამახვილებს კავშირების შექმნაზე ერთმანეთთან ახლოს მდებარე სიტყვებთან, ტრანსფორმატორი შექმნის კავშირებს წინადადებაში თითოეულ სიტყვას შორის.
თვითყურადღების პროცესი ადამიანის ენის გაგების განუყოფელი ნაწილია. მასშტაბის დათვალიერებით, თუ როგორ ჯდება მთელი წინადადება ერთმანეთთან, მანქანებს შეუძლიათ უფრო მკაფიოდ გაიგონ წინადადების სტრუქტურა.
პირველი ტრანსფორმატორის მოდელების გამოშვების შემდეგ, მკვლევარებმა მალევე გამოიყენეს ახალი არქიტექტურა, რათა ისარგებლონ ინტერნეტში ნაპოვნი ტექსტური მონაცემების წარმოუდგენელი რაოდენობით.
GPT-3 და ინტერნეტი
2020 წელს, OpenAI's GPT-3 მოდელმა აჩვენა, თუ რამდენად ეფექტურია ტრანსფორმატორები. GPT-3-მა შეძლო ტექსტის გამოტანა, რომელიც თითქმის არ განსხვავდებოდა ადამიანისგან. ნაწილი, რამაც GPT-3 ასე ძლიერი გახადა, იყო გამოყენებული სასწავლო მონაცემების რაოდენობა. მოდელის წინასწარი ტრენინგის მონაცემთა ბაზის უმეტესი ნაწილი მოდის მონაცემთა ნაკრებიდან, რომელიც ცნობილია როგორც Common Crawl, რომელიც მოყვება 400 მილიარდზე მეტ ჟეტონს.
მიუხედავად იმისა, რომ GPT-3-ის უნარი შექმნას რეალისტური ადამიანის ტექსტი, თავისთავად ინოვაციური იყო, მკვლევარებმა აღმოაჩინეს, თუ როგორ შეუძლია იმავე მოდელს სხვა ამოცანების გადაჭრა.
მაგალითად, იგივე GPT-3 მოდელი, რომელიც შეგიძლიათ გამოიყენოთ ტვიტის შესაქმნელად, ასევე დაგეხმარებათ ტექსტის შეჯამებაში, აბზაცის გადაწერაში და ამბის დასრულებაში. ენის მოდელები იმდენად მძლავრი გახდნენ, რომ ახლა ისინი არსებითად ზოგადი დანიშნულების იარაღები არიან, რომლებიც მიჰყვებიან ნებისმიერი ტიპის ბრძანებას.
GPT-3-ის ზოგადი დანიშნულების ბუნებამ დაუშვა ასეთი აპლიკაციები GitHub Copilot, რაც პროგრამისტებს საშუალებას აძლევს შექმნან სამუშაო კოდი ჩვეულებრივი ინგლისურიდან.
დიფუზიური მოდელები: ტექსტიდან სურათებამდე
ტრანსფორმატორებთან და NLP-თან მიღწეულმა პროგრესმა ასევე გზა გაუხსნა გენერაციულ AI-ს სხვა სფეროებში.
კომპიუტერული ხედვის სფეროში, ჩვენ უკვე განვიხილეთ, თუ როგორ აძლევდა ღრმა სწავლებას მანქანებს სურათების გაგების საშუალება. თუმცა, ჩვენ მაინც გვჭირდებოდა AI-სთვის გამოსახულების გენერირების საშუალება, ვიდრე უბრალოდ მათი კლასიფიკაცია.
გამოსახულების გენერაციული მოდელები, როგორიცაა DALL-E 2, Stable Diffusion და Midjourney, პოპულარული გახდა იმის გამო, რომ მათ შეუძლიათ ტექსტის შეყვანის სურათებად გადაქცევა.
ეს გამოსახულების მოდელები ეყრდნობა ორ ძირითად ასპექტს: მოდელი, რომელიც ესმის სურათებსა და ტექსტს შორის ურთიერთობას და მოდელი, რომელსაც შეუძლია რეალურად შექმნას მაღალი გარჩევადობის სურათი, რომელიც ემთხვევა შენატანს.
OpenAI- ს CLIP (Contrastive Language–Image Pre-training) არის ღია კოდის მოდელი, რომელიც მიზნად ისახავს პირველი ასპექტის გადაჭრას. სურათის გათვალისწინებით, CLIP მოდელს შეუძლია წინასწარ განსაზღვროს ამ კონკრეტული სურათის ყველაზე შესაბამისი ტექსტის აღწერა.
CLIP მოდელი მუშაობს იმით, თუ როგორ უნდა ამოიღოთ გამოსახულების მნიშვნელოვანი მახასიათებლები და შექმნათ გამოსახულების უფრო მარტივი წარმოდგენა.
როდესაც მომხმარებლები აწვდიან ტექსტის შეყვანის ნიმუშს DALL-E 2-ში, შეყვანა გარდაიქმნება „სურათის ჩაშენებად“ CLIP მოდელის გამოყენებით. ახლა მიზანია ვიპოვოთ გამოსახულების გენერირების გზა, რომელიც შეესაბამება გენერირებულ გამოსახულების ჩაშენებას.
უახლესი გენერაციული გამოსახულების AI-ები იყენებენ ა დიფუზიის მოდელი იმიჯის რეალურად შექმნის ამოცანას გაუმკლავდეს. დიფუზიის მოდელები ეყრდნობა ნერვულ ქსელებს, რომლებიც წინასწარ იყო გაწვრთნილი, რათა იცოდნენ, როგორ ამოიღონ დამატებითი ხმაური სურათებიდან.
ტრენინგის ამ პროცესის დროს, ნერვულ ქსელს საბოლოოდ შეუძლია ისწავლოს, თუ როგორ შექმნას მაღალი გარჩევადობის სურათი შემთხვევითი ხმაურის სურათიდან. ვინაიდან ჩვენ უკვე გვაქვს CLIP-ის მიერ მოწოდებული ტექსტისა და სურათების რუქები, შეგვიძლია დიფუზიური მოდელის მომზადება CLIP გამოსახულების ჩაშენებებზე ნებისმიერი სურათის გენერირების პროცესის შესაქმნელად.
გენერაციული AI რევოლუცია: რა მოდის შემდეგ?
ჩვენ ახლა იმ მომენტში ვართ, როდესაც გენერაციულ AI-ში მიღწევები ხდება ყოველ რამდენიმე დღეში. იმის გამო, რომ ხელოვნური ინტელექტის გამოყენებით სხვადასხვა ტიპის მედიის გენერირება უფრო ადვილი და ადვილი ხდება, უნდა ვიფიქროთ იმაზე, თუ როგორ შეიძლება ეს გავლენა მოახდინოს ჩვენს საზოგადოებაზე?
მიუხედავად იმისა, რომ მუშების შემცვლელი მანქანების საზრუნავი ყოველთვის იყო საუბარი ორთქლის ძრავის გამოგონების შემდეგ, როგორც ჩანს, ამჯერად ეს ცოტა განსხვავებულია.
გენერაციული AI ხდება მრავალფუნქციური ინსტრუმენტი, რომელმაც შეიძლება ხელი შეუშალოს ინდუსტრიებს, რომლებიც ითვლებოდა დაცულად ხელოვნური ინტელექტის ხელში ჩაგდებისგან.
დაგვჭირდება პროგრამისტები, თუ ხელოვნური ინტელექტი შეძლებს უნაკლო კოდის წერას რამდენიმე ძირითადი ინსტრუქციიდან? დაიქირავებენ თუ არა ადამიანები კრეატიულებს, თუ მათ შეუძლიათ გამოიყენონ გენერაციული მოდელი, რათა აწარმოონ სასურველი პროდუქტი უფრო იაფად?
ძნელია გენერაციული AI რევოლუციის მომავლის პროგნოზირება. მაგრამ ახლა, როდესაც ფიგურალური პანდორას ყუთი გაიხსნა, იმედი მაქვს, რომ ტექნოლოგია საშუალებას მისცემს უფრო საინტერესო ინოვაციების შექმნას, რომლებსაც შეუძლიათ დადებითი გავლენა დატოვონ მსოფლიოში.
დატოვე პასუხი