Біз жаңа генеративті AI революциясының басында болуымыз мүмкін.
Генеративті жасанды интеллект мазмұнды жасауға қабілетті алгоритмдер мен үлгілерді білдіреді. Мұндай үлгілердің шығысы көбінесе адамның нақты өнімі ретінде қате болуы мүмкін мәтінді, дыбысты және кескіндерді қамтиды.
Сияқты қосымшалар GPT чат генеративті AI жай жаңалық емес екенін көрсетті. AI қазір егжей-тегжейлі нұсқауларды орындауға қабілетті және әлемнің қалай жұмыс істейтінін терең түсінетін сияқты.
Бірақ біз бұл деңгейге қалай жеттік? Бұл нұсқаулықта біз AI зерттеулеріндегі жаңа және қызықты генеративті AI революциясына жол ашқан кейбір маңызды жетістіктерді қарастырамыз.
Нейрондық желілердің өркендеуі
Қазіргі заманғы жасанды интеллекттің пайда болуын зерттеуге дейін бақылай аласыз терең оқыту және нейрондық желілер 2012 жылы.
Сол жылы Алекс Крижевский мен оның Торонто университетінің командасы объектілерді жіктей алатын жоғары дәлдіктегі алгоритмге қол жеткізе алды.
The заманауи нейрондық желі, қазір AlexNet ретінде белгілі, ImageNet визуалды дерекқорындағы объектілерді екінші орынға қарағанда әлдеқайда төмен қателік деңгейімен жіктей алды.
Нейрондық желілер кейбір оқыту деректеріне негізделген белгілі бір мінез-құлықты үйрену үшін математикалық функциялар желісін пайдаланатын алгоритмдер. Мысалы, қатерлі ісік сияқты ауруды диагностикалау үшін модельді үйрету үшін нейрондық желіні медициналық деректерді беруге болады.
Нейрондық желі деректердегі үлгілерді баяу табады және жаңа деректер берілгенде дәлірек болады деген үміт бар.
AlexNet серпінді қосымшасы болды конвективті нейрондық желі немесе CNN. «Шығарылатын» кілт сөзі бір-біріне жақынырақ деректерге көбірек көңіл бөлетін конволюциялық қабаттарды қосуды білдіреді.
CNN 1980-ші жылдары идея болғанымен, олар 2010 жылдардың басында соңғы GPU технологиясы технологияны жаңа биіктерге көтерген кезде ғана танымал бола бастады.
саласындағы CNN табыстары компьютерлік көру нейрондық желілерді зерттеуге көбірек қызығушылық тудырды.
Google және Facebook сияқты технологиялық алпауыттар өздерінің AI құрылымдарын көпшілікке шығаруға шешім қабылдады. сияқты жоғары деңгейлі API интерфейстері Керас пайдаланушыларға терең нейрондық желілермен тәжірибе жасау үшін ыңғайлы интерфейс берді.
CNN кескінді тану және бейнені талдауда жақсы болды, бірақ тілге негізделген мәселелерді шешуде қиындықтар туындады. Табиғи тілді өңдеудегі бұл шектеу болуы мүмкін, себебі кескіндер мен мәтіннің шын мәнінде әртүрлі мәселелер.
Мысалы, суретте бағдаршам бар-жоғын жіктейтін үлгі болса, қарастырылып отырған бағдаршам кескіннің кез келген жерінде пайда болуы мүмкін. Алайда мұндай жұмсақтық тілде жақсы жұмыс істемейді. «Боб жеді балық» және «Балық Бобты жеді» сөйлемдері бірдей сөздерді қолданғанына қарамастан, әртүрлі мағынаға ие.
Зерттеушілерге адам тіліне қатысты мәселелерді шешудің жаңа тәсілін табу керек екені белгілі болды.
Трансформаторлар бәрін өзгертеді
2017 ішінде, a ғылыми-зерттеу жұмысы «Сізге тек назар аудару керек» деп аталатын желі жаңа түрін ұсынды: Трансформатор.
CNN кескіннің кішкене бөліктерін қайта-қайта сүзу арқылы жұмыс істегенде, трансформаторлар деректердегі әрбір элементті басқа элементтермен байланыстырады. Зерттеушілер бұл процесті «өзіне көңіл бөлу» деп атайды.
Сөйлемдерді талдауға тырысқанда, CNN және трансформаторлар мүлдем басқаша жұмыс істейді. CNN бір-біріне жақын сөздермен байланыс орнатуға назар аударса, трансформатор сөйлемдегі әрбір сөз арасында байланыс жасайды.
Өзіне көңіл бөлу процесі адам тілін түсінудің ажырамас бөлігі болып табылады. Кішірейту және бүкіл сөйлемнің қалай үйлесетінін қарау арқылы машиналар сөйлем құрылымын нақтырақ түсіне алады.
Трансформаторлардың алғашқы үлгілері шығарылғаннан кейін зерттеушілер көп ұзамай интернетте табылған мәтіндік деректердің керемет көлемін пайдалану үшін жаңа архитектураны пайдаланды.
GPT-3 және Интернет
2020 жылы OpenAI GPT-3 модель трансформаторлардың қаншалықты тиімді болатынын көрсетті. GPT-3 адамнан еш айырмашылығы жоқ мәтінді шығара алды. GPT-3-ті соншалықты күшті еткен нәрсенің бір бөлігі пайдаланылған жаттығу деректерінің көлемі болды. Модельдің жаттығу алдындағы деректер жиынының көпшілігі 400 миллиардтан астам таңбалауыштары бар Common Crawl деп аталатын деректер жинағынан келеді.
GPT-3-тің шынайы адам мәтінін жасау қабілеті өздігінен жаңашыл болғанымен, зерттеушілер сол модельдің басқа тапсырмаларды қалай шеше алатынын анықтады.
Мысалы, твит жасау үшін пайдалануға болатын GPT-3 үлгісі де мәтінді қорытындылауға, абзацты қайта жазуға және оқиғаны аяқтауға көмектеседі. Тілдік модельдер күшті болғаны сонша, олар қазір кез келген пәрмен түрін орындайтын жалпы мақсаттағы құралдарға айналды.
GPT-3 жалпы мақсаттағы сипаты осындай қолданбаларға мүмкіндік берді GitHub копилоты, бұл бағдарламашыларға қарапайым ағылшын тілінен жұмыс кодын жасауға мүмкіндік береді.
Диффузия модельдері: мәтіннен кескіндерге дейін
Трансформаторлармен және NLP-мен қол жеткізілген жетістіктер басқа салаларда генеративті AI-ға жол ашты.
Компьютерлік көру саласында біз терең оқыту машиналарға кескіндерді түсінуге қалай мүмкіндік беретінін қарастырдық. Дегенмен, біз әлі де AI үшін оларды жай ғана жіктемей, кескіндерді өздері жасаудың жолын табуымыз керек еді.
DALL-E 2, Stable Diffusion және Midjourney сияқты генеративті кескін үлгілері мәтін енгізуді кескіндерге түрлендіру мүмкіндігіне байланысты танымал болды.
Бұл кескін үлгілері екі негізгі аспектіге сүйенеді: кескіндер мен мәтін арасындағы қарым-қатынасты түсінетін модель және кіріске сәйкес келетін нақты ажыратымдылығы жоғары кескінді жасай алатын модель.
OpenAI CLIP (Контрастивті тіл – кескінді алдын ала оқыту) – бірінші аспектіні шешуге бағытталған ашық бастапқы модель. Кескінді ескере отырып, CLIP үлгісі сол сурет үшін ең сәйкес мәтіндік сипаттаманы болжай алады.
CLIP үлгісі кескіннің маңызды мүмкіндіктерін алу және кескіннің қарапайым көрінісін жасау жолын үйрену арқылы жұмыс істейді.
Пайдаланушылар DALL-E 2 үлгісіне мәтін енгізу үлгісін бергенде, кіріс CLIP үлгісін пайдаланып «кескінді ендіруге» түрлендіріледі. Ендігі мақсат - жасалған кескінді ендіруге сәйкес келетін кескінді жасау жолын табу.
Соңғы генеративті кескінді AI пайдаланады a диффузиялық модель бейнені іс жүзінде жасау міндетін шешу. Диффузия модельдері кескіндерден қосылған шуды жою жолын білу үшін алдын ала дайындалған нейрондық желілерге сүйенеді.
Бұл оқыту процесі кезінде нейрондық желі кездейсоқ шу кескінінен жоғары ажыратымдылықтағы кескінді жасауды үйрене алады. Бізде CLIP ұсынған мәтін мен кескіндердің картасы бар болғандықтан, біз жасай аламыз диффузиялық модельді үйрету кез келген кескінді жасау процесін жасау үшін CLIP кескінді ендірулерінде.
Генеративті AI революциясы: бұдан кейін не болады?
Қазір біз генеративті AI-дағы серпілістер екі күн сайын болатын кезеңде тұрмыз. Жасанды интеллект арқылы әртүрлі медиа түрлерін жасау оңай әрі оңай бола бастағанда, бұл біздің қоғамға қалай әсер етуі мүмкін деп алаңдауымыз керек пе?
Жұмысшыларды алмастыратын станоктардың толғаныстары бу машинасы ойлап табылғалы бері әңгімеде болғанымен, бұл жолы сәл басқаша болған сияқты.
Генеративті AI көп мақсатты құралға айналуда, ол AI-ны басып алудан қауіпсіз деп саналатын салаларды бұзуы мүмкін.
Егер AI бірнеше негізгі нұсқаулардан мінсіз код жаза бастаса, бізге бағдарламашылар керек пе? Адамдар өздері қалаған өнімді арзанға шығару үшін генеративті үлгіні қолдана алса, креативті адамдарды жалдай ма?
Генеративті AI революциясының болашағын болжау қиын. Бірақ қазір бейнелі Pandora қорабы ашылғаннан кейін, технология әлемге жағымды әсер қалдыра алатын қызықты жаңалықтарға мүмкіндік береді деп үміттенемін.
пікір қалдыру