Մենք, հավանաբար, հենց նոր գեներատիվ AI հեղափոխության սկզբում ենք:
Գեներատիվ արհեստական ինտելեկտը վերաբերում է ալգորիթմներին և մոդելներին, որոնք ունակ են բովանդակություն ստեղծել: Նման մոդելների արտադրանքը ներառում է տեքստ, աուդիո և պատկերներ, որոնք հաճախ կարող են սխալվել որպես իրական մարդկային արդյունք:
Ծրագրեր, ինչպիսիք են Զրուցարան GPT ցույց են տվել, որ գեներատիվ AI-ն պարզապես նորություն չէ: AI-ն այժմ ի վիճակի է հետևել մանրամասն հրահանգներին և կարծես թե խորապես հասկանում է, թե ինչպես է աշխատում աշխարհը:
Բայց ինչպե՞ս հասանք այս կետին: Այս ուղեցույցում մենք կանցնենք արհեստական ինտելեկտի հետազոտության որոշ կարևոր առաջընթացների միջով, որոնք ճանապարհ են հարթել արհեստական ինտելեկտի այս նոր և հետաքրքիր գեներատիվ հեղափոխության համար:
Նյարդային ցանցերի վերելքը
Դուք կարող եք հետևել ժամանակակից արհեստական ինտելեկտի ծագմանը մինչև հետազոտությունը խորը ուսուցում և նեյրոնային ցանցեր - ին 2012:.
Այդ տարում Ալեքս Կրիժևսկին և նրա թիմը Տորոնտոյի համալսարանից կարողացան հասնել բարձր ճշգրիտ ալգորիթմի, որը կարող է դասակարգել առարկաները:
The գերժամանակակից նեյրոնային ցանց, որն այժմ հայտնի է որպես AlexNet, կարողացավ դասակարգել օբյեկտները ImageNet տեսողական տվյալների բազայում սխալի շատ ավելի ցածր մակարդակով, քան երկրորդ տեղում:
Նյարդային ցանցեր ալգորիթմներ են, որոնք օգտագործում են մաթեմատիկական ֆունկցիաների ցանց՝ որոշակի վարքագիծ սովորելու համար՝ հիմնվելով որոշ վերապատրաստման տվյալների վրա: Օրինակ, դուք կարող եք սնուցել նեյրոնային ցանցի բժշկական տվյալները՝ մոդելին վարժեցնելու քաղցկեղի նման հիվանդություն ախտորոշելու համար:
Հույս կա, որ նեյրոնային ցանցը կամաց-կամաց օրինաչափություններ է գտնում տվյալների մեջ և դառնում ավելի ճշգրիտ, երբ տրվում են նոր տվյալներ:
AlexNet-ը բեկումնային հավելված էր a կոնվոլիտիոն նեյրոնային ցանց կամ CNN-ներ: «Կոնվոլյուցիոն» հիմնաբառը վերաբերում է կոնվոլյուցիոն շերտերի ավելացմանը, որն ավելի շատ շեշտադրում է տալիս միմյանց ավելի մոտ գտնվող տվյալների վրա:
Թեև CNN-ներն արդեն գաղափար էին 1980-ականներին, դրանք սկսեցին ժողովրդականություն ձեռք բերել միայն 2010-ականների սկզբին, երբ վերջին GPU տեխնոլոգիան տեխնոլոգիան նոր բարձունքների հասցրեց:
CNN-ների հաջողությունը ոլորտում համակարգչային տեսլական հանգեցրեց ավելի մեծ հետաքրքրության նեյրոնային ցանցերի հետազոտության նկատմամբ:
Տեխնոլոգիական այնպիսի հսկաները, ինչպիսիք են Google-ը և Facebook-ը, որոշեցին հանրությանը թողարկել իրենց սեփական AI շրջանակները: Բարձր մակարդակի API-ներ, ինչպիսիք են Կերաս օգտատերերին հարմար ինտերֆեյս է տվել՝ խորը նեյրոնային ցանցերի հետ փորձեր կատարելու համար:
CNN-ները հիանալի էին պատկերների ճանաչման և տեսանյութերի վերլուծության մեջ, բայց դժվարանում էին լեզվական խնդիրների լուծման հարցում: Բնական լեզվի մշակման այս սահմանափակումը կարող է գոյություն ունենալ, քանի որ պատկերներն ու տեքստը իրականում սկզբունքորեն տարբեր խնդիրներ են:
Օրինակ, եթե դուք ունեք մոդել, որը դասակարգում է, թե արդյոք պատկերը լուսացույց է պարունակում, խնդրո առարկա լուսացույցը կարող է հայտնվել պատկերի ցանկացած կետում: Այնուամենայնիվ, այս տեսակի մեղմությունը լավ չի աշխատում լեզվում: «Բոբը ձուկ կերավ» և «Ձուկը կերավ Բոբին» նախադասությունը շատ տարբեր իմաստներ ունեն՝ չնայած նույն բառերն օգտագործելուն:
Պարզ էր դարձել, որ հետազոտողները պետք է նոր մոտեցում գտնեն մարդկային լեզվի հետ կապված խնդիրների լուծման համար։
Տրանսֆորմատորները փոխում են ամեն ինչ
2017- ում, ա հետազոտական թուղթ «Ուշադրությունն այն ամենն է, ինչ ձեզ հարկավոր է» վերնագրով առաջարկեց ցանցի նոր տեսակ՝ տրանսֆորմեր:
Մինչ CNN-ներն աշխատում են՝ բազմիցս զտելով պատկերի փոքր հատվածները, տրանսֆորմատորները միացնում են տվյալների յուրաքանչյուր տարրը յուրաքանչյուր այլ տարրի հետ: Հետազոտողները այս գործընթացն անվանում են «ինքնաուշադրություն»:
Երբ փորձում են վերլուծել նախադասությունները, CNN-ները և տրանսֆորմատորները շատ տարբեր են աշխատում: Մինչ CNN-ը կկենտրոնանա միմյանց մոտ գտնվող բառերի հետ կապեր ստեղծելու վրա, տրանսֆորմատորը կապեր կստեղծի նախադասության յուրաքանչյուր բառի միջև:
Ինքն ուշադրության գործընթացը մարդկային լեզուն հասկանալու անբաժանելի մասն է: Մեծացնելով և տեսնելով, թե ինչպես է ամբողջ նախադասությունը համապատասխանում միմյանց, մեքենաները կարող են ավելի հստակ պատկերացում կազմել նախադասության կառուցվածքի մասին:
Երբ առաջին տրանսֆորմատորների մոդելները թողարկվեցին, հետազոտողները շուտով օգտագործեցին նոր ճարտարապետությունը՝ օգտվելու ինտերնետում հայտնաբերված տեքստային տվյալների անհավանական քանակից:
GPT-3 և ինտերնետ
2020 թվականին OpenAI-ը GPT-3 մոդելը ցույց տվեց, թե որքան արդյունավետ կարող են լինել տրանսֆորմատորները: GPT-3-ը կարողացավ դուրս բերել տեքստ, որը գրեթե չի տարբերվում մարդուց: GPT-3-ին այդքան հզոր դարձնողի մի մասը օգտագործված ուսուցման տվյալների քանակն էր: Մոդելի նախնական ուսուցման տվյալների մեծ մասը գալիս է տվյալներից, որը հայտնի է որպես Common Crawl, որը պարունակում է ավելի քան 400 միլիարդ նշաններ:
Թեև GPT-3-ի՝ մարդկային ռեալիստական տեքստ ստեղծելու կարողությունն ինքնին բեկումնային էր, հետազոտողները պարզեցին, թե ինչպես կարող է նույն մոդելը լուծել այլ առաջադրանքներ:
Օրինակ, նույն GPT-3 մոդելը, որը դուք կարող եք օգտագործել թվիթ ստեղծելու համար, կարող է նաև օգնել ձեզ ամփոփել տեքստը, վերաշարադրել պարբերությունը և ավարտել պատմությունը: Լեզվի մոդելներ այնքան հզոր են դարձել, որ այժմ դրանք հիմնականում ընդհանուր նշանակության գործիքներ են, որոնք հետևում են ցանկացած տեսակի հրամանի:
GPT-3-ի ընդհանուր նպատակային բնույթը թույլ է տվել նման կիրառություններ GitHub Copilot, որը թույլ է տալիս ծրագրավորողներին ստեղծել աշխատանքային կոդ պարզ անգլերենից:
Դիֆուզիոն մոդելներ. տեքստից պատկերներ
Տրանսֆորմատորների և NLP-ի հետ ձեռք բերված առաջընթացը նաև ճանապարհ է հարթել այլ ոլորտներում գեներացնող AI-ի համար:
Համակարգչային տեսողության ոլորտում մենք արդեն անդրադարձել ենք, թե ինչպես է խորը ուսուցումը թույլ տվել մեքենաներին հասկանալ պատկերները: Այնուամենայնիվ, մենք դեռ պետք է ճանապարհ գտնեինք, որպեսզի AI-ն ինքնուրույն պատկերներ ստեղծի, այլ ոչ թե պարզապես դասակարգի դրանք:
Գեներատիվ պատկերների մոդելները, ինչպիսիք են DALL-E 2-ը, Stable Diffusion-ը և Midjourney-ը, դարձել են հանրաճանաչ, քանի որ նրանք կարողանում են տեքստի մուտքագրումը պատկերի վերածել:
Այս պատկերների մոդելները հիմնվում են երկու հիմնական ասպեկտների վրա՝ մոդել, որը հասկանում է պատկերների և տեքստի փոխհարաբերությունները, և մոդել, որը կարող է իրականում ստեղծել բարձր հստակությամբ պատկեր, որը համապատասխանում է մուտքագրմանը:
OpenAI-ի CLIP (Contrastive Language–Image Pre-training) բաց կոդով մոդել է, որի նպատակն է լուծել առաջին ասպեկտը: Հաշվի առնելով պատկերը՝ CLIP մոդելը կարող է կանխատեսել տվյալ պատկերի համար առավել համապատասխան տեքստային նկարագրությունը:
CLIP մոդելն աշխատում է՝ սովորելով, թե ինչպես հանել պատկերի կարևոր առանձնահատկությունները և ստեղծել պատկերի ավելի պարզ ներկայացում:
Երբ օգտվողները տրամադրում են տեքստային մուտքագրման նմուշ DALL-E 2-ին, մուտքագրումը վերածվում է «պատկերի ներդրման»՝ օգտագործելով CLIP մոդելը: Այժմ նպատակն է գտնել մի ձև՝ ստեղծելու պատկեր, որը կհամապատասխանի ստեղծված պատկերի ներդրմանը:
Վերջին գեներատիվ պատկերի AI-ները օգտագործում են a դիֆուզիոն մոդել լուծել իրական պատկեր ստեղծելու խնդիրը: Դիֆուզիոն մոդելները հիմնվում են նեյրոնային ցանցերի վրա, որոնք նախապես պատրաստված են եղել՝ իմանալու, թե ինչպես հեռացնել ավելացված աղմուկը պատկերներից:
Վերապատրաստման այս գործընթացի ընթացքում նեյրոնային ցանցը կարող է ի վերջո սովորել, թե ինչպես ստեղծել բարձր լուծաչափով պատկեր պատահական աղմուկի պատկերից: Քանի որ մենք արդեն ունենք CLIP-ի կողմից տրամադրված տեքստի և պատկերների քարտեզագրում, մենք կարող ենք պատրաստել դիֆուզիոն մոդել CLIP պատկերի ներկառուցումների վրա՝ ցանկացած պատկեր ստեղծելու գործընթաց ստեղծելու համար:
Գեներատիվ AI հեղափոխություն. ի՞նչ է հաջորդում:
Այժմ մենք գտնվում ենք մի կետում, երբ գեներատիվ արհեստական ինտելեկտի առաջընթացը տեղի է ունենում ամեն երկու օրը մեկ: Քանի որ AI-ի միջոցով տարբեր տեսակի լրատվամիջոցներ ստեղծելը դառնում է ավելի հեշտ և հեշտ, արդյոք մենք պետք է անհանգստանանք, թե ինչպես դա կարող է ազդել մեր հասարակության վրա:
Թեև աշխատողներին փոխարինող մեքենաների մտահոգությունները միշտ խոսակցության մեջ են եղել գոլորշու շարժիչի գյուտից ի վեր, թվում է, որ այս անգամ մի փոքր այլ է:
Generative AI-ն դառնում է բազմաֆունկցիոնալ գործիք, որը կարող է խաթարել արդյունաբերությունները, որոնք համարվում էին, որ ապահով են AI-ի գրավումից:
Արդյո՞ք մեզ ծրագրավորողներ պետք կգան, եթե AI-ն կարողանա մի քանի հիմնական հրահանգներից սկսել անթերի կոդ գրել: Արդյո՞ք մարդիկ կվարձեն ստեղծագործողներին, եթե նրանք պարզապես կարողանան օգտագործել գեներատիվ մոդել՝ իրենց ուզած արդյունքն ավելի էժան արտադրելու համար:
Դժվար է կանխատեսել արհեստական ինտելեկտի գեներատիվ հեղափոխության ապագան։ Բայց հիմա, երբ բացվել է պատկերավոր Պանդորայի արկղը, հուսով եմ, որ տեխնոլոգիան թույլ կտա ավելի հետաքրքիր նորարարություններ, որոնք կարող են դրական ազդեցություն թողնել աշխարհի վրա:
Թողնել գրառում