MultiModal-GPT. Նոր սահման լեզուների և տեսլականի ինտեգրման մեջ

Երբևէ ցանկացե՞լ եք, որ կարողանայիք զրուցել AI-ի հետ, որն ընկալում է ինչպես խոսակցական, այնպես էլ տեսողական տվյալները: MultiModal-GPT պարադիգմը համատեղում է լեզվի մշակումը տեսողական ըմբռնման հետ:

Այն առաջարկում է մարդ-համակարգիչ ճշգրիտ և բազմազան փոխազդեցության հնարավորություն: MultiModal-GPT կարող է տրամադրել նկարագրական ենթագրեր, հաշվել առանձին տարրեր և պատասխանել օգտվողի ընդհանուր հարցերին:

Բայց ինչպե՞ս է դա անում: Եվ ի՞նչ կարող եք անել MultiModal-GPT-ի հետ:

Եկեք պատմությունը տանենք սկզբում և հասկանանք մեր առջևի հնարավորությունները:

GPT-4-ի նման լեզվական մոդելների առաջացման հետ մեկտեղ բնական լեզվի մշակման տեխնոլոգիաները հեղափոխության ականատես են լինում: ChatGPT-ի նման նորամուծություններն արդեն ներդրվել են մեր կյանքում:

Եվ, կարծես, նրանք շարունակում են գալ:

GPT-4 և դրա սահմանափակումները

GPT-4-ը զարմանալի հմտություն է ցուցաբերել մարդկանց հետ բազմամոդալ զրույցներում: Հետազոտությունները ջանքեր են գործադրել կրկնօրինակելու այս կատարումը, բայց նկարների պոտենցիալ մեծ թվի պատճառով, ներառյալ ճշգրիտ տեսողական տեղեկատվություն ունեցող մոդելները, կարող են հաշվողականորեն թանկ լինել:

Գոյություն ունեցող մոդելները նաև չեն ներառում լեզվի ուսուցման թյունինգ իրենց ուսումնասիրության մեջ, ինչը սահմանափակում է նրանց հնարավորությունը՝ մասնակցելու զրոյական կրակոցով բազմաշրջադարձ պատկեր-տեքստային խոսակցություններին:

Հիմնվելով Ֆլամինգո Շրջանակի վրա

Մշակվել է նոր մոդել, որը կոչվում է MultiModal-GPT, որպեսզի հնարավորություն ընձեռի մարդկանց հետ հաղորդակցվել՝ օգտագործելով ինչպես լեզվական, այնպես էլ տեսողական նշաններ:

Մշակողները կիրառել են ծրագիր, որը կոչվում է Ֆլամինգո շրջանակ, որը նախկինում վերապատրաստվել էր ինչպես տեքստը, այնպես էլ տեսողական պատկերները հասկանալու համար, որպեսզի դա իրագործելի լինի:

Flamingo Framework

Ֆլամինգոն որոշ փոփոխությունների կարիք ուներ, քանի որ այն չկարողացավ ընդլայնված երկխոսություններ ունենալ, որոնք ներառում էին տեքստ և տեսողական պատկերներ:

Թարմացված MultiModal-GPT մոդելը կարող է տվյալներ հավաքել նկարներից և խառնել դրանք լեզվի հետ՝ հասկանալու և իրականացնելու մարդկային հրամանները:

MultiModal-GPT

MultiModal-GPT-ն արհեստական ինտելեկտի մոդելի տեսակ է, որը կարող է հետևել մարդկային տարբեր հարցումներին, ինչպիսիք են տեսողական պատկերները նկարագրելը, տարրերը հաշվելը և հարցերին պատասխանելը: Այն հասկանում և հետևում է պատվերներին՝ օգտագործելով տեսողական և բանավոր տվյալների խառնուրդ:

Հետազոտողները մոդելը վարժեցրել են՝ օգտագործելով ինչպես տեսողական, այնպես էլ միայն լեզվական տվյալներ՝ մարդկանց հետ զրուցելու MultiModal-GPT-ի կարողությունը բարձրացնելու համար: Բացի այդ, այն նկատելի բարելավում է առաջացրել իր ելույթի կատարման մեջ: Դա նաև հանգեցրեց զրույցի կատարողականի նկատելի բարելավմանը:

Նրանք պարզեցին, որ բարձրորակ ուսուցման տվյալներ ունենալը կարևոր է զրույցի լավ կատարման համար, քանի որ կարճ պատասխաններով փոքր տվյալների բազան կարող է մոդելին հնարավորություն տալ ավելի կարճ պատասխաններ ստեղծել ցանկացած հրամանի համար:

Ի՞նչ կարող եք անել MultiModal-GPT-ի հետ:

Զրույցների մեջ ներգրավվելը

Ինչպես նախկինում հայտնված լեզվական մոդելները, MultiModal-GPT-ի հիմնական բնութագրիչներից մեկը բնական լեզվով քննարկումներում ներգրավվելու կարողությունն է: Սա ենթադրում է, որ սպառողները կարող են ներգրավվել մոդելի հետ այնպես, ինչպես կվարվեին իրական անձի հետ:

Օրինակ, MultiModal-GPT-ն կարող է հաճախորդներին տրամադրել լապշա պատրաստելու մանրամասն բաղադրատոմս կամ առաջարկել հնարավոր ռեստորաններ՝ ընթրելու համար: Մոդելը նաև ի վիճակի է պատասխանել օգտատերերի ճամփորդության մտադրությունների վերաբերյալ ընդհանուր հարցերին:

Լապշա

Օբյեկտների ճանաչում

MultiModal-GPT-ն կարող է ճանաչել իրերը լուսանկարներում և պատասխանել դրանց վերաբերյալ հարցումներին: Օրինակ, մոդելը կարող է պատկերով ճանաչել Ֆրեդի Մերկուրիին և պատասխանել նրա վերաբերյալ հարցերին:

Այն կարող է նաև հաշվել անհատների թիվը և բացատրել, թե ինչ են նրանք անում նկարում: Օբյեկտների նույնականացման այս կարողությունը կիրառություն ունի տարբեր ոլորտներում, ներառյալ էլեկտրոնային առևտուրը, առողջապահությունը և անվտանգությունը:

Օրինակ

MultiModal-GPT-ն կարող է նաև ճանաչել թվային նկարների տեքստը: Սա ենթադրում է, որ մոդելը կարող է կարդալ տեքստը լուսանկարներում և օգտակար տվյալներ հանել: Այն կարող է, օրինակ, բացահայտել կերպարների կերպարները և բացահայտել գրքի հեղինակին:

Դա չափազանց օգտակար գործիք է փաստաթղթերի կառավարում, տվյալների մուտքագրում և բովանդակության վերլուծություն։

Gandalf

Պատճառաբանություն և գիտելիքի սերունդ

Multi-modal-GPT-ն կարող է հիմնավորել և ստեղծել գիտելիք աշխարհի մասին: Սա նշանակում է, որ այն կարող է տրամադրել լուսանկարների ամբողջական բացատրություն և նույնիսկ պատմել, թե որ սեզոնին է արվել պատկերը:

Այս հմտությունը օգտակար է մի շարք առարկաների համար, ներառյալ շրջակա միջավայրի մոնիտորինգը, գյուղատնտեսությունը և օդերևութաբանությունը: Մոդելը կարող է լրացուցիչ ստեղծել ստեղծագործական նյութեր, ինչպիսիք են պոեզիան, հեքիաթները և երգերը՝ դարձնելով այն հիանալի գործիք ստեղծագործական առաջադրանքների համար:

MultiModal-GPT-ի ներքին աշխատանքները

Միասնական հրահանգների ձևանմուշ

Թիմը ներկայացնում է մեկ ձևանմուշ՝ միամոդալ լեզվական տվյալների և բազմամոդալ տեսլականի և լեզվի տվյալների ինտեգրման համար՝ MultiModal-GPT մոդելը սիներգիստական ձևով պատշաճ կերպով վարժեցնելու համար:

Այս համակցված ռազմավարությունը փորձում է բարելավել մոդելի կատարողականը տարբեր առաջադրանքների դեպքում՝ օգտագործելով տվյալների երկու եղանակների լրացուցիչ հնարավորությունները և խրախուսելով հիմքում ընկած գաղափարների ավելի խորը ըմբռնումը:

Dolly 15k և Alpaca GPT4 տվյալների հավաքածուներն օգտագործվում են թիմի կողմից՝ չափելու միայն լեզվական հրահանգներին հետևելու կարողությունները: Այս տվյալների հավաքածուները գործում են որպես տվյալների ներածման կառուցվածքի հրատապ ձևանմուշ՝ երաշխավորելու հրահանգներին հետևող հետևողական ձևաչափը:

Dolly 15k Dataset Overview

Պատկեր. Doly 15k տվյալների ակնարկ

Ինչպե՞ս է աշխատում մոդելը:

Երեք հիմնական բաղադրիչները կազմում են MultiModal-GPT մոդելը` լեզվի ապակոդավորիչ, ընկալիչի վերափորձարկիչ և տեսողության կոդավորիչ: Պատկերն ընդունվում է տեսողության կոդավորիչով, որն այնուհետև ստեղծում է այն բնութագրող բնութագրերի հավաքածու:

Լեզվի ապակոդավորիչն օգտագործում է տեսողության կոդավորիչից ստացված տեղեկատվությունը, որպեսզի ստեղծի տեքստ, որը նկարագրում է պատկերը ընկալիչի վերափորձարկիչի օգնությամբ:

Լեզուն ընկալող և տեքստը արտադրող մոդելի բաղադրիչը լեզվի ապակոդավորիչն է։ Հետևյալ բառը բառակապակցության մեջ կանխատեսելու համար մոդելը վարժեցվում է՝ օգտագործելով թե՛ միայն լեզվի, և թե՛ vision-plus լեզվի հրահանգներին հետևող տվյալները:

Սա մոդելին սովորեցնում է, թե ինչպես արձագանքել մարդկանց հրամաններին և տրամադրում է ընդունելի տեքստ նկարների նկարագրության համար:

մոդել

Թիմ Հետևում

MultiModal-GPT-ն ստեղծվել է Microsoft Research Asia-ի հետազոտողների և ինժեներների թիմի կողմից՝ Տաո Գոնգի, Չենգկի Լյուի և Շիլոն Չժանի գլխավորությամբ: Յուդոն Վանգը, Միաո Չժենը, Ցիան Չժաոն, Կույկուն Լյուն, Վենվեյ Չժանը, Պինգ Լուոն և Քայ Չենը բոլորն էլ իրենց ներդրումն են ունեցել մոդելի ուսումնասիրության և զարգացման գործում:

Բնական լեզվի մշակում, համակարգչային տեսլականև մեքենայական ուսուցումը թիմի իրավասության բոլոր ոլորտներն են: Նրանք ունեն մի քանի հոդվածներ տպագրված բարձրակարգ գիտաժողովներում և հրապարակումներում, ինչպես նաև տարբեր պարգևներ և գովասանքներ իրենց գիտական ջանքերի համար:

Թիմի հետազոտությունը կենտրոնանում է նորագույն մոդելների և մոտեցումների մշակման վրա՝ մարդկանց և տեխնոլոգիաների միջև ավելի բնական և խելացի փոխազդեցություն ապահովելու համար:

Multi-modal-GPT-ի մշակումը ուշագրավ ձեռքբերում է ոլորտում, քանի որ այն առաջին մոդելներից է, որը համատեղում է տեսլականը և լեզուն մեկ շրջանակում բազմաբնույթ քննարկումների համար:

Թիմի ներդրումները MultiModal-GPT հետազոտության և զարգացման գործում կարող են էական ազդեցություն ունենալ բնական լեզվի մշակման և մարդ-մեքենա փոխազդեցության ապագայի վրա:

Ինչպես օգտագործել MultiModal-GPT

Սկսնակների համար MultiModal-GPT գործիքի օգտագործումը պարզ է: Պարզապես գնացեք https://mmgpt.openmmlab.org.cn/ և սեղմեք «Վերբեռնել պատկերը» կոճակը:

Ընտրեք նկարի ֆայլը վերբեռնելու համար, այնուհետև մուտքագրեք տեքստային հուշումը տեքստային դաշտում: Մոդելից պատասխան ստեղծելու համար սեղմեք «Ներկայացնել» կոճակը, որը կհայտնվի տեքստային դաշտի տակ:

Մոդելի հնարավորությունների մասին ավելին իմանալու համար կարող եք փորձարկել տարբեր լուսանկարներ և հրահանգներ:

1 ինտերֆեյս

Installing

MultiModal-GPT փաթեթը տեղադրելու համար օգտագործեք «git clone https://github.com/open-mmlab/Multimodal-GPT.git» տերմինալի հրամանը՝ պահեստը GitHub-ից կլոնավորելու համար: Դուք կարող եք պարզապես հետևել հետևյալ քայլերին.

git clone https://github.com/open-mmlab/Multimodal-GPT.git

cd Multimodal-GPT

pip install -r requirements.txt

pip install -v -e .

Որպես այլընտրանք, օգտագործեք conda env create -f environment.yml ստեղծել նոր կոնդա միջավայր: Դուք կարող եք տեղական ցուցադրություն գործարկել այն տեղադրելուց հետո՝ ներբեռնելով նախապես պատրաստված կշիռները և դրանք պահելով անցակետերի թղթապանակում:

Gradio-ի ցուցադրությունը կարող է այնուհետև գործարկվել՝ գործարկելով «python app.py» հրամանը:

Հնարավոր թերություններ

MultiModal-GPT մոդելը դեռևս ունի թերություններ և զարգացման տեղ, չնայած իր գերազանց կատարողականությանը:

Օրինակ, բարդ կամ երկիմաստ վիզուալ մուտքերի հետ գործ ունենալիս, մոդելը միշտ չէ, որ կարող է ճանաչել և ըմբռնել մուտքագրման համատեքստը: Սա կարող է հանգեցնել մոդելի ոչ ճշգրիտ կանխատեսումների կամ արձագանքների:

Բացի այդ, հատկապես, երբ մուտքագրումը բարդ է կամ բաց է, մոդելը միշտ չէ, որ կարող է լավագույն արձագանքը կամ արդյունքը տալ: Մոդելի պատասխանի վրա, օրինակ, կարող է ազդվել այն բանից, թե որքան նման են երկու գրքերի շապիկները գրքի կազմի սխալ նույնականացման դեպքում:

Եզրափակում

Ընդհանուր առմամբ, MultiModal-GPT մոդելը մեծ առաջընթաց է ներկայացնում բնական լեզվի մշակման և մեքենայական ուսուցման գործում: Եվ շատ հետաքրքիր է օգտագործել այն և փորձարկել դրա հետ: Այսպիսով, դուք նույնպես պետք է փորձեք:

Այնուամենայնիվ, այն ունի սահմանափակումներ, ինչպես բոլոր մոդելները, և պահանջում է լրացուցիչ կատարելագործում և կատարելագործում` առավելագույն արդյունավետություն ստանալու համար մի շարք ծրագրերում և տիրույթներում: