Երբևէ ցանկացե՞լ եք, որ կարողանայիք զրուցել AI-ի հետ, որն ընկալում է ինչպես խոսակցական, այնպես էլ տեսողական տվյալները: MultiModal-GPT պարադիգմը համատեղում է լեզվի մշակումը տեսողական ըմբռնման հետ:
Այն առաջարկում է մարդ-համակարգիչ ճշգրիտ և բազմազան փոխազդեցության հնարավորություն: MultiModal-GPT կարող է տրամադրել նկարագրական ենթագրեր, հաշվել առանձին տարրեր և պատասխանել օգտվողի ընդհանուր հարցերին:
Բայց ինչպե՞ս է դա անում: Եվ ի՞նչ կարող եք անել MultiModal-GPT-ի հետ:
Եկեք պատմությունը տանենք սկզբում և հասկանանք մեր առջևի հնարավորությունները:
GPT-4-ի նման լեզվական մոդելների առաջացման հետ մեկտեղ բնական լեզվի մշակման տեխնոլոգիաները հեղափոխության ականատես են լինում: ChatGPT-ի նման նորամուծություններն արդեն ներդրվել են մեր կյանքում:
Եվ, կարծես, նրանք շարունակում են գալ:
GPT-4 և դրա սահմանափակումները
GPT-4-ը զարմանալի հմտություն է ցուցաբերել մարդկանց հետ բազմամոդալ զրույցներում: Հետազոտությունները ջանքեր են գործադրել կրկնօրինակելու այս կատարումը, բայց նկարների պոտենցիալ մեծ թվի պատճառով, ներառյալ ճշգրիտ տեսողական տեղեկատվություն ունեցող մոդելները, կարող են հաշվողականորեն թանկ լինել:
Գոյություն ունեցող մոդելները նաև չեն ներառում լեզվի ուսուցման թյունինգ իրենց ուսումնասիրության մեջ, ինչը սահմանափակում է նրանց հնարավորությունը՝ մասնակցելու զրոյական կրակոցով բազմաշրջադարձ պատկեր-տեքստային խոսակցություններին:
Հիմնվելով Ֆլամինգո Շրջանակի վրա
Մշակվել է նոր մոդել, որը կոչվում է MultiModal-GPT, որպեսզի հնարավորություն ընձեռի մարդկանց հետ հաղորդակցվել՝ օգտագործելով ինչպես լեզվական, այնպես էլ տեսողական նշաններ:
Մշակողները կիրառել են ծրագիր, որը կոչվում է Ֆլամինգո շրջանակ, որը նախկինում վերապատրաստվել էր ինչպես տեքստը, այնպես էլ տեսողական պատկերները հասկանալու համար, որպեսզի դա իրագործելի լինի:
Ֆլամինգոն որոշ փոփոխությունների կարիք ուներ, քանի որ այն չկարողացավ ընդլայնված երկխոսություններ ունենալ, որոնք ներառում էին տեքստ և տեսողական պատկերներ:
Թարմացված MultiModal-GPT մոդելը կարող է տվյալներ հավաքել նկարներից և խառնել դրանք լեզվի հետ՝ հասկանալու և իրականացնելու մարդկային հրամանները:
MultiModal-GPT
MultiModal-GPT-ն արհեստական ինտելեկտի մոդելի տեսակ է, որը կարող է հետևել մարդկային տարբեր հարցումներին, ինչպիսիք են տեսողական պատկերները նկարագրելը, տարրերը հաշվելը և հարցերին պատասխանելը: Այն հասկանում և հետևում է պատվերներին՝ օգտագործելով տեսողական և բանավոր տվյալների խառնուրդ:
Հետազոտողները մոդելը վարժեցրել են՝ օգտագործելով ինչպես տեսողական, այնպես էլ միայն լեզվական տվյալներ՝ մարդկանց հետ զրուցելու MultiModal-GPT-ի կարողությունը բարձրացնելու համար: Բացի այդ, այն նկատելի բարելավում է առաջացրել իր ելույթի կատարման մեջ: Դա նաև հանգեցրեց զրույցի կատարողականի նկատելի բարելավմանը:
Նրանք պարզեցին, որ բարձրորակ ուսուցման տվյալներ ունենալը կարևոր է զրույցի լավ կատարման համար, քանի որ կարճ պատասխաններով փոքր տվյալների բազան կարող է մոդելին հնարավորություն տալ ավելի կարճ պատասխաններ ստեղծել ցանկացած հրամանի համար:
Ի՞նչ կարող եք անել MultiModal-GPT-ի հետ:
Զրույցների մեջ ներգրավվելը
Ինչպես նախկինում հայտնված լեզվական մոդելները, MultiModal-GPT-ի հիմնական բնութագրիչներից մեկը բնական լեզվով քննարկումներում ներգրավվելու կարողությունն է: Սա ենթադրում է, որ սպառողները կարող են ներգրավվել մոդելի հետ այնպես, ինչպես կվարվեին իրական անձի հետ:
Օրինակ, MultiModal-GPT-ն կարող է հաճախորդներին տրամադրել լապշա պատրաստելու մանրամասն բաղադրատոմս կամ առաջարկել հնարավոր ռեստորաններ՝ ընթրելու համար: Մոդելը նաև ի վիճակի է պատասխանել օգտատերերի ճամփորդության մտադրությունների վերաբերյալ ընդհանուր հարցերին:
Օբյեկտների ճանաչում
MultiModal-GPT-ն կարող է ճանաչել իրերը լուսանկարներում և պատասխանել դրանց վերաբերյալ հարցումներին: Օրինակ, մոդելը կարող է պատկերով ճանաչել Ֆրեդի Մերկուրիին և պատասխանել նրա վերաբերյալ հարցերին:
Այն կարող է նաև հաշվել անհատների թիվը և բացատրել, թե ինչ են նրանք անում նկարում: Օբյեկտների նույնականացման այս կարողությունը կիրառություն ունի տարբեր ոլորտներում, ներառյալ էլեկտրոնային առևտուրը, առողջապահությունը և անվտանգությունը:
MultiModal-GPT-ն կարող է նաև ճանաչել թվային նկարների տեքստը: Սա ենթադրում է, որ մոդելը կարող է կարդալ տեքստը լուսանկարներում և օգտակար տվյալներ հանել: Այն կարող է, օրինակ, բացահայտել կերպարների կերպարները և բացահայտել գրքի հեղինակին:
Դա չափազանց օգտակար գործիք է փաստաթղթերի կառավարում, տվյալների մուտքագրում և բովանդակության վերլուծություն։
Պատճառաբանություն և գիտելիքի սերունդ
Multi-modal-GPT-ն կարող է հիմնավորել և ստեղծել գիտելիք աշխարհի մասին: Սա նշանակում է, որ այն կարող է տրամադրել լուսանկարների ամբողջական բացատրություն և նույնիսկ պատմել, թե որ սեզոնին է արվել պատկերը:
Այս հմտությունը օգտակար է մի շարք առարկաների համար, ներառյալ շրջակա միջավայրի մոնիտորինգը, գյուղատնտեսությունը և օդերևութաբանությունը: Մոդելը կարող է լրացուցիչ ստեղծել ստեղծագործական նյութեր, ինչպիսիք են պոեզիան, հեքիաթները և երգերը՝ դարձնելով այն հիանալի գործիք ստեղծագործական առաջադրանքների համար:
MultiModal-GPT-ի ներքին աշխատանքները
Միասնական հրահանգների ձևանմուշ
Թիմը ներկայացնում է մեկ ձևանմուշ՝ միամոդալ լեզվական տվյալների և բազմամոդալ տեսլականի և լեզվի տվյալների ինտեգրման համար՝ MultiModal-GPT մոդելը սիներգիստական ձևով պատշաճ կերպով վարժեցնելու համար:
Այս համակցված ռազմավարությունը փորձում է բարելավել մոդելի կատարողականը տարբեր առաջադրանքների դեպքում՝ օգտագործելով տվյալների երկու եղանակների լրացուցիչ հնարավորությունները և խրախուսելով հիմքում ընկած գաղափարների ավելի խորը ըմբռնումը:
Dolly 15k և Alpaca GPT4 տվյալների հավաքածուներն օգտագործվում են թիմի կողմից՝ չափելու միայն լեզվական հրահանգներին հետևելու կարողությունները: Այս տվյալների հավաքածուները գործում են որպես տվյալների ներածման կառուցվածքի հրատապ ձևանմուշ՝ երաշխավորելու հրահանգներին հետևող հետևողական ձևաչափը:
Պատկեր. Doly 15k տվյալների ակնարկ
Ինչպե՞ս է աշխատում մոդելը:
Երեք հիմնական բաղադրիչները կազմում են MultiModal-GPT մոդելը` լեզվի ապակոդավորիչ, ընկալիչի վերափորձարկիչ և տեսողության կոդավորիչ: Պատկերն ընդունվում է տեսողության կոդավորիչով, որն այնուհետև ստեղծում է այն բնութագրող բնութագրերի հավաքածու:
Լեզվի ապակոդավորիչն օգտագործում է տեսողության կոդավորիչից ստացված տեղեկատվությունը, որպեսզի ստեղծի տեքստ, որը նկարագրում է պատկերը ընկալիչի վերափորձարկիչի օգնությամբ:
Լեզուն ընկալող և տեքստը արտադրող մոդելի բաղադրիչը լեզվի ապակոդավորիչն է։ Հետևյալ բառը բառակապակցության մեջ կանխատեսելու համար մոդելը վարժեցվում է՝ օգտագործելով թե՛ միայն լեզվի, և թե՛ vision-plus լեզվի հրահանգներին հետևող տվյալները:
Սա մոդելին սովորեցնում է, թե ինչպես արձագանքել մարդկանց հրամաններին և տրամադրում է ընդունելի տեքստ նկարների նկարագրության համար:
Թիմ Հետևում
MultiModal-GPT-ն ստեղծվել է Microsoft Research Asia-ի հետազոտողների և ինժեներների թիմի կողմից՝ Տաո Գոնգի, Չենգկի Լյուի և Շիլոն Չժանի գլխավորությամբ: Յուդոն Վանգը, Միաո Չժենը, Ցիան Չժաոն, Կույկուն Լյուն, Վենվեյ Չժանը, Պինգ Լուոն և Քայ Չենը բոլորն էլ իրենց ներդրումն են ունեցել մոդելի ուսումնասիրության և զարգացման գործում:
Բնական լեզվի մշակում, համակարգչային տեսլականև մեքենայական ուսուցումը թիմի իրավասության բոլոր ոլորտներն են: Նրանք ունեն մի քանի հոդվածներ տպագրված բարձրակարգ գիտաժողովներում և հրապարակումներում, ինչպես նաև տարբեր պարգևներ և գովասանքներ իրենց գիտական ջանքերի համար:
Թիմի հետազոտությունը կենտրոնանում է նորագույն մոդելների և մոտեցումների մշակման վրա՝ մարդկանց և տեխնոլոգիաների միջև ավելի բնական և խելացի փոխազդեցություն ապահովելու համար:
Multi-modal-GPT-ի մշակումը ուշագրավ ձեռքբերում է ոլորտում, քանի որ այն առաջին մոդելներից է, որը համատեղում է տեսլականը և լեզուն մեկ շրջանակում բազմաբնույթ քննարկումների համար:
Թիմի ներդրումները MultiModal-GPT հետազոտության և զարգացման գործում կարող են էական ազդեցություն ունենալ բնական լեզվի մշակման և մարդ-մեքենա փոխազդեցության ապագայի վրա:
Ինչպես օգտագործել MultiModal-GPT
Սկսնակների համար MultiModal-GPT գործիքի օգտագործումը պարզ է: Պարզապես գնացեք https://mmgpt.openmmlab.org.cn/ և սեղմեք «Վերբեռնել պատկերը» կոճակը:
Ընտրեք նկարի ֆայլը վերբեռնելու համար, այնուհետև մուտքագրեք տեքստային հուշումը տեքստային դաշտում: Մոդելից պատասխան ստեղծելու համար սեղմեք «Ներկայացնել» կոճակը, որը կհայտնվի տեքստային դաշտի տակ:
Մոդելի հնարավորությունների մասին ավելին իմանալու համար կարող եք փորձարկել տարբեր լուսանկարներ և հրահանգներ:
Installing
MultiModal-GPT փաթեթը տեղադրելու համար օգտագործեք «git clone https://github.com/open-mmlab/Multimodal-GPT.git» տերմինալի հրամանը՝ պահեստը GitHub-ից կլոնավորելու համար: Դուք կարող եք պարզապես հետևել հետևյալ քայլերին.
git clone https://github.com/open-mmlab/Multimodal-GPT.git
cd Multimodal-GPT
pip install -r requirements.txt
pip install -v -e .
Որպես այլընտրանք, օգտագործեք conda env create -f environment.yml
ստեղծել նոր կոնդա միջավայր: Դուք կարող եք տեղական ցուցադրություն գործարկել այն տեղադրելուց հետո՝ ներբեռնելով նախապես պատրաստված կշիռները և դրանք պահելով անցակետերի թղթապանակում:
Gradio-ի ցուցադրությունը կարող է այնուհետև գործարկվել՝ գործարկելով «python app.py» հրամանը:
Հնարավոր թերություններ
MultiModal-GPT մոդելը դեռևս ունի թերություններ և զարգացման տեղ, չնայած իր գերազանց կատարողականությանը:
Օրինակ, բարդ կամ երկիմաստ վիզուալ մուտքերի հետ գործ ունենալիս, մոդելը միշտ չէ, որ կարող է ճանաչել և ըմբռնել մուտքագրման համատեքստը: Սա կարող է հանգեցնել մոդելի ոչ ճշգրիտ կանխատեսումների կամ արձագանքների:
Բացի այդ, հատկապես, երբ մուտքագրումը բարդ է կամ բաց է, մոդելը միշտ չէ, որ կարող է լավագույն արձագանքը կամ արդյունքը տալ: Մոդելի պատասխանի վրա, օրինակ, կարող է ազդվել այն բանից, թե որքան նման են երկու գրքերի շապիկները գրքի կազմի սխալ նույնականացման դեպքում:
Եզրափակում
Ընդհանուր առմամբ, MultiModal-GPT մոդելը մեծ առաջընթաց է ներկայացնում բնական լեզվի մշակման և մեքենայական ուսուցման գործում: Եվ շատ հետաքրքիր է օգտագործել այն և փորձարկել դրա հետ: Այսպիսով, դուք նույնպես պետք է փորձեք:
Այնուամենայնիվ, այն ունի սահմանափակումներ, ինչպես բոլոր մոդելները, և պահանջում է լրացուցիչ կատարելագործում և կատարելագործում` առավելագույն արդյունավետություն ստանալու համար մի շարք ծրագրերում և տիրույթներում:
Թողնել գրառում