Na e moomoo maimau pe ana mafai ona e talanoa ma se AI e malamalama uma i faʻamatalaga tautala ma vaʻaia? O le MultiModal-GPT paradigm e tu'ufa'atasia le fa'aogaina o le gagana ma le malamalama va'aia.
O lo'o ofoina mai ai le avanoa o feso'ota'iga sa'o ma fa'avasega tagata-komepiuta. TeleModal-GPT e mafai ona tu'uina atu fa'amatalaga fa'amatala, faitau mea ta'itasi, ma tali atu i fesili masani a tagata fa'aoga.
Ae, e faapefea ona ia faia lena mea? Ma, o le a se mea e mafai ona e faia i le MultiModal-GPT?
Se'i o tatou ave le tala i le amataga ma malamalama i mea e ono tutupu i o tatou luma.
Faatasi ai ma le tula'i mai o fa'ata'ita'iga gagana e pei o le GPT-4, o lo'o molimauina e tekinolosi fa'agaioiga gagana fa'alenatura se suiga. O mea fou e pei o le ChatGPT ua uma ona tuʻufaʻatasia i o tatou olaga.
Ma, e foliga mai o loʻo latou o mai pea!
GPT-4 ma Ona Tapulaa
GPT-4 ua faʻaalia le ofoofogia o le tomai i talanoaga faʻapitoa ma tagata. O suʻesuʻega na faia se taumafaiga e faʻaluaina lenei faʻatinoga, ae ona o le maualuga o le numera o faʻailoga ata, e aofia ai faʻataʻitaʻiga ma faʻamatalaga vaʻaia saʻo e mafai ona taugata faʻatusatusa.
O fa'ata'ita'iga o lo'o iai e le'o aofia ai le fa'aogaina o le gagana i totonu oa latou su'esu'ega, lea e fa'atapula'aina ai lo latou mafai ona auai i talanoaga e leai ni ata e teleturn.
Fausiaina i luga o Flamingo Framework
O se fa'ata'ita'iga fou ua ta'ua o le MultiModal-GPT na fa'atupuina ina ia mafai ai ona feso'ota'i ma tagata e fa'aoga uma gagana ma fa'ailoga va'aia.
Na faʻaaogaina e le au atinaʻe se polokalame e taʻua o le Flamingo auivi, lea na a'oa'oina muamua e malamalama i tusitusiga ma ata, ina ia mafai ai.
E manaʻomia e Flamingo ni suiga, e ui i lea, ona e le mafai ona faʻalauteleina talanoaga e aofia ai tusitusiga ma ata.
Ole fa'ata'ita'iga fou MultiModal-GPT e mafai ona aoina fa'amaumauga mai ata ma fa'afefiloi ma le gagana e malamalama ma fa'atino ai fa'atonuga a tagata.
TeleModal-GPT
MultiModal-GPT o se ituaiga o faʻataʻitaʻiga AI e mafai ona mulimulitaʻia suʻesuʻega a tagata e pei o le faʻamatalaina o mea faitino, faitau mea, ma taliina fesili. E malamalama ma mulimulita'i i fa'atonuga e fa'aoga ai le fefiloi o fa'amatalaga va'aia ma tautalaga.
Sa a'oa'oina e le au su'esu'e le fa'ata'ita'iga e fa'aaoga uma ai fa'amatalaga va'aia ma na'o gagana e fa'ateleina ai le malosi ole MultiModal-GPT e talanoa ai ma tagata. E lē gata i lea, na afua ai se suiga mataʻina i le auala na faatino ai lana lauga. Na i'u ai fo'i i se fa'aleleia mata'ina i le fa'atinoga o talanoaga.
Na latou iloa o le i ai o faʻamatalaga aʻoaʻoga maualuga e taua tele mo le lelei o talanoaga, aua o se faʻamaumauga laiti ma tali pupuu e mafai ai e le faʻataʻitaʻiga ona faia ni tali pupuu i soʻo se poloaiga.
O le a le mea e mafai ona e faia ile MultiModal-GPT?
Auai i Talanoaga
E pei o fa'ata'ita'iga gagana na sau muamua, o se tasi o uiga autu o le MultiModal-GPT o lona gafatia e auai i talanoaga fa'ale-natura. O lona uiga e mafai e tagata fa'atau ona fa'aogaina le fa'ata'ita'iga e pei lava ona latou faia ma se tagata moni.
Mo se faʻataʻitaʻiga, MultiModal-GPT e mafai ona tuʻuina atu i tagata faʻatau se fua faʻamatalaga mo le faia o saimini poʻo le fautuaina o faleaiga talafeagai mo le 'ai i fafo. E mafai fo'i e le fa'ata'ita'iga ona tali atu i fesili lautele e uiga i fa'amoemoega malaga a tagata fa'aoga.
Aloaia o Mea
MultiModal-GPT e mafai ona iloa mea i ata ma tali atu i fesili e uiga ia i latou. Mo se faʻataʻitaʻiga, e mafai e le faʻataʻitaʻiga ona iloa Freddie Mercury i se ata ma tali atu i fesili e uiga ia te ia.
E mafai foʻi ona faitau le aofaʻi o tagata taʻitoʻatasi ma faʻamatala mea o loʻo latou faia i se ata. O lenei mea e mafai ona iloagofie ai mea o loʻo i ai faʻaoga i vaega eseese, e aofia ai le e-commerce, soifua maloloina, ma le saogalemu.
MultiModal-GPT e mafai foi ona iloa tusitusiga i totonu o ata numera. O lona uiga e mafai e le faʻataʻitaʻiga ona faitau le tusitusiga i ata ma aveese faʻamatalaga aoga. E mafai, mo se faʻataʻitaʻiga, ona iloa mataitusi o se ata ma iloa ai le tusitala o se tusi.
O se meafaigaluega sili ona aoga mo le puleaina o pepa, fa'aogaina o fa'amaumauga, ma su'esu'ega o mea.
Mafaufauga ma Tupulaga o le Poto
Multi-modal-GPT e mafai ona fa'atatau ma maua ai le malamalama e uiga i le lalolagi. O lona uiga e mafai ona tu'uina atu fa'amatalaga atoatoa o ata ma ta'u atu fo'i le vaitau na pu'eina ai le ata.
O lenei tomai e aoga i matata eseese, e aofia ai le mataituina o le siosiomaga, faatoaga, ma le meteorology. O le fa'ata'ita'iga e mafai fo'i ona fa'atupuina mea fa'atupu e pei o solo, tala, ma pese, ma avea ai ma mea faigaluega lelei mo galuega fa'atino.
Galuega i totonu ole MultiModal-GPT
Fa'ata'ita'iga mo Fa'atonuga Tu'atasi
O loʻo tuʻuina atu e le 'au se faʻataʻitaʻiga e tasi mo le tuʻufaʻatasia o faʻamatalaga gagana unimodal ma faʻamatalaga vaʻaia-ma-gagana multimodal e aʻoaʻoina lelei ai le MultiModal-GPT faʻataʻitaʻiga i se faiga faʻatasi.
O lenei ta'iala tu'ufa'atasi o lo'o taumafai e fa'aleleia le fa'atinoga o le fa'ata'ita'iga i galuega eseese e ala i le fa'aogaina o agava'a fa'aopoopo o fa'amaumauga uma e lua ma fa'amalosia le malamalama atili i manatu fa'avae.
O fa'amaumauga a le Dolly 15k ma le Alpaca GPT4 o lo'o fa'aogaina e le 'au e fua ai le gagana-na'o le fa'atonuga-mulimuli tomai. O nei fa'amaumauga e fai ma fa'ata'ita'iga vave mo le fa'atulagaina o fa'amatalaga tu'ufa'atasi e fa'amautinoa ai se fa'atonuga e mulimuli ai.
Ata: Vaaiga lautele o Doly 15k dataset
E Fa'afefea ona Fa'aa'oa'oga?
E tolu vaega taua e fai a'e ai le MultiModal-GPT fa'ata'ita'iga: o le fa'aliliu gagana, se fa'ata'ita'i fa'amatalaga, ma le fa'ailoga va'ai. O le ata e ave i totonu e le vision encoder, ona faʻatupuina ai lea o se aofaʻiga o uiga e faʻaalia ai.
E fa'aaoga e le fa'aupuga gagana fa'amatalaga mai le fa'ailoga va'aiga e fai ai ni tusitusiga e fa'amatala ai le ata ma le fesoasoani a le tagata fa'alogo.
O le vaega o le fa'ata'ita'iga e malamalama i le gagana ma maua ai le tusitusiga o le gagana decoder. Ina ia vavalo le upu o loʻo i lalo i se fuaitau, o le faʻataʻitaʻiga e aʻoaʻoina e faʻaaoga uma le gagana-naʻo ma le vaʻai-faʻaopoopo i le gagana faʻatonuga-mulimuli faʻamatalaga.
O lo'o a'oa'oina ai le fa'ata'ita'iga pe fa'apefea ona tali atu i fa'atonuga mai tagata ma tu'uina atu le fa'amatalaga talafeagai mo fa'amatalaga ata.
Au i tua
O le MultiModal-GPT na faia e se 'au a Microsoft Research Asia suʻesuʻe ma inisinia taʻitaʻia e Tao Gong, Chengqi Lyu, ma Shilong Zhang. Yudong Wang, Miao Zheng, Qian Zhao, Kuikun Liu, Wenwei Zhang, Ping Luo, ma Kai Chen na saofagā uma i le suʻesuʻega ma le atinaʻeina o le faʻataʻitaʻiga.
Fa'aanatura gagana, mataʻitusi komepiuta, ma a'oa'oga masini o vaega uma ia o le agava'a mo le 'au. E tele a latou tala fa'asalalauina i koneferenisi pito i luga ma fa'asalalauga, fa'apea fo'i fa'aaloaloga ma fa'ailoga eseese mo a latou taumafaiga fa'asaienisi.
O suʻesuʻega a le 'au e taulaʻi i le atinaʻeina o faʻataʻitaʻiga faʻataʻitaʻiga ma auala e mafai ai ona sili atu fegalegaleaiga masani ma le atamai i le va o tagata ma tekinolosi.
Multi-modal-GPT atina'e ose mata'ina ausia i le fanua talu ai o se tasi lea o fa'ata'ita'iga muamua e tu'ufa'atasia le va'ai ma le gagana i se auivi e tasi mo le tele-ta'amilo talanoaga.
O sao a le 'au i su'esu'ega ma atina'e a le MultiModal-GPT e mafai ona i ai se aafiaga tele i le lumana'i o le fa'agaioiina o gagana fa'anatura ma fegalegaleaiga a tagata-masini.
Fa'afefea ona fa'aoga MultiModal-GPT
Mo tagata amata, faʻaaogaina le MultiModal-GPT meafaigaluega e faigofie. Na'o le alu i https://mmgpt.openmmlab.org.cn/ ma fetaomi le "Upload Image" faamau.
Filifili le faila o ata e lafo, ona lolomi lea o le fa'atonuga o tusitusiga i totonu o le fanua o tusitusiga. Ina ia fatuina se tali mai le faʻataʻitaʻiga, kiliki le "Submit" button, lea o le a faʻaalia i lalo ifo o le fanua o tusitusiga.
E mafai ona e fa'ata'ita'i i ata 'ese'ese ma fa'atonuga e a'oa'o atili e uiga i le gafatia o le fa'ata'ita'iga.
Faʻapipiʻiina
Ina ia faʻapipiʻi le MultiModal-GPT afifi, faʻaoga le faʻatonuga faʻatonu "git clone https://github.com/open-mmlab/Multimodal-GPT.git" e faʻapipiʻi ai le faleoloa mai GitHub. E mafai ona e mulimuli i laasaga nei:
git clone https://github.com/open-mmlab/Multimodal-GPT.git
cd Multimodal-GPT
pip install -r requirements.txt
pip install -v -e .
I le isi itu, faʻaaoga conda env create -f environment.yml
e fa'atuina se si'osi'omaga fou. E mafai ona e fa'ata'ita'iina le fa'ata'ita'iga i le lotoifale pe a uma ona fa'apipi'i e ala i le la'uina o le mamafa na mua'i a'oa'oina ma teu i totonu o le pusa siaki.
O le Gradio demo e mafai ona faʻalauiloa e ala i le faʻatonuina o le "python app.py".
Fa'aletonu e ono tula'i mai
O le MultiModal-GPT faʻataʻitaʻiga o loʻo i ai pea ni faaletonu ma avanoa mo le atinaʻe e ui lava i lona tulaga sili ona lelei.
Mo se fa'ata'ita'iga, pe a fa'atatau i mea fa'atino lavelave po'o fa'alavelave va'aia, atonu e le mafai e le fa'ata'ita'iga ona iloa ma malamalama i taimi uma le tala'aga o le fa'aoga. E ono tula'i mai ai ni valo'aga le sa'o po'o ni tali mai le fa'ata'ita'iga.
E le gata i lea, ae maise lava pe a lavelave pe fa'amatala le fa'aoga, o le fa'ata'ita'iga e le mafai ona maua i taimi uma se tali sili po'o se i'uga. O le tali a le faʻataʻitaʻiga, mo se faʻataʻitaʻiga, atonu na aʻafia i le tutusa o foliga o faavaa tusi e lua i le tulaga o le faʻamaonia sese o se faavaa tusi.
iʻuga
I le aotelega, o le MultiModal-GPT faʻataʻitaʻiga o loʻo faʻatusalia se laʻasaga tele i luma i le faʻaogaina o le gagana masani ma le aʻoaʻoina o masini. Ma, e manaia tele le faʻaaogaina ma faʻataʻitaʻi i ai. O lea la, e tatau foi ona e taumafai!
Ae ui i lea, o loʻo i ai tapulaʻa, e pei o faʻataʻitaʻiga uma, ma manaʻomia le faʻaleleia atili ma le faʻaleleia atili e maua ai le maualuga o le faʻatinoga i le tele o talosaga ma vaega.
Tuua se tali