MultiModal-GPT: Frontier vaovao amin'ny fampidirana fiteny sy fahitana

Efa naniry ve ianao fa afaka niresaka tamin'ny AI iray izay mahatakatra ny angona am-bava sy hita maso? Ny paradigma MultiModal-GPT dia manambatra ny fanodinana fiteny amin'ny fahatakarana hita maso.

Izy io dia manolotra ny mety hisian'ny fifandraisana marina sy isan-karazany amin'ny olombelona-solosaina. MultiModal-GPT afaka manome dikan-teny mamaritra, manisa singa tsirairay, ary mamaly ny fanontanian'ny mpampiasa ankapobeny.

Ahoana anefa no hanaovana izany? Ary, inona no azonao atao amin'ny MultiModal-GPT?

Andeha hojerentsika any am-piandohana ny tantara ary hahatakatra ny zavatra mety hitranga.

Miaraka amin'ny fiposahan'ny maodely fiteny toa ny GPT-4, ny teknolojia fanodinana fiteny voajanahary dia mahita revolisiona. Ny fanavaozana toa ny ChatGPT dia efa tafiditra ao anatin'ny fiainantsika.

Ary, toa mitohy hatrany izy ireo!

GPT-4 sy ny fetrany

GPT-4 dia nampiseho fahaiza-manao mahagaga amin'ny resaka multimodal amin'ny olona. Nanao ezaka ny fanadihadiana mba hamerenana an'io zava-bita io, saingy noho ny habetsahan'ny mari-pamantarana sary, anisan'izany ny modely misy fampahalalana mazava tsara dia mety ho lafo amin'ny kajy.

Ny maodely efa misy koa dia tsy mampiditra fampitaovana fampianarana fiteny amin'ny fianarany, izay mametra ny fahafahan'izy ireo mandray anjara amin'ny resadresaka amin'ny sary an-tsary tsy misy tifitra.

Miorina amin'ny Framework Flamingo

Ny maodely vaovao antsoina hoe MultiModal-GPT dia novolavolaina mba ahafahana mifandray amin'ny olona mampiasa ny linguistika sy hita maso.

Nampiasa programa antsoina hoe the Flamingo framework, izay niofana teo aloha mba hahatakarana ny soratra sy ny sary, mba hahatanteraka izany.

Flamingo Framework

Nila fiovana vitsivitsy anefa i Flamingo, satria tsy afaka nanao fifanakalozan-dresaka nitarina izay nahitana lahatsoratra sy sary.

Ny maodely MultiModal-GPT nohavaozina dia afaka manangona angona avy amin'ny sary ary mampifangaro izany amin'ny fiteny mba hahazoana sy hanatanterahana ny baikon'olombelona.

MultiModal-GPT

MultiModal-GPT dia karazana maodely AI izay afaka manaraka ny fanontanian'olombelona isan-karazany toy ny famaritana sary, fanisana entana ary famaliana fanontaniana. Mahatakatra sy manaraka baiko izy io amin'ny fampiasana angona hita maso sy am-bava.

Ny mpikaroka dia nampiofana ilay maodely mampiasa angona hita maso sy fiteny ihany mba hampitomboana ny fahafahan'ny MultiModal-GPT hiresaka amin'ny olona. Fanampin'izany, dia niteraka fanatsarana miharihary ny fomba nanaovana ny lahateniny. Niteraka fanatsarana miharihary ihany koa izany teo amin'ny fahombiazan'ny resaka.

Hitan'izy ireo fa ny fananana angon-drakitra fanofanana avo lenta dia tena ilaina amin'ny fampandehanana resaka tsara, satria ny angona kely misy valiny fohy dia mety ahafahan'ny modely mamorona valiny fohy kokoa amin'ny baiko rehetra.

Inona no azonao atao amin'ny MultiModal-GPT?

Mandray anjara amin'ny resaka

Tahaka ireo maodely fiteny teo aloha, ny iray amin'ireo toetran'ny MultiModal-GPT voalohany dia ny fahafahany mandray anjara amin'ny fifanakalozan-kevitra momba ny fiteny voajanahary. Midika izany fa ny mpanjifa dia afaka mifandray amin'ny modely toy ny amin'ny olona tena izy.

Ohatra, MultiModal-GPT dia afaka manome mpanjifa fomba fanamboarana amin'ny antsipiriany amin'ny fanaovana paty na manoro trano fisakafoanana azo atao hisakafoana. Mahay mamaly fanontaniana ankapobeny momba ny fikasan'ny mpiserasera ihany koa ilay modely.

paty

Fanekena ny zavatra

MultiModal-GPT dia afaka mamantatra zavatra amin'ny sary ary mamaly fanontaniana momba azy ireo. Ohatra, ny modely dia afaka mahafantatra an'i Freddie Mercury amin'ny sary iray ary mamaly fanontaniana momba azy.

Afaka manisa ny isan'ny olona koa izy io ary manazava ny zavatra ataony amin'ny sary. Ity fahaiza-manavaka zavatra ity dia manana fampiharana amin'ny sehatra isan-karazany, ao anatin'izany ny e-varotra, ny fitsaboana ary ny fiarovana.

ohatra

MultiModal-GPT dia afaka mamantatra lahatsoratra ao anaty sary nomerika. Midika izany fa afaka mamaky ny lahatsoratra amin'ny sary ny maodely ary maka angona mahasoa. Mety, ohatra, ny mamantatra ireo endri-tsoratra amin'ny sary iray ary mamantatra ny mpanoratra boky iray.

Izy io dia fitaovana tena ilaina amin'ny fanaraha-maso ny taratasy, fampidirana angona ary famakafakana votoaty.

Gandalf

Fanjohian-kevitra sy Famokarana fahalalana

Multi-modal-GPT dia afaka misaina sy mamokatra fahalalana momba an'izao tontolo izao. Midika izany fa afaka manome fanazavana feno momba ny sary izy ary milaza amin'izy ireo ny vanim-potoana nanaovana ilay sary.

Ity fahaiza-manao ity dia ilaina amin'ny taranja isan-karazany, ao anatin'izany ny fanaraha-maso ny tontolo iainana, ny fambolena ary ny meteorolojia. Ny modely dia afaka mamorona zava-mamorona toy ny tononkalo, tantara ary hira, ka mahatonga azy io ho fitaovana tsara indrindra amin'ny asa famoronana.

Ny asa anatiny amin'ny MultiModal-GPT

Modely ho an'ny Torolalana Mitambatra

Ny ekipa dia manolotra môdely tokana ho an'ny fampidirana ny angona momba ny fiteny unimodal sy ny angon-drakitra vision-and-language multimodal mba hampiofanana tsara ny maodely MultiModal-GPT amin'ny fomba synergistic.

Ity paikady mitambatra ity dia manandrana manatsara ny fahombiazan'ny modely amin'ny asa isan-karazany amin'ny alàlan'ny fanararaotana ny fahaiza-manaon'ireo fomba amam-panao angon-drakitra ary mamporisika ny fahatakarana lalindalina kokoa ny hevitra fototra.

Ny angona Dolly 15k sy Alpaca GPT4 dia ampiasain'ny ekipa handrefesana ny fahaiza-manaraka fampianarana amin'ny fiteny ihany. Ireo angon-drakitra ireo dia miasa ho toy ny maodely haingana amin'ny fandrafetana ny fampidirana angon-drakitra mba hiantohana ny endrika manaraka toromarika tsy tapaka.

Dolly 15k Dataset Overview

Sary: Overview of Doly 15k dataset

Ahoana no fiasan'ny modely?

Singa fototra telo no mandrafitra ny maodely MultiModal-GPT: decoder amin'ny fiteny, resampler perceiver ary encoder vision. Ny sary dia alaina amin'ny alàlan'ny vision encoder, izay avy eo dia miteraka fitambarana toetra mampiavaka azy.

Ny decoder amin'ny fiteny dia mampiasa ny fampahalalana avy amin'ny vision encoder mba hamoronana lahatsoratra izay mamaritra ny sary miaraka amin'ny fanampian'ny resampler perceiver.

Ny singa amin'ny maodely mahatakatra ny fiteny sy mamokatra ny lahatsoratra dia ny decoder amin'ny fiteny. Mba haminavina ity teny manaraka ity amin'ny fehezanteny iray, dia ampiofanina amin'ny fampiasana ny angona manaraka amin'ny fampianarana amin'ny fiteny sy amin'ny fiteny vision-plus ny modely.

Izany dia mampianatra ny modely ny fomba fanehoana ny baiko avy amin'ny olombelona ary manome ny lahatsoratra azo ekena ho an'ny famaritana sary.

modely

Ekipa ao ambadika

Ny MultiModal-GPT dia noforonin'ny ekipa mpikaroka sy injeniera Microsoft Research Asia notarihin'i Tao Gong, Chengqi Lyu, ary Shilong Zhang. Yudong Wang, Miao Zheng, Qian Zhao, Kuikun Liu, Wenwei Zhang, Ping Luo, ary Kai Chen dia samy nandray anjara tamin'ny fandalinana sy ny fampandrosoana ny modely.

Fanodinana ny fiteny voajanahary, fahitana computer, ary ny fianarana milina dia sehatry ny fahaiza-manao rehetra ho an'ny ekipa. Manana lahatsoratra maromaro navoaka tao amin'ny kaonferansa sy famoaham-boky ambony izy ireo, ary koa ny voninahitra sy ny fankasitrahana isan-karazany noho ny ezaka ara-tsiansa nataony.

Ny fikarohana ataon'ny ekipa dia mifantoka amin'ny famolavolana modely sy fomba fiasa manara-penitra mba ahafahana mifandray amin'ny voajanahary sy manan-tsaina kokoa eo amin'ny olombelona sy ny teknolojia.

Ny fampandrosoana ny multi-modal-GPT dia zava-bita tsara indrindra eo amin'ny sehatra satria izy io no iray amin'ireo modely voalohany nampifangaro ny vina sy ny fiteny ao anaty rafitra tokana ho an'ny fifanakalozan-dresaka marobe.

Ny fandraisan'ny ekipa anjara amin'ny fikarohana sy fampandrosoana MultiModal-GPT dia mety hisy fiantraikany lehibe amin'ny hoavin'ny fanodinana fiteny voajanahary sy ny fifandraisan'ny olombelona amin'ny milina.

Ahoana ny fampiasana MultiModal-GPT

Ho an'ireo vao manomboka dia tsotra ny fampiasana ny fitaovana MultiModal-GPT. Mandehana fotsiny https://mmgpt.openmmlab.org.cn/ ary tsindrio ny bokotra "Upload Image".

Safidio ny rakitra sary halefa, ary soraty ao amin'ny saha lahatsoratra ny bitsika lahatsoratra. Mba hamoronana valiny avy amin'ny modely, tsindrio ny bokotra "Alefaso", izay hiseho eo ambanin'ny saha lahatsoratra.

Azonao atao ny manandrana sary sy torolalana samihafa mba hianarana bebe kokoa momba ny fahaizan'ilay modely.

Interface 1

fametrahana

Raha hametraka ny fonosana MultiModal-GPT dia ampiasao ny baiko terminal "git clone https://github.com/open-mmlab/Multimodal-GPT.git" mba hametahana ny tahiry avy amin'ny GitHub. Azonao atao ny manaraka ireto dingana ireto:

git clone https://github.com/open-mmlab/Multimodal-GPT.git

cd Multimodal-GPT

pip install -r requirements.txt

pip install -v -e .

Raha tsy izany, ampiasao conda env create -f environment.yml mba hananganana tontolo iainana conda vaovao. Azonao atao ny mampandeha ny demo eo an-toerana aorian'ny fametrahana azy amin'ny alàlan'ny fampidinana ireo lanja efa voaofana ary tehirizina ao amin'ny lahatahiry fisavana.

Ny demo Gradio dia azo atomboka amin'ny alàlan'ny fandefasana ny baiko "python app.py".

Mety ho lesoka

Ny modely MultiModal-GPT dia mbola manana lesoka sy toerana ho an'ny fampandrosoana na dia eo aza ny fahombiazany.

Ohatra, rehefa miatrika fampidiran-dresaka sarotra na tsy mazava, ny modely dia mety tsy ho afaka hamantatra sy hahatakatra ny tontolon'ny fampidirana. Mety hiteraka vinavina na fanehoan-kevitra tsy marina avy amin'ny modely izany.

Fanampin'izany, indrindra rehefa sarotra na misokatra ny fidirana, ny modely dia mety tsy hamokatra fanehoan-kevitra na vokatra tsara indrindra. Ny valin'ny modely, ohatra, dia mety hisy fiantraikany amin'ny fitovian'ny fonon'ny boky roa amin'ny trangan'ny famantarana diso ny fonon-boky.

Famaranana

Amin'ny ankapobeny, ny maodely MultiModal-GPT dia maneho dingana lehibe amin'ny fanodinana fiteny voajanahary sy fianarana milina. Ary, tena mampientam-po ny mampiasa azy io sy manandrana azy. Noho izany, tokony hanandrana izany koa ianao!

Na izany aza, misy fetrany, toy ny modely rehetra, ary mitaky fanatsarana sy fanatsarana fanampiny mba hahazoana fahombiazana ambony indrindra amin'ny fampiharana sy sehatra isan-karazany.