MultiModal-GPT: Një kufi i ri në integrimin e gjuhës dhe vizionit

A keni dashur ndonjëherë që të mund të bisedoni me një AI që kupton të dhëna të folura dhe vizuale? Paradigma MultiModal-GPT kombinon përpunimin e gjuhës me kuptimin vizual.

Ai ofron mundësinë e ndërveprimit të saktë dhe të larmishëm njeri-kompjuter. MultiModal-GPT mund të ofrojë tituj përshkrues, të numërojë artikuj individualë dhe t'u përgjigjet pyetjeve të përgjithshme të përdoruesit.

Por, si e bën këtë? Dhe, çfarë mund të bëni me MultiModal-GPT?

Le ta çojmë historinë në fillim dhe të kuptojmë mundësitë që kemi përpara.

Me shfaqjen e modeleve gjuhësore si GPT-4, teknologjitë e përpunimit të gjuhës natyrore po dëshmojnë një revolucion. Inovacione si ChatGPT tashmë janë përfshirë në jetën tonë.

Dhe, ata duket se vazhdojnë të vijnë!

GPT-4 dhe kufizimet e tij

GPT-4 ka treguar aftësi të mahnitshme në bisedat multimodale me njerëzit. Studimet kanë bërë një përpjekje për të dyfishuar këtë performancë, por për shkak të numrit potencialisht të lartë të shenjave të figurës, duke përfshirë modele me informacion të saktë vizual mund të jetë i kushtueshëm llogaritës.

Modelet ekzistuese gjithashtu nuk përfshijnë akordimin e udhëzimeve gjuhësore në studimin e tyre, gjë që kufizon aftësinë e tyre për të marrë pjesë në bisedat e imazhit dhe tekstit me shumë kthesa zero.

Ndërtimi mbi Kornizën Flamingo

Një model i ri i quajtur MultiModal-GPT u zhvillua për të mundësuar komunikimin me njerëzit duke përdorur sinjale gjuhësore dhe vizuale.

Zhvilluesit përdorën një program të quajtur Korniza e flamingos, e cila më parë ishte trajnuar për të kuptuar tekstin dhe pamjet, për ta bërë këtë të realizueshme.

Korniza e Flamingos

Flamingo kishte nevojë për disa ndryshime, megjithatë, pasi nuk ishte në gjendje të kishte dialogë të zgjeruar që përfshinin tekst dhe pamje.

Modeli i përditësuar MultiModal-GPT mund të mbledhë të dhëna nga fotot dhe t'i përziejë ato me gjuhën për të kuptuar dhe zbatuar komandat njerëzore.

MultiModal-GPT

MultiModal-GPT është një lloj modeli i AI që mund të ndjekë pyetje të ndryshme njerëzore si përshkrimi i pamjeve vizuale, numërimi i artikujve dhe përgjigjja e pyetjeve. Ai kupton dhe ndjek urdhrat duke përdorur një përzierje të të dhënave vizuale dhe verbale.

Studiuesit e trajnuan modelin duke përdorur të dhëna vizuale dhe vetëm gjuhësore për të rritur kapacitetin e MultiModal-GPT për të biseduar me njerëzit. Për më tepër, ai shkaktoi një përmirësim të dukshëm në mënyrën se si u zhvillua ligjërimi i tij. Ai rezultoi gjithashtu në një përmirësim të dukshëm në performancën e bisedës.

Ata zbuluan se të kesh të dhëna trajnimi me cilësi të lartë është kritike për performancën e mirë të bisedës, sepse një grup i vogël të dhënash me përgjigje të shkurtra mund t'i mundësojë modelit të krijojë përgjigje më të shkurtra për çdo komandë.

Çfarë mund të bëni me MultiModal-GPT?

Angazhimi në Biseda

Ashtu si modelet gjuhësore që dolën më parë, një nga karakteristikat kryesore të MultiModal-GPT është aftësia e tij për t'u përfshirë në diskutime të gjuhës natyrore. Kjo nënkupton që konsumatorët mund të angazhohen me modelin ashtu si do të angazhoheshin me një person real.

Për shembull, MultiModal-GPT mund t'u japë klientëve një recetë të detajuar për të bërë petë ose të rekomandojë restorante të mundshme për të ngrënë jashtë. Modeli është gjithashtu i aftë t'u përgjigjet pyetjeve të përgjithshme në lidhje me qëllimet e udhëtimit të përdoruesve.

Petë

Njohja e objekteve

MultiModal-GPT mund të njohë gjërat në foto dhe t'u përgjigjet pyetjeve rreth tyre. Për shembull, modelja mund të njohë Freddie Mercury në një imazh dhe t'u përgjigjet pyetjeve rreth tij.

Mund të numërojë gjithashtu numrin e individëve dhe të shpjegojë se çfarë po bëjnë në një foto. Ky kapacitet identifikimi i objektit ka aplikime në një sërë fushash, duke përfshirë tregtinë elektronike, kujdesin shëndetësor dhe sigurinë.

Shembull

MultiModal-GPT gjithashtu mund të njohë tekstin brenda fotografive dixhitale. Kjo nënkupton që modeli mund të lexojë tekstin në foto dhe të nxjerrë të dhëna të dobishme. Për shembull, mund të zbulojë personazhet në një imazh dhe të identifikojë autorin e një libri.

Është një mjet jashtëzakonisht i dobishëm për menaxhimin dokument, futja e të dhënave dhe analiza e përmbajtjes.

Gandalf

Arsyetimi dhe Gjenerimi i Dijes

Multi-modal-GPT mund të arsyetojë dhe të prodhojë njohuri për botën. Kjo do të thotë se mund të ofrojë shpjegime të plota të fotografive dhe madje t'u tregojë atyre se në cilën sezone është marrë imazhi.

Kjo aftësi është e dobishme në një sërë disiplinash, duke përfshirë monitorimin e mjedisit, bujqësinë dhe meteorologjinë. Modeli mund të gjenerojë gjithashtu gjëra krijuese si poezi, përralla dhe këngë, duke e bërë atë një mjet të shkëlqyer për detyra krijuese.

Punimet e brendshme të MultiModal-GPT

Modeli për Udhëzimet e Unifikuara

Ekipi paraqet një shabllon të vetëm për integrimin e të dhënave gjuhësore unimodale dhe të dhënave multimodale të vizionit dhe gjuhës për të trajnuar siç duhet modelin MultiModal-GPT në një mënyrë sinergjike.

Kjo strategji e kombinuar përpiqet të përmirësojë performancën e modelit në një sërë detyrash duke shfrytëzuar aftësitë plotësuese të të dy modaliteteve të të dhënave dhe duke inkurajuar një kuptim më të thellë të ideve themelore.

Të dhënat e Dolly 15k dhe Alpaca GPT4 përdoren nga ekipi për të matur aftësitë e ndjekjes së udhëzimeve vetëm për gjuhën. Këto grupe të dhënash veprojnë si një shabllon i shpejtë për strukturimin e hyrjes së të dhënave për të garantuar një format të qëndrueshëm të ndjekjes së udhëzimeve.

Përmbledhje e grupit të të dhënave Dolly 15k

Imazhi: Përmbledhje e të dhënave të Doly 15k

Si funksionon modeli?

Tre komponentë kryesorë përbëjnë modelin MultiModal-GPT: një dekoder gjuhësor, një ri-shembullues perceptues dhe një kodues vizioni. Imazhi merret nga koduesi i vizionit, i cili më pas gjeneron një koleksion karakteristikash që e karakterizojnë atë.

Dekoderi i gjuhës përdor informacionin nga koduesi i vizionit për të krijuar tekst që përshkruan imazhin me ndihmën e rimostruesit të perceptuesit.

Komponenti i modelit që kupton gjuhën dhe prodhon tekstin është dekoderi i gjuhës. Për të parashikuar fjalën e mëposhtme në një frazë, modeli është trajnuar duke përdorur të dhëna vetëm për gjuhën dhe vizion-plus udhëzime gjuhësore.

Kjo i mëson modelit se si të reagojë ndaj komandave nga njerëzit dhe ofron tekstin e pranueshëm për përshkrimet e figurave.

Model

Ekipi prapa

MultiModal-GPT u krijua nga një ekip studiuesish dhe inxhinierësh të Microsoft Research Azi të udhëhequr nga Tao Gong, Chengqi Lyu dhe Shilong Zhang. Yudong Wang, Miao Zheng, Qian Zhao, Kuikun Liu, Wenwei Zhang, Ping Luo dhe Kai Chen të gjithë kontribuan në studimin dhe zhvillimin e modelit.

Përpunimi i gjuhës natyrore, vizion kompjuteri, dhe mësimi i makinerive janë të gjitha fushat e kompetencës për ekipin. Ata kanë disa artikuj të botuar në konferenca dhe botime të nivelit të lartë, si dhe nderime dhe vlerësime të ndryshme për përpjekjet e tyre shkencore.

Hulumtimi i ekipit fokusohet në zhvillimin e modeleve dhe qasjeve më të fundit për të mundësuar ndërveprime më të natyrshme dhe inteligjente midis njerëzve dhe teknologjisë.

Zhvillimi multi-modal-GPT është një arritje e rëndësishme në këtë fushë pasi është një nga modelet e para që kombinon vizionin dhe gjuhën në një kornizë të vetme për diskutime të shumëfishta.

Kontributet e ekipit në kërkimin dhe zhvillimin MultiModal-GPT kanë potencialin të kenë një ndikim thelbësor në të ardhmen e përpunimit të gjuhës natyrore dhe ndërveprimeve njeri-makinë.

Si të përdorni MultiModal-GPT

Për fillestarët, përdorimi i mjetit MultiModal-GPT është i thjeshtë. Thjesht shkoni te https://mmgpt.openmmlab.org.cn/ dhe shtypni butonin "Ngarko imazhin".

Zgjidhni skedarin e figurës për të ngarkuar dhe më pas shkruani kërkesën e tekstit në fushën e tekstit. Për të krijuar një përgjigje nga modeli, klikoni butonin "Dërgo", i cili do të shfaqet poshtë fushës së tekstit.

Ju mund të eksperimentoni me foto dhe udhëzime të ndryshme për të mësuar më shumë rreth aftësive të modelit.

Ndërfaqja 1

Instalimi

Për të instaluar paketën MultiModal-GPT, përdorni komandën e terminalit "git clone https://github.com/open-mmlab/Multimodal-GPT.git" për të klonuar depon nga GitHub. Ju thjesht mund të ndiqni këto hapa:

git clone https://github.com/open-mmlab/Multimodal-GPT.git

cd Multimodal-GPT

pip install -r requirements.txt

pip install -v -e .

Përndryshe, përdorni conda env create -f environment.yml për të krijuar një mjedis të ri konda. Mund ta ekzekutoni demonstrimin në nivel lokal pasi ta instaloni duke shkarkuar peshat e trajnuara paraprakisht dhe duke i ruajtur ato në dosjen e pikave të kontrollit.

Demoja e Gradio më pas mund të nisë duke ekzekutuar komandën "python app.py".

Të metat e mundshme

Modeli MultiModal-GPT ka ende të meta dhe hapësirë për zhvillim, pavarësisht performancës së tij të shkëlqyer.

Për shembull, kur kemi të bëjmë me inpute vizuale të komplikuara ose të paqarta, modeli mund të mos jetë gjithmonë në gjendje të njohë dhe të kuptojë kontekstin e hyrjes. Kjo mund të rezultojë në parashikime ose reagime të pasakta nga modeli.

Për më tepër, veçanërisht kur hyrja është e komplikuar ose e hapur, modeli mund të mos prodhojë gjithmonë reagimin ose rezultatin më të mirë. Përgjigja e modeles, për shembull, mund të jetë ndikuar nga sa të ngjashme dukeshin kopertinat e dy librave në rastin e identifikimit të gabuar të kopertinës së librit.

Përfundim

Në përgjithësi, modeli MultiModal-GPT përfaqëson një hap të madh përpara në përpunimin e gjuhës natyrore dhe mësimin e makinerive. Dhe, është shumë emocionuese ta përdorësh dhe të eksperimentosh me të. Pra, duhet ta provoni ose!

Megjithatë, ai ka kufizime, si të gjitha modelet, dhe kërkon rafinim dhe përmirësim shtesë për të marrë performancën maksimale në një sërë aplikacionesh dhe fushash.