Weligaa ma jeclayd inaad la hadasho AI oo fahma xogta hadalka iyo muuqaalka labadaba? Qaabka MultiModal-GPT wuxuu isku daraa habaynta luqadda iyo fahamka aragga.
Waxay bixisaa suurtagalnimada is-dhexgalka aadanaha iyo kombuyuutarrada kala duwan ee saxda ah. MultiModal-GPT wuxuu bixin karaa qoraallo sharraxaad ah, tirin kara shay gaar ah, oo ka jawaabi kara su'aalaha isticmaalaha guud.
Laakiin, sidee ayay taasi u samaynaysaa? Iyo, maxaad ku samayn kartaa MultiModal-GPT?
Aan sheekada u qaadno bilawga, oo aynu fahanno suurtogalnimada innagu soo fool leh.
Soo ifbaxa moodooyinka luqadaha sida GPT-4, tignoolajiyada habaynta luqadda dabiiciga ah ayaa markhaati ka ah kacdoon. Hal-abuurka sida ChatGPT ayaa mar hore lagu daray nolosheena.
Oo, waxay u muuqdaan inay sii wadaan soo socda!
GPT-4 iyo xadadkeeda
GPT-4 waxay muujisay karti la yaab leh oo ku saabsan wada sheekeysiga hababka kala duwan ee dadka. Daraasaduhu waxay sameeyeen dadaal ay ku nuqulanayaan waxqabadkan, laakiin sababtoo ah tirada suurtagalka ah ee calaamadaha sawirka, oo ay ku jiraan moodooyinka leh macluumaadka muuqaalka saxda ah waxay noqon karaan xisaab ahaan qaali.
Moodooyinka jira sidoo kale kuma jiraan hagaajinta barashada luqadda daraasaddooda, taas oo xaddidaysa awooddooda ka qaybgalka wada sheekaysiga sawir-qoraalka ee eber-shot-ka badan.
Ku Dhisida Qaabdhismeedka Flamingo
Nooc cusub oo la yiraahdo MultiModal-GPT ayaa la sameeyay si uu awood ugu yeesho la xiriirka dadka isticmaalaya tilmaamo af iyo muuqaal labadaba.
Horumariyayaashu waxay shaqaaleeyeen barnaamij la yiraahdo Qaab dhismeedka Flamingo, kaas oo hore loogu tababari jiray fahamka qoraalka iyo muuqaalka labadaba, si ay taasi u suurto gasho.
Flamingo waxa ay u baahday xoogaa isbedelo ah, in kastoo, ay awoodi wayday in ay yeelato wada hadal dheer oo ay ku jiraan qoraal iyo muuqaal.
Qaabka MultiModal-GPT ee la cusboonaysiiyay wuxuu ka soo ururin karaa xogta sawirrada wuxuuna ku qasi karaa luqadda si loo fahmo oo loo fuliyo amarrada aadanaha.
MultiModal-GPT
MultiModal-GPT waa nooc ka mid ah moodalka AI kaas oo raaci kara weydiimaha aadanaha ee kala duwan sida sharraxaadda muuqaallada, tirinta walxaha, iyo ka jawaabista su'aalaha. Waxay fahmeysaa oo raacdaa amarada iyadoo adeegsaneysa xog muuqaal iyo mid hadal ah oo isku dhafan.
Cilmi-baadhayaashu waxay tababareen qaabka iyaga oo isticmaalaya xogta muuqaalka iyo luqadda-kaliya si ay u kordhiyaan awoodda MultiModal-GPT ee la sheekeysiga dadka. Intaa waxaa dheer, waxay keentay horumar la dareemi karo oo ku saabsan habka loo qabtay hadalkeeda. Waxa kale oo ay keentay horumar la dareemi karo oo ku yimi waxqabadkeeda wada sheekaysiga.
Waxay ogaadeen in haysashada xogta tababbarka tayada sare leh ay muhiim u tahay waxqabadka wada sheekeysiga wanaagsan, sababtoo ah xog yar oo leh jawaabo gaagaaban ayaa laga yaabaa inay awood u siiso qaabka inuu abuuro jawaabo gaaban amar kasta.
Maxaad ku samayn kartaa MultiModal-GPT?
Ka qayb qaadashada Wadahadalada
Si la mid ah moodooyinka luqadda ee ka hor, mid ka mid ah MultiModal-GPT astaamihiisa asaasiga ah waa awooda ay ku lug leedahay doodaha luqadda dabiiciga ah. Tani waxay tusinaysaa in macaamiishu ay la macaamili karaan moodeelka sida ay ula macaamili doonaan qof dhab ah.
Tusaale ahaan, MultiModal-GPT waxay macaamiisha siin kartaa cunto karinta tifaftiran ee samaynta baasto ama waxay kugula talin kartaa makhaayadaha suurtogalka ah ee wax laga cuno. Qaabka ayaa sidoo kale awood u leh inuu ka jawaabo su'aalaha guud ee ku saabsan ujeedooyinka safarka isticmaalayaasha.
Aqoonsiga Shayada
MultiModal-GPT waxay garan kartaa waxyaabaha sawirada ku jira waxayna ka jawaabi kartaa su'aalaha ku saabsan iyaga. Tusaale ahaan, moodelku waxa uu ku aqoonsan karaa Freddie Mercury sawirka kana jawaabi kara su'aalaha isaga ku saabsan.
Waxa kale oo ay tirin kartaa tirada shakhsiyaadka oo ay ku sharaxi kartaa waxa ay samaynayaan sawir. Awoodda aqoonsiga shayga ayaa leh codsiyo dhinacyo kala duwan ah, oo ay ku jiraan ganacsiga e-commerce, daryeelka caafimaadka, iyo amniga.
MultiModal-GPT waxay sidoo kale aqoonsan kartaa qoraalka gudaha sawirada dhijitaalka ah. Tani waxay ka dhigan tahay in moodalku uu akhrin karo qoraalka sawirada oo uu soo saari karo xog waxtar leh. Waxa laga yaabaa, tusaale ahaan, in ay ogaato jilayaasha sawirka oo ay aqoonsato qoraaga buug.
Waa qalab aad waxtar u leh maaraynta dukumiintiga, gelinta xogta, iyo falanqaynta nuxurka.
Sababaynta iyo ka-abuurista aqoonta
Multi-modal-GPT waxay sababeyn kartaa oo soo saari kartaa aqoonta adduunka. Tani waxay ka dhigan tahay inay bixin karto sharraxaad buuxa oo sawirro ah oo xitaa u sheegi karta xilliga sawirka la qaaday.
Xirfadani waxay faa'iido u leedahay qaybo kala duwan, oo ay ku jiraan la socodka deegaanka, beeraha, iyo saadaasha hawada. Qaabku waxa kale oo uu dhalin karaa waxyaabo hal abuur leh sida gabayada, sheekooyinka, iyo heesaha, taas oo ka dhigaysa qalab aad u fiican oo loogu talagalay hawlaha hal-abuurka.
Hawlaha Gudaha ee MultiModal-GPT
Qaabka Tilmaamaha Midaysan
Kooxdu waxay soo bandhigaysaa hal qaab oo loogu talagalay isku dhafka xogta luuqadaha midaysan iyo xogta-aragti-iyo-luqad-badan si ay si habboon ugu tababarto qaabka MultiModal-GPT si wada jir ah.
Istaraatiijiyadan isku dhafka ah waxay isku daydaa inay hagaajiso waxqabadka moodeelka ee hawlo kala duwan iyadoo laga faa'iidaysanayo awoodaha dhammaystirka ah ee hababka xogta iyo dhiirigelinta faham qoto dheer ee fikradaha hoose.
Dolly 15k iyo Alpaca GPT4 xog-ururinta ayaa kooxdu isticmaashaa si ay u cabbiraan luqadda-kaliya awoodaha raacaya. Xog-ururintani waxay u shaqeeyaan sidii qaab-habayn degdeg ah oo loogu talagalay habaynta gelinta xog-ururinta si loo dammaanad qaado hab-raac habraac joogto ah.
Sawirka: Dulmarka xogta Doly 15k
Sidee buu Modelku u shaqeeyaa?
Saddex qaybood oo muhiim ah ayaa ka kooban qaabka MultiModal-GPT: cod-dejiyaha luqadda, sawir-sameeyaha wax-fahamka, iyo cod-bixiyaha aragga. Sawirka waxaa qaadaya vision codeer-ka, kaas oo markaa soo saara ururin sifooyin ah oo lagu garto.
Codeeyaha luqadda wuxuu isticmaalaa macluumaadka ka yimid codeeyaha aragga si uu u abuuro qoraal qeexaya sawirka iyadoo la kaashanayo dib-u-samaynta wax arka.
Qaybta qaab-dhismeedka ee fahamsan luqadda soona saaraya qoraalka waa furaha luqadda. Si loo saadaaliyo kelmada soo socota ee weedha, moodeelka waxa lagu tababbaray iyadoo la isticmaalayo xogta raacda luqadda-kaliya iyo aragga-iyo barashada luqadda.
Tani waxay baraysaa tusaalaha sida looga falceliyo amarada ka yimaada bini'aadamka waxayna siisaa qoraalka la aqbali karo ee sharaxaadda sawirka.
Kooxda Ka Danbaysa
MultiModal-GPT waxaa sameeyay koox cilmi-baarayaal iyo injineero ah oo ka tirsan Microsoft Research Asia oo ay hogaaminayaan Tao Gong, Chengqi Lyu, iyo Shilong Zhang. Yudong Wang, Miao Zheng, Qian Zhao, Kuikun Liu, Wenwei Zhang, Ping Luo, iyo Kai Chen dhamaantood waxa ay gacan ka geysteen daraasadda iyo horumarka modelka.
Habaynta luqadda dabiiciga ah, aragtida kombiyuutarka, iyo barashada mishiinku waa dhammaan qaybaha kartida ee kooxda. Waxay hayaan maqaallo dhowr ah oo lagu daabacay shirar heer sare ah iyo daabacaadyo, iyo sidoo kale sharafyo iyo abaal-marin kala duwan oo dadaalkooda cilmiyeed.
Cilmi-baarista kooxdu waxay diiradda saartaa horumarinta moodooyinka goynta-goynta iyo hababka si ay awood ugu yeeshaan is-dhexgalka dabiiciga ah iyo caqli-galnimada ee u dhexeeya bini'aadamka iyo tiknoolajiyada.
Horumarinta Multi-modal-GPT waa guul muhiim ah oo laga gaaray goobta maadaama ay tahay mid ka mid ah moodooyinka ugu horreeya ee lagu daro aragtida iyo luqadda qaab-dhismeedka hal-abuurka ah ee dood-wareegyo badan.
Wax ku biirinta kooxda ee MultiModal-GPT cilmi baarista iyo horumarinta waxay awood u leeyihiin inay saameyn la taaban karo ku yeeshaan mustaqbalka habaynta luqadda dabiiciga ah iyo isdhexgalka mashiinka bini'aadamka.
Sida Loo Isticmaalo MultiModal-GPT
Kuwa bilowga ah, isticmaalka MultiModal-GPT aaladda waa mid fudud. Si fudud u tag https://mmgpt.openmmlab.org.cn/ oo taabo badhanka "Upload Image".
Dooro faylka sawirka si aad u soo rogto, ka dibna ku qor qoraalka degdega ah goobta qoraalka. Si aad jawaab uga abuurto moodeelka, dhagsii badhanka "Submit", kaas oo ka soo bixi doona meel ka hoosaysa goobta qoraalka.
Waxa laga yaabaa inaad tijaabiso sawiro iyo tilmaamo kala duwan si aad wax badan uga ogaato awooda modelka.
Ku xiridda
Si aad u rakibto xirmada MultiModal-GPT, isticmaal amarka terminal "git clone https://github.com/open-mmlab/Multimodal-GPT.git" si aad uga xidho kaydka GitHub. Waxaad si fudud u raaci kartaa tallaabooyinkan:
git clone https://github.com/open-mmlab/Multimodal-GPT.git
cd Multimodal-GPT
pip install -r requirements.txt
pip install -v -e .
Haddii kale, isticmaal conda env create -f environment.yml
si loo dhiso deegaan conda cusub. Waxaad ku socodsiin kartaa bandhiga gudaha ka dib marka aad ku rakibto adigoo soo dejinaya miisaankii hore loo tababaray oo ku kaydin jiray galka isbaarooyinka.
Bandhiga Gradio waxaa laga yaabaa in markaas la bilaabo iyadoo la wado amarka "python app.py".
Dib u dhacyo suurtagal ah
Qaabka MultiModal-GPT ayaa weli leh cillado iyo qol loogu talagalay horumarinta inkastoo uu si fiican u shaqeynayo.
Tusaale ahaan, marka lala tacaalayo agabka aragga ee adag ama mugdiga leh, moodelku waxa laga yaabaa in aanu had iyo jeer awoodin in uu aqoonsado oo fahmo macnaha guud ee gelinta. Tani waxay keeni kartaa saadaal aan sax ahayn ama falcelinta moodeelka.
Intaa waxaa dheer, gaar ahaan marka gelinta ay adag tahay ama furan tahay, moodeelku waxaa laga yaabaa inuusan mar walba soo saarin falcelinta ama natiijada ugu fiican. Jawaabta tusaalaha, tusaale ahaan, waxa laga yaabaa in ay saamaysay sida ay isku midka yihiin daboolka labada buug ee ku saabsan aqoonsiga khaldan ee daboolka buugta.
Ugu Dambeyn
Guud ahaan, qaabka MultiModal-GPT wuxuu u taagan yahay horumar weyn oo xagga habaynta luqadda dabiiciga ah iyo barashada mashiinka. Waana arrin aad u xiiso badan in la isticmaalo oo lagu tijaabiyo. Markaa, waa inaad sidoo kale tijaabisaa!
Si kastaba ha ahaatee, waxay leedahay xad, sida dhammaan moodooyinka, waxayna u baahan tahay sifeyn dheeraad ah iyo kobcin si loo helo waxqabadka ugu sarreeya ee codsiyada iyo qaybaha kala duwan.
Leave a Reply